Symptomchecker

Beispielawendungen

Beispiele Symptomchecker
Name	URL
Mediktor	my.mediktor.com
Ada	ada.com
Symptoma	symptoma.com

Studien

Symptomchecker

Die Studie “Diagnostic Accuracy of Web-Based COVID-19 Symptom Checkers: Comparison Study” von Nicolas Munsch, Alistair Martin und weiteren Autoren, veröffentlicht im Oktober 2020 im Journal of Medical Internet Research (DOI: 10.2196/21299), bewertet die diagnostische Genauigkeit von zehn webbasierten COVID-19-Symptomcheckern. Sie analysiert deren Leistung anhand von 50 COVID-19-Fällen und 410 Kontrollfällen ohne COVID-19, wobei Sensitivität, Spezifität, F1-Score und Matthews-Korrelationskoeffizient (MCC) ermittelt wurden. Die Ergebnisse zeigen große Unterschiede: Symptoma (F1=0.92, MCC=0.85) und Infermedica (F1=0.80, MCC=0.61) erzielten die besten Werte für „hohes Risiko“, während andere wie Ada (F1=0.24) und Your.MD (F1=0.24) schlechter abschnitten. Die Studie hebt hervor, dass nur zwei Checker ein gutes Gleichgewicht zwischen Sensitivität und Spezifität bieten, und betont die Bedeutung solcher Tools für Triage und Entlastung des Gesundheitswesens während der Pandemie, trotz variabler Zuverlässigkeit. (Munsch u. a. 2020)

Die Studie “Comparison of Two Symptom Checkers (Ada and Symptoma) in the Emergency Department: Randomized, Crossover, Head-to-Head, Double-Blinded Study” von Johannes Knitza und Kollegen, veröffentlicht 2024 im Journal of Medical Internet Research (DOI: 10.2196/56514), vergleicht die diagnostische Genauigkeit, Sicherheit, Benutzbarkeit und Akzeptanz der Symptomchecker Ada und Symptoma in der Notaufnahme des Universitätsklinikums Erlangen. In einer randomisierten, doppelt verblindeten Crossover-Studie mit 437 Patienten zwischen April und November 2021 zeigte Ada eine höhere diagnostische Genauigkeit (identische Diagnose bei 14 % vs. 4 % für Symptoma als Top-Diagnose) und bessere Benutzbarkeit (88 % vs. 78 % fanden sie einfach). Beide Checker übersahen jedoch bei 13–14 % der Fälle potenziell lebensbedrohliche Diagnosen, und Ada triagierte 34 % korrekt, aber 13 % zu niedrig. Die Akzeptanz war gering (NPS: Ada –34, Symptoma –47). Die Autoren warnen vor der unkritischen Nutzung solcher Tools in Notfällen und fordern strengere klinische Evaluationsstudien. (Knitza u. a. 2024)

Die Studie “Vom Symptom zur Diagnose – Tauglichkeit von Symptom-Checkern: Update aus Sicht der HNO” von J. Nateqi und Kollegen, veröffentlicht am 16. April 2019 in HNO (Band 67, S. 334–342), untersucht die diagnostische Genauigkeit moderner Symptomchecker aus der Perspektive der Hals-Nasen-Ohren-Heilkunde. Sie aktualisiert eine Harvard-Studie von 2015, die eine Treffergenauigkeit von 29–71 % feststellte, indem sie fünf neue Checker (Symptoma, Ada, FindZebra, Mediktor, Babylon) einbezieht und die Ergebnisse normiert. Symptoma sticht mit 82,2 % (Top 1), 100 % (Top 3 und Top 10) heraus und übertrifft den bisherigen Standard deutlich. In einem HNO-spezifischen Test mit Fällen aus dem British Medical Journal erreicht Symptoma 64,3 % (Top 1), 92,9 % (Top 3) und 100 % (Top 10), weit vor Isabel (21,4 %; 40,5 %; 61,9 %) und FindZebra (26,2 %; 42,9 %; 54,8 %). Die Autoren schließen, dass Symptoma als einzige praxistaugliche Lösung gilt, empfehlen jedoch größere Studien, insbesondere zu seltenen Krankheiten. (Nateqi u. a. 2019)

Die Studie „Evaluation of symptom checkers for self diagnosis and triage: audit study“ von 2015 untersucht die Genauigkeit von 23 frei verfügbaren, englischsprachigen Online-Symptomcheckern anhand von 45 standardisierten Patientenvignetten, die nach Dringlichkeit der Triage (Notfall, nicht dringend, Selbstbehandlung) kategorisiert wurden. Die Ergebnisse zeigen, dass die Symptomchecker in 34 % der Fälle die richtige Diagnose an erster Stelle nannten, in 58 % die richtige Diagnose unter den ersten 20 Diagnosen aufführten und in 57 % der Fälle angemessene Triage-Ratschläge gaben, wobei die Leistung bei Notfällen (80 %) besser war als bei Selbstbehandlungsfällen (33 %). Die Studie weist auf Mängel in der diagnostischen und Triage-Genauigkeit hin und stellt fest, dass Symptomchecker oft risikoscheu sind und häufig medizinische Versorgung empfehlen, wenn Selbstbehandlung ausreichend wäre. (Semigran u. a. 2015)

Selbstriagierung

Die Studie “Correlating global trends in COVID-19 cases with online symptom checker self-assessments” von Marc Zobel, Bernhard Knapp, Jama Nateqi und Alistair Martin, veröffentlicht am 10. Februar 2023 in PLOS ONE, untersucht die Beziehung zwischen den Risikobewertungen eines Online-Symptomcheckers und den weltweiten Trends bei COVID-19-Infektionen. Sie analysiert Daten des Symptomcheckers Symptoma (www.symptoma.com) aus 18 Ländern und vergleicht diese mit offiziellen Infektionszahlen, um Korrelationen zu ermitteln. Die Studie zeigt eine durchschnittliche Korrelation von 0,342 zwischen den als risikoreich eingestuften Nutzern und den bestätigten Fällen, wobei diese Korrelation mit der selbstberichteten Gesundheit eines Landes zusammenhängt. Zudem stellt sie fest, dass die Trends im Symptomchecker den offiziellen Zahlen meist um drei Tage vorausgehen. Die Autoren schließen, dass Online-Symptomchecker nationale Infektionstrends erfassen können und somit ein wertvolles Werkzeug für die Pandemiebekämpfung darstellen. Die Daten sind unter github.com/symptoma/global_trends_symp_c19 verfügbar. (Zobel u. a. 2023)

Die Studie „Laypeople’s Use of and Attitudes Toward Large Language Models and Search Engines for Health Queries: Survey Study“ untersucht, wie Laien in den USA große Sprachmodelle (LLMs) wie ChatGPT und Suchmaschinen wie Google für Gesundheitsfragen nutzen, und zeigt Auswirkungen für die ambulante medizinische Versorgung. Während Suchmaschinen mit 95,6 % Nutzung die Hauptquelle bleiben, verwenden bereits 32,6 % LLMs, wobei 13,9 % diese sogar als erste Anlaufstelle wählen – ein Hinweis auf eine wachsende Akzeptanz, die den Zugang zu Gesundheitsinformationen erleichtert und die Patientenautonomie stärkt. (Mendel u. a. 2025)

Die Studie „The RepVig framework for designing use-case specific representative vignettes and evaluating triage accuracy of laypeople and symptom assessment applications“ von Marvin Kopka et al. (Scientific Reports, 2024) stellt den RepVig Framework vor, der repräsentative Vignetten für die Bewertung von Selbsttriage-Entscheidungen durch Laien, Symptom-Assessment-Apps (SAAs) und Large Language Models (LLMs) entwickelt. Basierend auf repräsentativen Designprinzipien wurden 45 Vignetten aus Reddit-Posts (Subreddit r/AskDocs) gesammelt und mit traditionellen, von Klinikern erstellten Vignetten verglichen. Die Ergebnisse zeigen, dass repräsentative Vignetten höhere Genauigkeit (OR=1.52-2.00), Sicherheit (OR=1.81-3.41) und Neigung zur Übertriage (OR=1.80-2.66) bei Laien, SAAs und LLMs erzielen, wobei sich die Rangfolge der besten SAAs und LLMs ändert. Die Autoren empfehlen, den RepVig Framework für zukünftige Studien zu nutzen, um realitätsnähere Vignetten zu erstellen und die Generalisierbarkeit von Triage-Leistungen zu verbessern. (Kopka u. a. 2024)

Die Studie „Technology-supported self-triage decision making“ von Marvin Kopka et al. (npj Health Systems, 2025) untersucht, wie Laien Symptom-Assessment-Apps (SAAs) und Large Language Models (LLMs) für Selbsttriage-Entscheidungen nutzen. Durch eine konvergente Mixed-Methods-Studie mit Interviews und einem randomisierten kontrollierten Versuch zeigt die Studie, dass Entscheidungsprozesse durch Faktoren vor, während und nach der Interaktion beeinflusst werden. Laien nutzen Technologie für Informationssammlung und -analyse, bleiben aber für die Integration und finale Entscheidung verantwortlich. Quantitative Ergebnisse zeigen, dass die Entscheidungsgenauigkeit mit einer leistungsstarken SAA (Ada) von 53,2 % auf 64,5 % steigt (OR=2,52, p<0,001), nicht jedoch mit ChatGPT (54,8 % vor vs. 54,2 % nach Nutzung, p=0,79). Die Autoren schlagen ein Modell für technologiegestützte Selbsttriage vor und betonen die Notwendigkeit, Mensch-Technologie-Teams statt isolierter Systeme zu untersuchen. (Kopka u. a. 2025)

Sprachmodelle

Die Studie „From Tool to Teammate: A Randomized Controlled Trial of Clinician-AI Collaborative Workflows for Diagnosis“ untersucht die Integration eines speziell entwickelten GPT-Systems in klinische Diagnoseprozesse. An der Studie nahmen 70 Kliniker teil, die zwei kollaborative Ansätze – KI zuerst und KI danach – mit herkömmlichen Methoden verglichen. Beide KI-gestützten Arbeitsabläufe verbesserten die Diagnosegenauigkeit auf 85 % bzw. 82 % im Vergleich zu 75 % bei traditionellen Methoden, was signifikante Verbesserungen zeigt (p < 0,0004 und p < 0,00001). Die Studie betont das Potenzial kollaborativer KI-Systeme, die Expertise von Klinikern zu ergänzen und die diagnostische Entscheidungsfindung zu optimieren. (Everett u. a. 2025)

Die 2023 in JAMA veröffentlichte Studie “Accuracy of a generative artificial intelligence model in a complex diagnostic challenge” untersucht die diagnostische Genauigkeit des Generative Pre-trained Transformer 4 (GPT-4) anhand von 70 medizinischen Fällen aus den New England Journal of Medicine Clinicopathologic Conferences. GPT-4 identifizierte in 39 % der Fälle die korrekte Diagnose als Hauptdiagnose und in 64 % war die richtige Diagnose in der Differentialdiagnose enthalten. Die durchschnittliche Qualitätsbewertung der Differentialdiagnosen lag bei 4,2 von 5, was eine numerische Überlegenheit gegenüber früheren Diagnosegeneratoren zeigt. Trotz vielversprechender Ergebnisse weist die Studie auf Einschränkungen wie Subjektivität in der Bewertung und potenzielle diagnostische Schwächen hin, die weitere Forschung erfordern. (Kanjee, Crowe, und Rodman 2023)

Leistungsvergleich

Benchmarking ist ein systematischer Prozess, bei dem die Leistungsfähigkeit von Systemen, wie großen Sprachmodellen (LLMs), durch Vergleich mit einem definierten Standard gemessen wird, um Stärken und Schwächen zu identifizieren und Verbesserungen voranzutreiben. Der Artikel “DiagnosisArena: Benchmarking Diagnostic Reasoning for Large Language Models” veranschaulicht dies durch einen anspruchsvollen Benchmark, der die diagnostischen Fähigkeiten von LLMs in komplexen klinischen Szenarien testet. DiagnosisArena umfasst 1.113 strukturierte Fälle aus 28 medizinischen Fachbereichen, basierend auf Fallberichten aus Journalen wie Lancet und NEJM. Durch einen mehrstufigen Prozess aus Datensammlung, Segmentierung, iterativem Filtern und Experten-KI-Verifikation stellt der Benchmark sicher, dass nur komplexe Fälle mit ausreichenden diagnostischen Hinweisen enthalten sind. Modelle wie o3-mini (45,82 % Genauigkeit), o1 (31,09 %) und DeepSeek-R1 (17,79 %) zeigen erhebliche Schwächen, was eine Generalisierungslücke bei klinischen Diagnosen aufdeckt. Multiple-Choice-Formate vereinfachen die Aufgabe künstlich, da Modelle wie o1 hier 61,90 % erreichen, was ihre wahren Reasoning-Fähigkeiten nicht widerspiegelt. (Zhu u. a. 2025)

Die Studie trägt den Titel “What is the suitability of clinical vignettes in benchmarking the performance of online symptom checkers? An audit study” und untersucht, inwieweit klinische Vignetten geeignet sind, die Leistung von Online-Symptom-Checkern (OSC) zu bewerten. Die Autoren stellten fest, dass klinische Vignetten nur bedingt zur Messung der diagnostischen Genauigkeit oder der Triage-Sicherheit von OSCs taugen, da die Interpretation der Vignetten durch unterschiedliche Ärzte und Eingebende zu signifikant unterschiedlichen diagnostischen und Triage-Lösungen führen kann. Es wurde beobachtet, dass die Leistung des getesteten OSC (Healthily) im Vergleich zum ursprünglichen Standard signifikant besser war, wenn sie gegen eine konsolidierte Lösung aus den Meinungen mehrerer Ärzte bewertet wurde; dies unterstreicht die inhärente Subjektivität und die Grenzen dieses Bewertungsansatzes. Die Schlussfolgerung empfiehlt daher real-world evidence Studien unter Einbeziehung echter Patienten, um die Leistung von OSCs im Vergleich zu einem Ärzteteam zu bewerten. (El-Osta u. a. 2022)

github.com/healtheja/carerouteai-data

Weiteres

Die Studie „AI Act Compliance Within the MyHealth@EU Framework: Tutorial“ beschreibt die Integration von KI in klinische Workflows unter Berücksichtigung der EU-KI-Verordnung und des MyHealth@EU-Interoperabilitätsrahmens. KI-basierte Entscheidungsunterstützungssysteme gelten automatisch als hochrisikorelevant und erfordern Sicherheits- und Ethikkontrollen. Der grenzüberschreitende Datenaustausch muss zudem semantische Anforderungen über OpenNCP-Gateways erfüllen. Das Tutorial schlägt minimale Erweiterungen für HL7 CDA und FHIR vor, um KI-Beteiligung, Herkunft und Risikoklassifikation zu dokumentieren. Eine phasenbasierte Checkliste sowie ein simuliertes International Patient Summary-Beispiel gewährleisten rückwärtskompatible Compliance und Vertrauenswürdigkeit.

El-Osta, Austen, Iman Webber, Aos Alaa, Emmanouil Bagkeris, Saba Mian, Mansour Taghavi Azar Sharabiani, und Azeem Majeed. 2022. „What is the suitability of clinical vignettes in benchmarking the performance of online symptom checkers? An audit study“. BMJ open 12 (4): e053566.

Everett, Selin S, Bryan J Bunning, Priyank Jain, Ivan Lopez, Anup Agarwal, Manisha Desai, Robert Gallo, u. a. 2025. „From tool to teammate: A randomized controlled trial of clinician-AI collaborative workflows for diagnosis“. medRxiv.

Kanjee, Zahir, Byron Crowe, und Adam Rodman. 2023. „Accuracy of a generative artificial intelligence model in a complex diagnostic challenge“. Jama 330 (1): 78–80.

Knitza, Johannes, Ragip Hasanaj, Jonathan Beyer, Franziska Ganzer, Anna Slagman, Myrto Bolanaki, Hendrik Napierala, u. a. 2024. „Comparison of Two Symptom Checkers (Ada and Symptoma) in the Emergency Department: Randomized, Crossover, Head-to-Head, Double-Blinded Study“. Journal of Medical Internet Research 26: e56514.

Kopka, Marvin, Hendrik Napierala, Martin Privoznik, Desislava Sapunova, Sizhuo Zhang, und Markus A Feufel. 2024. „The RepVig framework for designing use-case specific representative vignettes and evaluating triage accuracy of laypeople and symptom assessment applications“. Scientific Reports 14 (1): 30614.

Kopka, Marvin, Sonja Mei Wang, Samira Kunz, Christine Schmid, und Markus A Feufel. 2025. „Technology-supported self-triage decision making“. npj Health Systems 2 (1): 3.

Mendel, Tamir, Nina Singh, Devin M Mann, Batia Wiesenfeld, und Oded Nov. 2025. „Laypeople’s Use of and Attitudes Toward Large Language Models and Search Engines for Health Queries: Survey Study“. J Med Internet Res 27 (Februar): e64290. https://doi.org/10.2196/64290.

Munsch, Nicolas, Alistair Martin, Stefanie Gruarin, Jama Nateqi, Isselmou Abdarahmane, Rafael Weingartner-Ortner, und Bernhard Knapp. 2020. „Diagnostic accuracy of web-based COVID-19 symptom checkers: comparison study“. Journal of medical Internet research 22 (10): e21299.

Nateqi, J, S Lin, H Krobath, S Gruarin, T Lutz, T Dvorak, A Gruschina, und R Ortner. 2019. „Vom symptom zur diagnose–Tauglichkeit von symptom-checkern: update aus Sicht der HNO“. HNO 67: 334–42.

Semigran, Hannah L, Jeffrey A Linder, Courtney Gidengil, und Ateev Mehrotra. 2015. „Evaluation of symptom checkers for self diagnosis and triage: audit study“. BMJ 351. https://doi.org/10.1136/bmj.h3480.

Zhu, Yakun, Zhongzhen Huang, Linjie Mu, Yutong Huang, Wei Nie, Jiaji Liu, Shaoting Zhang, Pengfei Liu, und Xiaofan Zhang. 2025. „DiagnosisArena: Benchmarking Diagnostic Reasoning for Large Language Models“. https://arxiv.org/abs/2505.14107.

Zobel, Marc, Bernhard Knapp, Jama Nateqi, und Alistair Martin. 2023. „Correlating global trends in COVID-19 cases with online symptom checker self-assessments“. Plos one 18 (2): e0281709.

Hinweis

Der Text erhebt keinen Anspruch auf Vollständigkeit oder Korrektheit und stellt keine Rechtsberatung dar. Anmerkungen können in der rechten Seitenleiste mit Hypothes.is sozialem Annotierungswerkzeug oder am unteren Ende einer Seite mit GitHub Giscus Diskussionen hinterlassen werden.