Leistungsvergleich Sprachmodelle

Der Artikel „A clinical environment simulator for dynamic AI evaluation“ erschien am 12. März 2026 in der Zeitschrift Nature Medicine als Perspective. Die Autoren um Luyang Luo, Sung Eun Kim und Pranav Rajpurkar schlagen darin den Clinical Environment Simulator (CES) vor, ein Evaluationsframework für klinische Large Language Models (LLMs). Im Gegensatz zu bisherigen statischen Benchmarks simuliert der CES digitale Krankenhausumgebungen, in denen Entscheidungen der KI dynamisch den Zustand von Patienten, Bettenbelegung, Personalauslastung und Ressourcen verändern. Das System besteht aus einem Hospital Engine für systemweite Parameter und einem Patient Engine für Krankheitsverläufe und Therapieantworten. Dadurch lassen sich zeitliche Kausalitäten, ressourcenbewusste Entscheidungen sowie Resilienz gegenüber simultanen Notfällen und Systemausfällen testen. Der CES bewertet die KI nicht nur an klinischen Ergebnissen, sondern auch an betrieblichen Metriken und stellt damit einen Paradigmenwechsel hin zu einer realistischeren Integration von KI in Gesundheitssysteme dar.

„Large language models in healthcare: a systematic evaluation on medical Q/A datasets“ ist eine systematische Studie zur Leistungsbewertung großer Sprachmodelle im medizinischen Frage-Antwort-Kontext. Untersucht werden mehrere LLMs wie GPT-4 und Med-PaLM-2 anhand von Benchmarks wie PubMedQA, MedQA und MedMCQA. Die Ergebnisse zeigen Unterschiede in der Genauigkeit je nach Modellgröße, Trainingsdaten und Domänenspezialisierung sowie bestehende Herausforderungen wie Halluzinationen und Bias.

Medical AI Benchmarks & Datasets

Text & QA Benchmarks

Multimodal & Medical Image Benchmarks

Medical Imaging Datasets (Kaggle)

Agent / Tool-use Benchmark

Tools & Frameworks

unitxt.ai

PubMedQA

Der Artikel „PubMedQA: A Dataset for Biomedical Research Question Answering“ beschreibt einen biomedizinischen Frage-Antwort-Datensatz, der auf PubMed-Abstracts basiert. Ziel ist die Beantwortung wissenschaftlicher Forschungsfragen mit „yes/no/maybe“ anhand medizinischer Abstracts. Der Datensatz umfasst 1.000 expertannotierte, 61.200 ungelabelte und 211.300 künstlich generierte QA-Instanzen. Besonders relevant ist der Fokus auf komplexes wissenschaftliches und quantitatives Reasoning in biomedizinischen Texten. Als Baseline erreichte ein mehrphasig feinjustiertes BioBERT-Modell eine Genauigkeit von 68,1 %, während menschliche Einzelannotatoren 78 % erzielten. PubMedQA dient damit als Benchmark für KI-Modelle im Bereich wissenschaftlicher Textverständnis- und Clinical-AI-Forschung.

Der Working Paper „On the Performance of an Explainable Language Model on PubMedQA“ von Gyan AI beschreibt ein alternatives, neuro-symbolisches Sprachmodell, das ohne klassisches Transformer-Training arbeitet. Statt probabilistischer Token-Vorhersage setzt das System auf semantische Wissensgraphen, rhetorische Relationen und externe Wissensspeicher. Laut den Autoren erreicht Gyan-4.3 auf dem Benchmarkdatensatz PubMedQA eine Genauigkeit von 87,1 % und übertrifft damit veröffentlichte Ergebnisse von GPT-4 MedPrompt und Med-PaLM 2. Hervorgehoben werden insbesondere Transparenz, Nachvollziehbarkeit und die behauptete Abwesenheit von Halluzinationen. Da es sich um ein nicht peer-reviewtes Working Paper handelt, sind unabhängige Replikationen und externe Validierungen der Resultate weiterhin notwendig.

„Improving Small Language Models on PubMedQA via Generative Data Augmentation“ untersucht, wie kleine Sprachmodelle (SLMs) im medizinischen Frage-Antwort-Bereich durch synthetisch erzeugte Trainingsdaten verbessert werden können. Die Autoren zeigen, dass GPT-4-basierte Datenaugmentation die Leistung kleiner Modelle wie BioGPT deutlich steigert. Auf dem Datensatz PubMedQA erreichte ein feinabgestimmtes BioGPT-Modell mit weniger als 1,6 Milliarden Parametern eine höhere Genauigkeit als Few-Shot-GPT-4. Die Studie verdeutlicht zudem, dass domänenspezifisches Vortraining und hochwertige generative Datenaugmentation entscheidend für leistungsfähige und zugleich effiziente medizinische KI-Modelle sind.

“PubMed Reasoner: Dynamic Reasoning-based Retrieval for Evidence-Grounded Biomedical Question Answering” presents a multi-stage biomedical QA system specifically evaluated on PubMedQA. It improves trustworthy question answering by combining self-critic MeSH query refinement, iterative reflective retrieval over PubMed, and evidence-grounded generation with explicit citations. On the PubMedQA benchmark, the system achieves 78.32% accuracy, slightly surpassing human performance, and also shows consistent gains on MMLU Clinical Knowledge. The key focus is improving reliability and factual grounding in biomedical question answering through retrieval-first reasoning over authoritative literature while maintaining computational efficiency.

Der Preprint „PhysicianBench: Evaluating LLM Agents in Real-World EHR Environments“ von Forschenden der Stanford University präsentiert einen neuen Benchmark zur Bewertung autonomer KI-Agenten in realitätsnahen klinischen Arbeitsabläufen. PhysicianBench umfasst 100 ärztlich validierte Langzeitaufgaben in FHIR-basierten EHR-Umgebungen, die reale Konsultationsfälle aus 21 medizinischen Fachgebieten abbilden. Im Unterschied zu bisherigen Benchmarks prüft PhysicianBench nicht nur medizinisches Wissen oder einzelne Tool-Aufrufe, sondern komplexe klinische Workflows mit Datenabruf, klinischer Entscheidungsfindung, Verordnung, Dokumentation und EHR-Schreibzugriff. Die Aufgaben erfordern durchschnittlich 27 Tool-Calls und werden über 670 strukturierte Checkpoints bewertet. Die Evaluation von zwölf proprietären und Open-Source-Modellen zeigt deutliche Grenzen aktueller Systeme. Das beste Modell, GPT-5.5, erreicht lediglich 46,3 % Pass@1 und nur 28 % konsistente Erfolge über drei Durchläufe hinweg. Open-Source-Modelle bleiben deutlich darunter; DeepSeek V4-Pro erzielt maximal 18,7 %. Klinisches Reasoning erweist sich als zentrale Schwachstelle aller Modelle. Die Studie argumentiert, dass verifizierbare, FHIR-basierte EHR-Interaktion entscheidend ist, um Fortschritte bei medizinischen KI-Agenten realistisch zu messen. PhysicianBench wird vollständig Open Source veröffentlicht und soll als Referenzsystem für zukünftige klinische Agentenforschung dienen.

„General-purpose large language models outperform specialized clinical AI tools on medical benchmarks“ Die in Nature Medicine veröffentlichte Studie vergleicht spezialisierte klinische KI-Systeme (OpenEvidence und UpToDate Expert AI) mit allgemeinen Sprachmodellen wie GPT-5.2, Gemini 3.1 Pro und Claude Opus 4.6. In drei Evaluationsstufen – MedQA, HealthBench und einem neuen Benchmark mit realen ärztlichen Anfragen – erzielten die allgemeinen LLMs durchgängig bessere Ergebnisse als die spezialisierten klinischen Werkzeuge. Besonders bei medizinischem Wissen, klinischer Übereinstimmung mit Expertenurteilen sowie der Qualität realer Antworten an Ärztinnen und Ärzte lagen die Frontier-Modelle vorn. Die Autoren betonen die Notwendigkeit unabhängiger, praxisnaher Bewertungen von KI-Systemen vor ihrem breiten Einsatz im Gesundheitswesen.

AMEGA

„Autonomous medical evaluation for guideline adherence of large language models“ beschreibt die Entwicklung des AMEGA-Benchmarks zur systematischen Bewertung großer Sprachmodelle hinsichtlich ihrer Einhaltung medizinischer Leitlinien. Die Studie analysiert 17 LLMs anhand von 20 klinischen Szenarien aus 13 Fachgebieten und bewertet deren diagnostische und therapeutische Entscheidungsfähigkeit. Die Ergebnisse zeigen eine insgesamt hohe Leistungsfähigkeit moderner Modelle, aber weiterhin deutliche Defizite insbesondere bei komplexen klinischen Entscheidungsprozessen wie Differenzialdiagnosen und Behandlungsstrategien.

MedHELM

„MedHELM“ ist ein wissenschaftliches Evaluationsframework zur systematischen Bewertung von Large Language Models in medizinischen Anwendungsszenarien. Die Studie entwickelt eine klinisch validierte Taxonomie mit 121 Aufgaben sowie einen umfassenden Benchmark aus 35 Tests zur realitätsnahen Leistungsanalyse. Im Fokus stehen dabei unterschiedliche medizinische Tätigkeitsbereiche, die Kosten-Leistungs-Bewertung sowie die Übereinstimmung von KI- und klinischen Bewertungen.

MedExQA

„MedExQA: Medical Question Answering Benchmark with Multiple Explanations“ stellt ein neues medizinisches Frage-Antwort-Benchmark vor, das mehrere Erklärungen pro Antwort integriert. Ziel ist es, die Bewertung von Large Language Models über reine Genauigkeitsmetriken hinaus zu erweitern. Der Datensatz umfasst fünf unterrepräsentierte medizinische Fachgebiete und legt einen Fokus auf die Qualität und Nachvollziehbarkeit von Modellantworten.

MedQA

„MedQA-CS: Objective Structured Clinical Examination (OSCE)-Style Benchmark for Evaluating LLM Clinical Skills“ beschreibt ein neues Evaluationsframework für große Sprachmodelle im klinischen Kontext. Die Studie überträgt das OSCE-Prinzip aus der medizinischen Ausbildung auf LLMs und bewertet deren klinische Fähigkeiten in interaktiven, mehrstufigen Patientensimulationen. Ziel ist eine realitätsnähere Messung klinischer Kompetenz jenseits klassischer Multiple-Choice-Benchmarks.

„What Disease does this Patient Have? A Large-scale Open Domain Question Answering Dataset from Medical Exams“ beschreibt die Einführung des MEDQA-Datensatzes für medizinische Open-Domain-Question-Answering-Systeme. Der Datensatz basiert auf realen medizinischen Prüfungsfragen aus verschiedenen Ländern und ist darauf ausgelegt, die Leistungsfähigkeit von KI-Systemen bei komplexem klinischem Reasoning und evidenzbasierter Beantwortung zu testen.

MMLU Clinical Knowledge

„Large language models encode clinical knowledge“ (Nature, 2023) beschreibt die systematische Bewertung großer Sprachmodelle hinsichtlich ihres medizinischen Wissens. Die Studie führt mit MultiMedQA einen Benchmark für medizinische Frage-Antwort-Daten ein und zeigt, dass skalierte und instruction-tuned Modelle wie Flan-PaLM hohe Leistungen in klinischen Prüfungsfragen erreichen. Gleichzeitig werden deutliche Grenzen in Bezug auf Sicherheit, Faktentreue und klinische Anwendbarkeit aufgezeigt. Besonders die Auswertung durch Ärztinnen und Ärzte verdeutlicht, dass trotz starker Performance weiterhin Risiken durch Halluzinationen, Bias und fehlende Kontextsensitivität bestehen.

Weiteres

Die Studie „Reliability of LLMs as medical assistants for the general public: a randomized preregistered study“, veröffentlicht am 9. Februar 2026 in Nature Medicine, untersucht die Zuverlässigkeit großer Sprachmodelle (LLMs) wie GPT-4o, Llama 3 und Command R+ als medizinische Berater für Laien. In einem randomisierten kontrollierten Versuch mit 1.298 Teilnehmern aus dem Vereinigten Königreich bearbeiteten Probanden zehn realistische medizinische Szenarien, um mögliche Erkrankungen zu erkennen und eine angemessene Handlungsempfehlung (Disposition) zu wählen. Während die Modelle allein in 94,9 % der Fälle relevante Erkrankungen korrekt identifizierten und in 56,3 % die richtige Disposition empfahlen, erreichten Teilnehmer mit LLM-Unterstützung deutlich schlechtere Werte (unter 34,5 % bei Erkrankungen und unter 44,2 % bei Disposition), die nicht besser als in der Kontrollgruppe ohne KI waren. Die Autoren führen dies auf Interaktionsprobleme zwischen Nutzern und Modellen zurück und betonen, dass gängige Benchmarks sowie Simulationen die tatsächlichen Schwächen in realen Mensch-KI-Interaktionen nicht vorhersagen. Sie empfehlen daher systematische Tests mit echten Nutzern vor einem breiten Einsatz von LLMs in der öffentlichen Gesundheitsberatung.

Die Studie „Mapping the susceptibility of large language models to medical misinformation across clinical notes and social media: a cross-sectional benchmarking analysis“ wurde im Januar 2026 in der Zeitschrift The Lancet Digital Health (Volume 8, Issue 1, Artikel 100949) veröffentlicht. Sie untersucht in einer umfangreichen Querschnittsanalyse die Anfälligkeit von 20 großen Sprachmodellen (LLMs) für medizinische Fehlinformationen anhand von über 3,4 Millionen Prompts. Diese stammten aus drei Quellen: realen Krankenhaus-Entlassungsberichten mit eingefügten falschen Empfehlungen, echten Social-Media-Beiträgen (Reddit) mit medizinischen Mythen sowie validierten simulierten klinischen Szenarien. Zusätzlich wurde getestet, wie die Umformulierung der Inhalte als logische Fehlschlüsse (z. B. Appeal to Popularity oder Slippery Slope) die Akzeptanzrate beeinflusst. Die Ergebnisse zeigen eine durchschnittliche Anfälligkeit von etwa 32 % bei neutral formulierten falschen Aussagen, mit deutlich höheren Werten (46 %) bei klinisch formulierten Texten und niedrigeren bei informellen Social-Media-Inhalten; die meisten Fehlschluss-Umformulierungen verringerten die Anfälligkeit signifikant, während einige (wie Appeal to Authority) sie leicht erhöhten. Die Autoren schließen, dass die Sicherheit von LLMs im medizinischen Bereich stärker von kontextbezogenen Schutzmechanismen und Faktenverankerung abhängt als von Modellgröße allein.

Die Studie mit dem Titel „Mapping the susceptibility of large language models to medical misinformation across clinical notes and social media: a cross-sectional benchmarking analysis“ erschien im Januar 2026 in The Lancet Digital Health. In dieser großangelegten Querschnittsanalyse untersuchten die Autoren die Anfälligkeit von 20 Large Language Models (LLMs) für medizinische Fehlinformationen anhand von über 3,4 Millionen Prompts. Diese stammten aus drei Quellen: realen Krankenhaus-Entlassungsberichten (mit eingefügter falscher Empfehlung), Social-Media-Beiträgen (z. B. Reddit) und validierten simulierten klinischen Vignetten. Die Modelle zeigten insgesamt in 31,7 % der neutralen Basis-Prompts Anfälligkeit für die fabrizierten Inhalte, wobei die höchste Rate (46,1 %) bei modifizierten klinischen Notizen auftrat und die niedrigste (8,9 %) bei Social-Media-Inhalten. Die Umformulierung der falschen Aussagen als logische Fehlschlüsse (z. B. Appeal to Popularity) reduzierte die Akzeptanzrate in den meisten Fällen signifikant, während Appeal to Authority und Slippery Slope sie teilweise erhöhten. GPT-Modelle erwiesen sich als am wenigsten anfällig und am besten in der Erkennung von Fehlschlüssen, während die Ergebnisse die Notwendigkeit besserer faktengestützter Schutzmechanismen in medizinischen Anwendungen unterstreichen.

„Holistic evaluation of large language models for medical tasks with MedHELM“ ist ein in Nature Medicine am 20. Januar 2026 veröffentlichter Artikel von Suhana Bedi, Hejie Cui und weiteren Autoren, darunter Nigam H. Shah. Die Arbeit stellt das MedHELM-Framework vor, eine erweiterbare Evaluationsmethode für Large Language Models (LLMs) in medizinischen Anwendungen. Es umfasst eine klinisch validierte Taxonomie mit fünf Hauptkategorien (Clinical Decision Support, Clinical Note Generation, Patient Communication, Medical Research und Administration), 22 Unterkategorien und 121 konkreten Aufgaben, die reale klinische Praxis abbilden. Ergänzt wird dies durch 37 Benchmarks und einen systematischen Vergleich neun führender LLMs mittels einer automatisierten LLM-Jury-Bewertung. Die Ergebnisse zeigen, dass fortgeschrittene Reasoning-Modelle wie DeepSeek R1 und o3-mini die höchsten Win-Rates erreichen, während Modelle wie Claude 3.5 Sonnet vergleichbare Leistungen bei geringerem Rechenaufwand erbringen. MedHELM ermöglicht damit eine evidenzbasierte Auswahl von KI-Systemen für den Gesundheitsbereich und ist als Open-Source-Code verfügbar.

Die Preprint-Studie „Evaluating the AI Potential as a Safety Net for Diagnosis: A Novel Benchmark of Large Language Models in Correcting Diagnostic Errors“ von Ahmed Hassoon und Kollegen wurde am 24. Februar 2026 auf medRxiv veröffentlicht. Sie untersucht, inwieweit aktuelle Large Language Models (LLMs) als diagnostisches Sicherheitsnetz dienen können, indem sie fehlerhafte Arztdiagnosen erkennen und korrigieren. Dazu wurden 16 führende Modelle (darunter Gemini 2.5 Pro, Claude 3.5/4 Sonnet und GPT-o1) anhand von 200 standardisierten klinischen Vignetten zu 20 häufig fehldiagnostizierten, hochrisikorelevanten Erkrankungen getestet, wobei den Modellen jeweils eine falsche Diagnose vorgelegt wurde. Die besten Modelle korrigierten etwa die Hälfte der Fehler (Gemini 2.5 Pro: 55 %, Claude Sonnet 3.5: 48,5 %), während schwächere Modelle wie DeepSeek V3 nur 20 % erreichten. Viele Modelle zeigten Bestätigungsfehler (Confirmation Bias) und wiesen krankheitsspezifische Schwächen auf (z. B. bei Syphilis, Spinalem Epiduralabszess und Myokardinfarkt). Zudem erwies sich die Leistung als teilweise instabil gegenüber nicht-klinischen Kontextfaktoren wie Demografie oder Institutionsmerkmalen. Die Autoren schließen, dass LLMs derzeit nur begrenzt sicher einsetzbar sind und für eine klinische Nutzung skeptische, multi-agent-basierte Ansätze erforderlich wären.

„Sequential Diagnosis with Language Models“ (arXiv:2506.22405v2 [cs.CL], 2. Juli 2025) ist ein Paper von Forschern bei Microsoft AI, darunter Harsha Nori, Mayank Daswani, Christopher Kelly, Scott Lundberg, Marco Tulio Ribeiro und Eric Horvitz. Das Paper stellt den Sequential Diagnosis Benchmark (SDBench) vor, der 304 anspruchsvolle NEJM-CPC-Fälle in interaktive, schrittweise Diagnose-Szenarien umwandelt. Ein Diagnostiker (Arzt oder KI) beginnt mit einer kurzen Fallzusammenfassung und muss iterativ gezielte Fragen stellen oder Tests anfordern; eine Gatekeeper-Instanz gibt Informationen nur bei expliziter Anfrage frei. Die Bewertung erfolgt anhand der diagnostischen Genauigkeit und der kumulierten Kosten für Arztbesuche und Untersuchungen. Zusätzlich wird der MAI Diagnostic Orchestrator (MAI-DxO) eingeführt, ein modellagnostisches System, das ein virtuelles Ärzteteam simuliert und differentialdiagnostische Überlegungen sowie kosteneffiziente Testauswahl steuert. In Kombination mit OpenAI o3 erreicht MAI-DxO eine diagnostische Genauigkeit von 80 % (bei maximaler Konfiguration 85,5 %), was etwa dem Vierfachen der durchschnittlichen 20 % der getesteten erfahrenen Ärzte entspricht, und senkt gleichzeitig die Diagnosekosten um 20 % gegenüber Ärzten bzw. 70 % gegenüber dem reinen o3-Modell. Die Verbesserungen zeigen sich modellübergreifend bei Systemen von OpenAI, Gemini, Claude, Grok, DeepSeek und Llama. Das Paper betont, dass gezielte Orchestrierung KI-Systeme näher an die Anforderungen der evidenzbasierten klinischen Praxis heranführt.

Der Artikel „Evaluating large language models for accuracy incentivizes hallucinations“ untersucht, warum große Sprachmodelle trotz Fortschritten weiterhin sogenannte Halluzinationen erzeugen. Die Autoren zeigen, dass sowohl das Training durch Next-Word-Prediction als auch gängige Evaluationsmetriken wie Genauigkeit unbeabsichtigte Anreize zum Raten statt zum Eingestehen von Unsicherheit schaffen. Insbesondere seltene oder einmalige Fakten führen systematisch zu Fehlern, während häufige Muster stabil gelernt werden. Als Lösung schlagen sie „Open-Rubric“-Evaluierungen vor, die transparent machen, wie Fehler bestraft werden, sowie eine Anpassung bestehender Benchmarks, um Anreize zum unberechtigten Raten zu reduzieren. Die Arbeit interpretiert Halluzinationen damit primär als ein Problem fehlgeleiteter Anreizstrukturen und liefert Ansätze zur Verbesserung der Zuverlässigkeit von KI-Systemen.

„Performance of a large language model on the reasoning tasks of a physician“ beschreibt eine in Science (2026) veröffentlichte Studie, in der ein Large Language Model (OpenAI o1) in mehreren Experimenten gegen Ärzte unterschiedlicher Erfahrungsstufen getestet wurde. Dabei zeigte das Modell eine insgesamt höhere Leistung bei diagnostischen und klinischen Entscheidungsaufgaben, einschließlich realer Notfallfälle in der Notaufnahme. Die Ergebnisse deuten auf ein hohes Potenzial von KI-Systemen in der klinischen Entscheidungsunterstützung hin, verweisen jedoch zugleich auf offene Fragen der klinischen Validierung und Implementierung.

“Large Language Model Performance and Clinical Reasoning Tasks” ist eine Querschnittsstudie zur Leistung von 21 führenden Large Language Models (LLMs) bei klinischen Reasoning-Aufgaben. Die Modelle wurden anhand von 29 standardisierten klinischen Vignetten aus dem MSD Manual getestet. Dabei zeigte sich, dass Grok 4 und reasoning-optimierte Modelle die höchsten PrIME-LLM-Scores erreichten, während die Differenzialdiagnose durchgängig die schwächste Leistung aufwies. Die Ergebnisse unterstreichen anhaltende Limitationen in der frühen diagnostischen Reasoning-Phase und die Notwendigkeit einer vorsichtigen Integration in die klinische Praxis.

Hinweis

Der Text erhebt keinen Anspruch auf Vollständigkeit oder Korrektheit und stellt keine Rechtsberatung dar. Anmerkungen können in der rechten Seitenleiste mit Hypothes.is sozialem Annotierungswerkzeug oder am unteren Ende einer Seite mit GitHub Giscus Diskussionen hinterlassen werden.