Entwurf

Entscheidungsunterstützung

Der Artikel mit dem Titel „Déjà vu in healthcare AI: lessons from the world’s pioneer AI clinical decision support system“ erschien am 13. Januar 2026 als Editorial in der Zeitschrift BMJ Digital Health & AI. Er beleuchtet die Geschichte des AAPHelp-Systems, eines der ersten computergestützten klinischen Entscheidungshilfesysteme, das in den 1970er Jahren unter Leitung von Tim de Dombal an der University of Leeds zur Diagnose akuter Bauchschmerzen entwickelt wurde. Das System nutzte einen Naïve-Bayes-Klassifikator und lieferte Wahrscheinlichkeiten für Differenzialdiagnosen. Die Autoren David Wong und Kollegen fassen zentrale Erkenntnisse aus jahrzehntelangen Evaluierungen zusammen und zeigen Parallelen zu aktuellen Herausforderungen moderner KI-Systeme auf, darunter mangelnde Generalisierbarkeit über verschiedene Standorte hinweg, die Notwendigkeit sorgfältiger klinischer Studien mit multifaktoriellen Designs, die Berücksichtigung breiterer Outcome-Maße sowie das Phänomen des langfristigen Data Drift. Sie betonen, dass viele heutige Probleme in der KI-gestützten Medizin bereits vor Jahrzehnten erkannt wurden und dass der Erfolg solcher Systeme weniger von technologischer Innovation als von rigoroser, kontextsensitiver Evaluation abhängt.

Der Artikel mit dem Titel „Safety of a large language model-based clinical decision support system in African primary healthcare“ wurde am 10. März 2026 in der Zeitschrift Nature Health veröffentlicht. Er beschreibt eine retrospektive Evaluation eines in die elektronische Patientenakte integrierten Large-Language-Model-basierten klinischen Entscheidungsunterstützungssystems (LLM-CDSS), das zwischen Juli und September 2024 in 16 Primärversorgungskliniken von Penda Health in Kenia eingesetzt wurde. Ein Expertengremium aus Ärzten überprüfte 1.469 Patientenfälle. Halluzinationen traten selten auf (3,4 %), und die klinischen Empfehlungen stimmten in 99 % der Fälle mit lokalen Leitlinien überein. Dennoch änderten Kliniker in 62 % der Fälle die Dokumentation nicht. Potenziell schädliche LLM-Empfehlungen wurden in 7,8 % der Fälle identifiziert, von denen einige übernommen wurden, während das System in 8 % der Fälle bestehende Risiken in den ursprünglichen Notizen der Kliniker vollständig beseitigte. Die Studie hebt das Potenzial des Tools zur Qualitätsverbesserung hervor, betont jedoch die Notwendigkeit besserer Benutzbarkeit, lokaler Sicherheitsmechanismen und prospektiver Studien zur Bestätigung des patientenbezogenen Nutzens aufgrund der asymmetrischen Übernahme schädlicher versus vorteilhafter Ausgaben.

Die Preprint-Studie „Human-AI Collaboration in Clinical Reasoning: A UK Replication and Interaction Analysis“ von J. Healy, J. Kossoff, M. Lee und C. Hasford (veröffentlicht 2025 auf medRxiv) untersucht die Zusammenarbeit zwischen britischen Ärzten und einem Large Language Model (LLM) bei der diagnostischen Fallbeurteilung. In einer Within-Subjects-Studie mit 22 UK-Ärzten und vier klinischen Vignetten erreichte das LLM allein signifikant bessere Ergebnisse als die Ärzte mit LLM-Zugang (mittlerer Unterschied 21,3 Prozentpunkte). Der LLM-Zugang verbesserte die ärztliche Leistung im Vergleich zu konventionellen Ressourcen jedoch leicht (73,7 % vs. 66,3 %). Die qualitative Analyse der Interaktionsprotokolle zeigte, dass Ärzte nur etwa 30 % der Fragen direkt an das LLM stellten, was auf eine Unter Nutzung hinweist und den Leistungsunterschied teilweise erklärt. Die Autoren schlussfolgern, dass das volle Potenzial der Human-AI-Kollaboration durch gezielte Schulung der Ärzte zur Integration solcher Tools sowie durch bessere Systemdesigns erreicht werden könnte.

TippHinweis

Der Text erhebt keinen Anspruch auf Vollständigkeit oder Korrektheit und stellt keine Rechtsberatung dar. Anmerkungen können in der rechten Seitenleiste mit Hypothes.is sozialem Annotierungswerkzeug oder am unteren Ende einer Seite mit GitHub Giscus Diskussionen hinterlassen werden.