Entscheidungsunterstützung

Der Artikel mit dem Titel „Déjà vu in healthcare AI: lessons from the world’s pioneer AI clinical decision support system“ erschien am 13. Januar 2026 als Editorial in der Zeitschrift BMJ Digital Health & AI. Er beleuchtet die Geschichte des AAPHelp-Systems, eines der ersten computergestützten klinischen Entscheidungshilfesysteme, das in den 1970er Jahren unter Leitung von Tim de Dombal an der University of Leeds zur Diagnose akuter Bauchschmerzen entwickelt wurde. Das System nutzte einen Naïve-Bayes-Klassifikator und lieferte Wahrscheinlichkeiten für Differenzialdiagnosen. Die Autoren David Wong und Kollegen fassen zentrale Erkenntnisse aus jahrzehntelangen Evaluierungen zusammen und zeigen Parallelen zu aktuellen Herausforderungen moderner KI-Systeme auf, darunter mangelnde Generalisierbarkeit über verschiedene Standorte hinweg, die Notwendigkeit sorgfältiger klinischer Studien mit multifaktoriellen Designs, die Berücksichtigung breiterer Outcome-Maße sowie das Phänomen des langfristigen Data Drift. Sie betonen, dass viele heutige Probleme in der KI-gestützten Medizin bereits vor Jahrzehnten erkannt wurden und dass der Erfolg solcher Systeme weniger von technologischer Innovation als von rigoroser, kontextsensitiver Evaluation abhängt.

Der Artikel mit dem Titel „Safety of a large language model-based clinical decision support system in African primary healthcare“ wurde am 10. März 2026 in der Zeitschrift Nature Health veröffentlicht. Er beschreibt eine retrospektive Evaluation eines in die elektronische Patientenakte integrierten Large-Language-Model-basierten klinischen Entscheidungsunterstützungssystems (LLM-CDSS), das zwischen Juli und September 2024 in 16 Primärversorgungskliniken von Penda Health in Kenia eingesetzt wurde. Ein Expertengremium aus Ärzten überprüfte 1.469 Patientenfälle. Halluzinationen traten selten auf (3,4 %), und die klinischen Empfehlungen stimmten in 99 % der Fälle mit lokalen Leitlinien überein. Dennoch änderten Kliniker in 62 % der Fälle die Dokumentation nicht. Potenziell schädliche LLM-Empfehlungen wurden in 7,8 % der Fälle identifiziert, von denen einige übernommen wurden, während das System in 8 % der Fälle bestehende Risiken in den ursprünglichen Notizen der Kliniker vollständig beseitigte. Die Studie hebt das Potenzial des Tools zur Qualitätsverbesserung hervor, betont jedoch die Notwendigkeit besserer Benutzbarkeit, lokaler Sicherheitsmechanismen und prospektiver Studien zur Bestätigung des patientenbezogenen Nutzens aufgrund der asymmetrischen Übernahme schädlicher versus vorteilhafter Ausgaben.

Die Preprint-Studie „Human-AI Collaboration in Clinical Reasoning: A UK Replication and Interaction Analysis“ von J. Healy, J. Kossoff, M. Lee und C. Hasford (veröffentlicht 2025 auf medRxiv) untersucht die Zusammenarbeit zwischen britischen Ärzten und einem Large Language Model (LLM) bei der diagnostischen Fallbeurteilung. In einer Within-Subjects-Studie mit 22 UK-Ärzten und vier klinischen Vignetten erreichte das LLM allein signifikant bessere Ergebnisse als die Ärzte mit LLM-Zugang (mittlerer Unterschied 21,3 Prozentpunkte). Der LLM-Zugang verbesserte die ärztliche Leistung im Vergleich zu konventionellen Ressourcen jedoch leicht (73,7 % vs. 66,3 %). Die qualitative Analyse der Interaktionsprotokolle zeigte, dass Ärzte nur etwa 30 % der Fragen direkt an das LLM stellten, was auf eine Unter Nutzung hinweist und den Leistungsunterschied teilweise erklärt. Die Autoren schlussfolgern, dass das volle Potenzial der Human-AI-Kollaboration durch gezielte Schulung der Ärzte zur Integration solcher Tools sowie durch bessere Systemdesigns erreicht werden könnte.

Der Artikel „Digital Medication Management in Polypharmacy“ beschreibt eine cluster-randomisierte kontrollierte Studie (AdAM), die den Einsatz eines klinischen Entscheidungsunterstützungssystems (CDSS) in der hausärztlichen Versorgung untersuchte. Bei 42 700 Patient:innen mit Polypharmazie zeigte sich in den Hauptanalysen kein signifikanter Effekt auf Mortalität oder Hospitalisierungen. Sensitivitätsanalysen deuten jedoch auf eine mögliche Reduktion der Mortalität hin, insbesondere vor der COVID-19-Pandemie. Die Ergebnisse unterstreichen, dass CDSS zwar Prozessqualität verbessern können, patientenrelevante Outcomes jedoch weiterhin uneinheitlich bleiben.

Der Beitrag „Trust, Scrutiny, or Collaboration? A Performance-Based Framework for Human–AI Interaction in Medicine“ aus NEJM AI (2026) analysiert die Zusammenarbeit zwischen Ärztinnen und Ärzten und KI-Systemen in der klinischen Entscheidungsfindung. Die Autorinnen und Autoren argumentieren, dass Fehlleistungen von KI nicht allein durch „Automationsbias“ erklärbar sind, sondern generell den Einfluss fehlerhafter Informationen widerspiegeln. Entscheidend sei daher keine pauschale Skepsis, sondern eine situationsabhängige Kalibrierung von Vertrauen. Vorgeschlagen wird ein dynamisches Rahmenmodell mit vier Interaktionszonen: menschlich-dominant, KI-dominant, hybride Überprüfung und Konfliktlösung bei abweichenden Einschätzungen. Welche Strategie sinnvoll ist, hängt von der relativen Genauigkeit von Mensch und KI sowie der Komplementarität ihrer Fehler ab. Das Modell betont, dass sich optimale Formen der Zusammenarbeit kontinuierlich an die Weiterentwicklung von KI-Systemen und klinischer Expertise anpassen müssen.

Der Artikel „Performance of a large language model on the reasoning tasks of a physician“ aus Science untersucht die diagnostischen und klinischen Entscheidungsfähigkeiten eines großen Sprachmodells (OpenAI o1). In mehreren Experimenten mit Hunderten Ärztinnen und Ärzten zeigte das Modell eine insgesamt höhere Leistung bei Differentialdiagnosen, Testauswahl und klinischem Management, insbesondere in frühen Entscheidungsphasen wie der Notaufnahme. Die Studie betont jedoch Einschränkungen, etwa die Fokussierung auf textbasierte Fälle, und fordert prospektive klinische Studien zur sicheren Integration in die medizinische Praxis.

Der Artikel „From prediction to navigation for artificial intelligence in medicine“ beschreibt die Weiterentwicklung klinischer KI-Systeme von reinen Vorhersagemodellen hin zu entscheidungsunterstützenden Systemen. Während aktuelle Anwendungen vor allem Risiken und Diagnosen prognostizieren, betonen die Autoren die Notwendigkeit sogenannter „navigational AI“, die konkrete Handlungsempfehlungen für individuelle Patienten liefert. Ziel ist es, klinische Entscheidungen in komplexen und zeitkritischen Situationen besser zu unterstützen, indem patientenspezifische Daten, Verläufe und Kontexte integriert werden.

Der Artikel „Trust, Scrutiny, or Collaboration? A Performance-Based Framework for Human–AI Interaction in Medicine“ aus NEJM AI analysiert die Rolle von Künstlicher Intelligenz in klinischen Entscheidungsprozessen. Die Autoren argumentieren, dass nicht pauschale Skepsis gegenüber KI angemessen ist, sondern eine situationsabhängige Kalibrierung von Vertrauen. Sie schlagen ein Modell vor, das vier Interaktionsformen zwischen Mensch und KI unterscheidet, basierend auf relativer Genauigkeit und Fehlerkomplementarität, um klinische Arbeitsabläufe gezielt zu verbessern.

Hinweis

Der Text erhebt keinen Anspruch auf Vollständigkeit oder Korrektheit und stellt keine Rechtsberatung dar. Anmerkungen können in der rechten Seitenleiste mit Hypothes.is sozialem Annotierungswerkzeug oder am unteren Ende einer Seite mit GitHub Giscus Diskussionen hinterlassen werden.