Chatbot
Forschung
„Foundation metrics for evaluating effectiveness of healthcare conversations powered by generative AI“ ist ein im März 2024 in npj Digital Medicine veröffentlichter Perspective-Artikel. Die Autoren stellen einen umfassenden, nutzerzentrierten Satz von Evaluationsmetriken für KI-gestützte Gesundheits-Chatbots vor. Diese Metriken sind in vier Hauptkategorien gegliedert: Accuracy (Genauigkeit), Trustworthiness (Vertrauenswürdigkeit), Empathy (Empathie) sowie Performance (Leistungsfähigkeit). Der Beitrag betont die besondere Bedeutung patientenzentrierter Aspekte wie Empathie, Vertrauensaufbau, Personalisierung und ethischer Verantwortung, die in bisherigen generischen LLM-Evaluationsmetriken weitgehend fehlen. Gleichzeitig werden Herausforderungen bei der praktischen Umsetzung sowie ein konzeptioneller Rahmen für standardisierte und vergleichbare Bewertungen von Gesundheits-Chatbots diskutiert.
Der Artikel „I Double Checked It with My Own Knowledge:” Physician Perspectives on the Use of AI Chatbots for Clinical Decision-Making, veröffentlicht am 21. Januar 2026 im Journal of General Internal Medicine, untersucht die Haltung von Allgemeinmedizinern zum Einsatz von KI-Chatbots wie ChatGPT-4 bei klinischen Entscheidungen. Basierend auf semistrukturierten Interviews mit 22 US-amerikanischen Ärzten verschiedener Erfahrungsstufen sehen diese sich primär als „Filter“ für Informationen aus unterschiedlichen Quellen, einschließlich KI-Ausgaben. Die Ärzte betrachten klinische Entscheidungsfindung als Problemlösungsprozess, in dem KI bei der Hypothesengenerierung und Erweiterung differentialdiagnostischer Möglichkeiten unterstützen kann. Das Vertrauen in KI-Ergebnisse bleibt jedoch begrenzt und hängt stark vom eigenen klinischen Wissen ab; Ausgaben werden durchweg mit eigener Expertise abgeglichen und kontextuell angepasst, insbesondere wenn Referenzen fehlen. Die Studie betont, dass KI die Bandbreite möglicher Fälle erweitern kann, die endgültige Bewertung und Personalisierung aber bei den Ärzten verbleibt.
„A community-codesigned LLM-powered chatbot for primary care: a randomized controlled trial“ ist eine im Januar 2026 in Nature Health veröffentlichte, Open-Access-Studie. Chinesische Forscher entwickelten unter intensiver Einbindung von Betroffenen und Gemeindegesundheitsarbeitern den Chatbot P&P Care (Population Medicine and Public Health), der auf GPT-4 basiert und speziell für den Einsatz in ressourcenarmen Primärversorgungssettings optimiert wurde. In einer randomisierten kontrollierten Studie mit 2.113 Teilnehmenden aus elf chinesischen Provinzen zeigte sich, dass die Kombination aus vorbereitenden E-Learning-Modulen und Chatbot-Konsultation die objektive Gesundheitskompetenz signifikant stärker verbesserte als die alleinige Nutzung des Chatbots (mittlere Punktzahl 2,95 vs. 2,34; p < 0,001). Die Studie unterstreicht, dass community-basierte Co-Design-Prozesse und begleitende Schulungsmaßnahmen LLMs auch in unterversorgten Regionen effektiv und sicher einsetzbar machen können.
Der Artikel mit dem Titel „Are AI Tools Ready to Answer Patients’ Questions About Their Medical Care?“ von Rita Rubin erschien online am 6. März 2026 in JAMA. Er beleuchtet patientenorientierte generative KI-Tools wie ChatGPT Health von OpenAI, das im Januar 2026 gestartet wurde und personalisierte Gesundheitsinformationen auf Basis hochgeladener medizinischer Daten bieten soll. Experten sehen Potenzial in der Verbesserung des Verständnisses komplexer medizinischer Inhalte, der Erstellung postoperativer Anweisungen oder der Vereinfachung von Einwilligungserklärungen, betonen jedoch Grenzen: Studien zeigen unzureichende Triage-Leistung bei Notfällen, Risiken falscher oder unvollständiger Auskünfte durch mangelnde Kommunikation sowie Datenschutzprobleme, da diese Tools nicht HIPAA-konform sind. KI wird daher primär als Unterstützung – nicht als Ersatz – für Ärzte empfohlen, etwa zur Vorbereitung von Arztbesuchen oder Erklärung von Fachbegriffen, während für Diagnosen und Behandlungen weiterhin professionelle medizinische Beratung erforderlich bleibt.
Der Podcast „AI Tools for Patients Have Arrived” vom 6. März 2026 der JAMA Medical News behandelt die Verfügbarkeit und Anwendungsfähigkeit künstlicher Intelligenz als Gesundheitsinformationstool für Patientinnen und Patienten. Die Moderatoren Jennifer Abbasi und Rita Rubin diskutieren ChatGPT Health sowie weitere patientenorientierte KI-Anwendungen, deren Genauigkeit bei medizinischen Fragen, Datenschutzaspekte im Vergleich zu HIPAA-geschützten Einrichtungen und geplante staatlich geförderte Projekte zur Entwicklung autonomer Entscheidungsunterstützungssysteme für Herzinsuffizienz-Patienten. Ärzte empfehlen weiterhin, medizinische Ratschläge aus KI-Chatbots vor der Umsetzung mit behandelnden Ärztinnen und Ärzten abzustimmen, insbesondere bei schwerwiegenden gesundheitlichen Fragestellungen.
Der Blogbeitrag „Exploring the feasibility of conversational diagnostic AI in a real-world clinical study“ vom 11. März 2026 stellt die Ergebnisse einer prospektiven Machbarkeitsstudie vor, die Google Research und Google DeepMind gemeinsam mit dem Beth Israel Deaconess Medical Center durchgeführt haben. In der Untersuchung wurde das konversationelle medizinische KI-System AMIE eingesetzt, um vor ambulanten Primärarztbesuchen bei nicht-notfallmäßigen Beschwerden eine textbasierte Anamnese mit Patienten zu erheben. Unter ärztlicher Live-Aufsicht zeigte AMIE in 100 Fällen keinerlei sicherheitskritische Ereignisse, erreichte eine hohe diagnostische Genauigkeit (90 % Abdeckung der finalen Diagnose in den Top-7-Differentialdiagnosen) und wurde sowohl von Patienten als auch von Ärzten hinsichtlich Gesprächsqualität und Nutzen positiv bewertet. Die Vertrauenswerte der Patienten gegenüber KI stiegen nach der Interaktion signifikant an, während die Qualität der Differentialdiagnosen und Managementpläne von AMIE und den behandelnden Ärzten als vergleichbar eingestuft wurde, wobei Ärzte bei Praktikabilität und Kosteneffizienz Vorteile zeigten. Die Studie markiert einen wichtigen Schritt hin zu einer evidenzbasierten Bewertung konversationeller medizinischer KI im realen klinischen Umfeld.
Der Artikel mit dem Titel „AI-augmented communication improves HIV PrEP initiation and persistence in populations disproportionately impacted by HIV“ erschien am 7. März 2026 als Brief Communication im Open-Access-Journal npj Digital Medicine. Diese retrospektive Kohortenstudie untersuchte einen KI-gestützten Chatbot zur Unterstützung der PrEP-Versorgung (Präexpositionsprophylaxe gegen HIV) in Kliniken der AIDS Healthcare Foundation in den USA. Unter 155.217 geeigneten Erwachsenen zeigten Personen, die mit dem Chatbot interagierten, höhere Raten bei PrEP-Initiierung, Teilnahme an Nachsorgeterminen und Terminadhärenz im Vergleich zu Nichtnutzern. Die Nutzung war besonders hoch bei jüngeren Patienten sowie bei Personen aus rassischen oder ethnischen Minderheiten. Die Ergebnisse deuten darauf hin, dass KI-unterstützte Kommunikation bestimmte Aspekte der PrEP-Versorgung verbessern kann.
Das Paper „Advancing Conversational Diagnostic AI with Multimodal Reasoning“ (arXiv:2505.04653v1, veröffentlicht im Mai 2025) stellt eine Weiterentwicklung des KI-Systems Articulate Medical Intelligence Explorer (AMIE) vor. Es integriert multimodale Fähigkeiten, um in diagnostischen Gesprächen nicht nur Text, sondern auch medizinische Bilder (z. B. Hautfotos, EKGs) und Dokumente (z. B. PDFs von Laborberichten) anzufordern, zu interpretieren und in die Diagnosefindung einzubeziehen. Basierend auf Gemini 2.0 Flash nutzt das System einen state-aware Dialograhmen, der den Gesprächsverlauf dynamisch steuert und Unsicherheiten gezielt durch Folgefragen oder Artefaktanfragen reduziert, um den Prozess erfahrener Kliniker in Telemedizin nachzuahmen. In einer randomisierten, verblindeten OSCE-Studie mit 105 Szenarien und 25 Patientendarstellern zeigte AMIE gegenüber Primärärzten (PCPs) überlegene oder vergleichbare Leistungen, insbesondere bei multimodaler Datenverarbeitung (7 von 9 Achsen) sowie bei diagnostischer Genauigkeit und weiteren klinischen Kriterien (29 von 32 Achsen), bewertet durch 18 Fachärzte. Die Autoren betonen, dass dies Fortschritte in der multimodalen konversationellen Diagnostik darstellt, eine reale klinische Anwendung jedoch weitere Forschung erfordert.
„Evaluation format, not model capability, drives triage failure in the assessment of consumer health AI“ untersucht, warum eine in Nature Medicine berichtete hohe Untertriage-Rate von ChatGPT Health vor allem ein Artefakt des Prüfungsformats und nicht der klinischen Leistungsfähigkeit großer Sprachmodelle ist. Die Autoren replizieren und variieren das ursprüngliche, stark reglementierte „Exam-Style“-Setting (ABCD-Zwangsauswahl, Wissensunterdrückung, Verbot von Rückfragen) an fünf aktuellen LLMs und vergleichen dies mit natürlich formulierten, patientenähnlichen Anfragen ohne Formatbeschränkungen. Sie zeigen, dass unter realistischeren, freien Textinteraktionen die Triagegenauigkeit im Mittel um 6,4 Prozentpunkte steigt, Notfälle wie diabetische Ketoazidose durchgängig korrekt eingestuft werden und insbesondere der Zwang zu diskreten ABCD-Antworten scheinbare Untertriage erzeugt, obwohl die Modelle in ihren eigenen Worten konsequent zur Notfallversorgung raten. Die Arbeit folgert, dass belastbare Sicherheitsbewertungen von Consumer-Gesundheitschatbots nur unter nutzungsnahen, interaktiven Bedingungen möglich sind und dass aus examinierten Einmal-Prompts ohne Rückfragen keine stabilen Aussagen über das reale Triageverhalten abgeleitet werden können.
Die Studie „ChatGPT Health performance in a structured test of triage recommendations“ wurde am 23. Februar 2026 in Nature Medicine veröffentlicht. Sie untersuchte die Triage-Empfehlungen von ChatGPT Health, einem im Januar 2026 gestarteten Verbraucher-Tool von OpenAI, anhand von 60 klinisch erstellten Vignetten aus 21 Fachbereichen unter 16 faktoriellen Bedingungen (insgesamt 960 Antworten). Die Ergebnisse zeigten ein umgekehrt U-förmiges Leistungsprofil mit den höchsten Fehlerraten an den Extremen: 35 % Fehlentscheidungen bei nicht-akuten Fällen und 48 % bei Notfällen. Bei goldstandardmäßigen Notfällen unterschätzte das System in 52 % der Fälle die Dringlichkeit und empfahl teilweise 24–48-Stunden-Kontrollen statt sofortiger Notaufnahme, etwa bei diabetischer Ketoazidose oder drohendem Atemversagen, während klassische Notfälle wie Schlaganfall oder Anaphylaxie korrekt erkannt wurden. Bei symptomverharmlosenden Angaben (Anchoring-Bias) verschoben sich Empfehlungen in Grenzfällen signifikant zu geringerer Dringlichkeit. Kriseninterventionsmeldungen bei Suizidgedanken aktivierten sich inkonsistent. Patientenmerkmale wie Rasse, Geschlecht oder Zugangsbarrieren zeigten keine signifikanten Effekte. Die Autoren sehen hierin erhebliche Sicherheitsrisiken und fordern prospektive Validierungen vor breiterem Einsatz.
Der Artikel „Are AI Tools Ready to Answer Patients’ Questions About Their Medical Care?“ von Rita Rubin erschien am 6. März 2026 online in JAMA. Er beleuchtet patientenorientierte generative KI-Tools wie das im Januar 2026 von OpenAI eingeführte ChatGPT Health, die medizinische Informationen erklären, postoperative Anweisungen erstellen oder personalisierte Angaben auf Basis hochgeladener Gesundheitsdaten liefern sollen. Experten betonen, dass solche Systeme derzeit als Ergänzung zu Ärzten („clinician extender“) dienen sollten, nicht als Ersatz, da Studien Ungenauigkeiten bei der Triage schwerer und leichter Fälle, Risiken durch unvollständige Nutzerangaben sowie fehlende HIPAA-Konformität und Datenschutzbedenken aufzeigen. Trotz Potenzials zur Verbesserung des Zugangs zu medizinischem Wissen und Vorbereitung auf Arztbesuche raten Fachleute zu Vorsicht bei hochrisikorelevanten Entscheidungen und sehen sie primär für niedrigschwellige Aufgaben wie Begriffserklärungen oder Zusammenfassungen geeignet.
„Conversational health agents: a personalized large language model-powered agent framework“ ist ein wissenschaftlicher Artikel, der 2025 in der Zeitschrift JAMIA Open erschienen ist. Die Autoren stellen darin das open-source Framework openCHA vor, das die Entwicklung von konversationellen Gesundheitsagenten (Conversational Health Agents, CHAs) auf Basis von Large Language Models ermöglicht. Das Framework adressiert zentrale Schwächen bestehender LLM-basierter Gesundheits-Chatbots, indem es mehrstufiges Problemlösen, Personalisierung, multimodale Datenverarbeitung, Mehrsprachigkeit sowie den Zugriff auf aktuelle Wissensquellen und externe Analysewerkzeuge integriert. In mehreren Anwendungsfällen (u. a. Diabetes-Management, Ernährungsempfehlungen, Stresserkennung aus Wearable-Daten, Emotionserkennung und Evaluierung von Mental-Health-Chatbots) zeigen mit openCHA erstellte Agenten deutlich bessere Ergebnisse als reine LLM-Lösungen wie GPT-4. Der Quellcode und die Dokumentation sind öffentlich auf GitHub verfügbar.
Der Text erhebt keinen Anspruch auf Vollständigkeit oder Korrektheit und stellt keine Rechtsberatung dar. Anmerkungen können in der rechten Seitenleiste mit Hypothes.is sozialem Annotierungswerkzeug oder am unteren Ende einer Seite mit GitHub Giscus Diskussionen hinterlassen werden.


