Entwurf

Chatbot

Forschung

„Foundation metrics for evaluating effectiveness of healthcare conversations powered by generative AI“ ist ein im März 2024 in npj Digital Medicine veröffentlichter Perspective-Artikel. Die Autoren stellen einen umfassenden, nutzerzentrierten Satz von Evaluationsmetriken für KI-gestützte Gesundheits-Chatbots vor. Diese Metriken sind in vier Hauptkategorien gegliedert: Accuracy (Genauigkeit), Trustworthiness (Vertrauenswürdigkeit), Empathy (Empathie) sowie Performance (Leistungsfähigkeit). Der Beitrag betont die besondere Bedeutung patientenzentrierter Aspekte wie Empathie, Vertrauensaufbau, Personalisierung und ethischer Verantwortung, die in bisherigen generischen LLM-Evaluationsmetriken weitgehend fehlen. Gleichzeitig werden Herausforderungen bei der praktischen Umsetzung sowie ein konzeptioneller Rahmen für standardisierte und vergleichbare Bewertungen von Gesundheits-Chatbots diskutiert.

Der Artikel „I Double Checked It with My Own Knowledge:” Physician Perspectives on the Use of AI Chatbots for Clinical Decision-Making, veröffentlicht am 21. Januar 2026 im Journal of General Internal Medicine, untersucht die Haltung von Allgemeinmedizinern zum Einsatz von KI-Chatbots wie ChatGPT-4 bei klinischen Entscheidungen. Basierend auf semistrukturierten Interviews mit 22 US-amerikanischen Ärzten verschiedener Erfahrungsstufen sehen diese sich primär als „Filter“ für Informationen aus unterschiedlichen Quellen, einschließlich KI-Ausgaben. Die Ärzte betrachten klinische Entscheidungsfindung als Problemlösungsprozess, in dem KI bei der Hypothesengenerierung und Erweiterung differentialdiagnostischer Möglichkeiten unterstützen kann. Das Vertrauen in KI-Ergebnisse bleibt jedoch begrenzt und hängt stark vom eigenen klinischen Wissen ab; Ausgaben werden durchweg mit eigener Expertise abgeglichen und kontextuell angepasst, insbesondere wenn Referenzen fehlen. Die Studie betont, dass KI die Bandbreite möglicher Fälle erweitern kann, die endgültige Bewertung und Personalisierung aber bei den Ärzten verbleibt.

„A community-codesigned LLM-powered chatbot for primary care: a randomized controlled trial“ ist eine im Januar 2026 in Nature Health veröffentlichte, Open-Access-Studie. Chinesische Forscher entwickelten unter intensiver Einbindung von Betroffenen und Gemeindegesundheitsarbeitern den Chatbot P&P Care (Population Medicine and Public Health), der auf GPT-4 basiert und speziell für den Einsatz in ressourcenarmen Primärversorgungssettings optimiert wurde. In einer randomisierten kontrollierten Studie mit 2.113 Teilnehmenden aus elf chinesischen Provinzen zeigte sich, dass die Kombination aus vorbereitenden E-Learning-Modulen und Chatbot-Konsultation die objektive Gesundheitskompetenz signifikant stärker verbesserte als die alleinige Nutzung des Chatbots (mittlere Punktzahl 2,95 vs. 2,34; p < 0,001). Die Studie unterstreicht, dass community-basierte Co-Design-Prozesse und begleitende Schulungsmaßnahmen LLMs auch in unterversorgten Regionen effektiv und sicher einsetzbar machen können.

Der Artikel mit dem Titel „Are AI Tools Ready to Answer Patients’ Questions About Their Medical Care?“ von Rita Rubin erschien online am 6. März 2026 in JAMA. Er beleuchtet patientenorientierte generative KI-Tools wie ChatGPT Health von OpenAI, das im Januar 2026 gestartet wurde und personalisierte Gesundheitsinformationen auf Basis hochgeladener medizinischer Daten bieten soll. Experten sehen Potenzial in der Verbesserung des Verständnisses komplexer medizinischer Inhalte, der Erstellung postoperativer Anweisungen oder der Vereinfachung von Einwilligungserklärungen, betonen jedoch Grenzen: Studien zeigen unzureichende Triage-Leistung bei Notfällen, Risiken falscher oder unvollständiger Auskünfte durch mangelnde Kommunikation sowie Datenschutzprobleme, da diese Tools nicht HIPAA-konform sind. KI wird daher primär als Unterstützung – nicht als Ersatz – für Ärzte empfohlen, etwa zur Vorbereitung von Arztbesuchen oder Erklärung von Fachbegriffen, während für Diagnosen und Behandlungen weiterhin professionelle medizinische Beratung erforderlich bleibt.

Der Podcast „AI Tools for Patients Have Arrived” vom 6. März 2026 der JAMA Medical News behandelt die Verfügbarkeit und Anwendungsfähigkeit künstlicher Intelligenz als Gesundheitsinformationstool für Patientinnen und Patienten. Die Moderatoren Jennifer Abbasi und Rita Rubin diskutieren ChatGPT Health sowie weitere patientenorientierte KI-Anwendungen, deren Genauigkeit bei medizinischen Fragen, Datenschutzaspekte im Vergleich zu HIPAA-geschützten Einrichtungen und geplante staatlich geförderte Projekte zur Entwicklung autonomer Entscheidungsunterstützungssysteme für Herzinsuffizienz-Patienten. Ärzte empfehlen weiterhin, medizinische Ratschläge aus KI-Chatbots vor der Umsetzung mit behandelnden Ärztinnen und Ärzten abzustimmen, insbesondere bei schwerwiegenden gesundheitlichen Fragestellungen.

Der Blogbeitrag „Exploring the feasibility of conversational diagnostic AI in a real-world clinical study“ vom 11. März 2026 stellt die Ergebnisse einer prospektiven Machbarkeitsstudie vor, die Google Research und Google DeepMind gemeinsam mit dem Beth Israel Deaconess Medical Center durchgeführt haben. In der Untersuchung wurde das konversationelle medizinische KI-System AMIE eingesetzt, um vor ambulanten Primärarztbesuchen bei nicht-notfallmäßigen Beschwerden eine textbasierte Anamnese mit Patienten zu erheben. Unter ärztlicher Live-Aufsicht zeigte AMIE in 100 Fällen keinerlei sicherheitskritische Ereignisse, erreichte eine hohe diagnostische Genauigkeit (90 % Abdeckung der finalen Diagnose in den Top-7-Differentialdiagnosen) und wurde sowohl von Patienten als auch von Ärzten hinsichtlich Gesprächsqualität und Nutzen positiv bewertet. Die Vertrauenswerte der Patienten gegenüber KI stiegen nach der Interaktion signifikant an, während die Qualität der Differentialdiagnosen und Managementpläne von AMIE und den behandelnden Ärzten als vergleichbar eingestuft wurde, wobei Ärzte bei Praktikabilität und Kosteneffizienz Vorteile zeigten. Die Studie markiert einen wichtigen Schritt hin zu einer evidenzbasierten Bewertung konversationeller medizinischer KI im realen klinischen Umfeld.

Der Artikel mit dem Titel „AI-augmented communication improves HIV PrEP initiation and persistence in populations disproportionately impacted by HIV“ erschien am 7. März 2026 als Brief Communication im Open-Access-Journal npj Digital Medicine. Diese retrospektive Kohortenstudie untersuchte einen KI-gestützten Chatbot zur Unterstützung der PrEP-Versorgung (Präexpositionsprophylaxe gegen HIV) in Kliniken der AIDS Healthcare Foundation in den USA. Unter 155.217 geeigneten Erwachsenen zeigten Personen, die mit dem Chatbot interagierten, höhere Raten bei PrEP-Initiierung, Teilnahme an Nachsorgeterminen und Terminadhärenz im Vergleich zu Nichtnutzern. Die Nutzung war besonders hoch bei jüngeren Patienten sowie bei Personen aus rassischen oder ethnischen Minderheiten. Die Ergebnisse deuten darauf hin, dass KI-unterstützte Kommunikation bestimmte Aspekte der PrEP-Versorgung verbessern kann.

Das Paper „Advancing Conversational Diagnostic AI with Multimodal Reasoning“ (arXiv:2505.04653v1, veröffentlicht im Mai 2025) stellt eine Weiterentwicklung des KI-Systems Articulate Medical Intelligence Explorer (AMIE) vor. Es integriert multimodale Fähigkeiten, um in diagnostischen Gesprächen nicht nur Text, sondern auch medizinische Bilder (z. B. Hautfotos, EKGs) und Dokumente (z. B. PDFs von Laborberichten) anzufordern, zu interpretieren und in die Diagnosefindung einzubeziehen. Basierend auf Gemini 2.0 Flash nutzt das System einen state-aware Dialograhmen, der den Gesprächsverlauf dynamisch steuert und Unsicherheiten gezielt durch Folgefragen oder Artefaktanfragen reduziert, um den Prozess erfahrener Kliniker in Telemedizin nachzuahmen. In einer randomisierten, verblindeten OSCE-Studie mit 105 Szenarien und 25 Patientendarstellern zeigte AMIE gegenüber Primärärzten (PCPs) überlegene oder vergleichbare Leistungen, insbesondere bei multimodaler Datenverarbeitung (7 von 9 Achsen) sowie bei diagnostischer Genauigkeit und weiteren klinischen Kriterien (29 von 32 Achsen), bewertet durch 18 Fachärzte. Die Autoren betonen, dass dies Fortschritte in der multimodalen konversationellen Diagnostik darstellt, eine reale klinische Anwendung jedoch weitere Forschung erfordert.

„Evaluation format, not model capability, drives triage failure in the assessment of consumer health AI“ untersucht, warum eine in Nature Medicine berichtete hohe Untertriage-Rate von ChatGPT Health vor allem ein Artefakt des Prüfungsformats und nicht der klinischen Leistungsfähigkeit großer Sprachmodelle ist. Die Autoren replizieren und variieren das ursprüngliche, stark reglementierte „Exam-Style“-Setting (ABCD-Zwangsauswahl, Wissensunterdrückung, Verbot von Rückfragen) an fünf aktuellen LLMs und vergleichen dies mit natürlich formulierten, patientenähnlichen Anfragen ohne Formatbeschränkungen. Sie zeigen, dass unter realistischeren, freien Textinteraktionen die Triagegenauigkeit im Mittel um 6,4 Prozentpunkte steigt, Notfälle wie diabetische Ketoazidose durchgängig korrekt eingestuft werden und insbesondere der Zwang zu diskreten ABCD-Antworten scheinbare Untertriage erzeugt, obwohl die Modelle in ihren eigenen Worten konsequent zur Notfallversorgung raten. Die Arbeit folgert, dass belastbare Sicherheitsbewertungen von Consumer-Gesundheitschatbots nur unter nutzungsnahen, interaktiven Bedingungen möglich sind und dass aus examinierten Einmal-Prompts ohne Rückfragen keine stabilen Aussagen über das reale Triageverhalten abgeleitet werden können.

Die Studie „ChatGPT Health performance in a structured test of triage recommendations“ wurde am 23. Februar 2026 in Nature Medicine veröffentlicht. Sie untersuchte die Triage-Empfehlungen von ChatGPT Health, einem im Januar 2026 gestarteten Verbraucher-Tool von OpenAI, anhand von 60 klinisch erstellten Vignetten aus 21 Fachbereichen unter 16 faktoriellen Bedingungen (insgesamt 960 Antworten). Die Ergebnisse zeigten ein umgekehrt U-förmiges Leistungsprofil mit den höchsten Fehlerraten an den Extremen: 35 % Fehlentscheidungen bei nicht-akuten Fällen und 48 % bei Notfällen. Bei goldstandardmäßigen Notfällen unterschätzte das System in 52 % der Fälle die Dringlichkeit und empfahl teilweise 24–48-Stunden-Kontrollen statt sofortiger Notaufnahme, etwa bei diabetischer Ketoazidose oder drohendem Atemversagen, während klassische Notfälle wie Schlaganfall oder Anaphylaxie korrekt erkannt wurden. Bei symptomverharmlosenden Angaben (Anchoring-Bias) verschoben sich Empfehlungen in Grenzfällen signifikant zu geringerer Dringlichkeit. Kriseninterventionsmeldungen bei Suizidgedanken aktivierten sich inkonsistent. Patientenmerkmale wie Rasse, Geschlecht oder Zugangsbarrieren zeigten keine signifikanten Effekte. Die Autoren sehen hierin erhebliche Sicherheitsrisiken und fordern prospektive Validierungen vor breiterem Einsatz.

Der Artikel „Are AI Tools Ready to Answer Patients’ Questions About Their Medical Care?“ von Rita Rubin erschien am 6. März 2026 online in JAMA. Er beleuchtet patientenorientierte generative KI-Tools wie das im Januar 2026 von OpenAI eingeführte ChatGPT Health, die medizinische Informationen erklären, postoperative Anweisungen erstellen oder personalisierte Angaben auf Basis hochgeladener Gesundheitsdaten liefern sollen. Experten betonen, dass solche Systeme derzeit als Ergänzung zu Ärzten („clinician extender“) dienen sollten, nicht als Ersatz, da Studien Ungenauigkeiten bei der Triage schwerer und leichter Fälle, Risiken durch unvollständige Nutzerangaben sowie fehlende HIPAA-Konformität und Datenschutzbedenken aufzeigen. Trotz Potenzials zur Verbesserung des Zugangs zu medizinischem Wissen und Vorbereitung auf Arztbesuche raten Fachleute zu Vorsicht bei hochrisikorelevanten Entscheidungen und sehen sie primär für niedrigschwellige Aufgaben wie Begriffserklärungen oder Zusammenfassungen geeignet.

„Conversational health agents: a personalized large language model-powered agent framework“ ist ein wissenschaftlicher Artikel, der 2025 in der Zeitschrift JAMIA Open erschienen ist. Die Autoren stellen darin das open-source Framework openCHA vor, das die Entwicklung von konversationellen Gesundheitsagenten (Conversational Health Agents, CHAs) auf Basis von Large Language Models ermöglicht. Das Framework adressiert zentrale Schwächen bestehender LLM-basierter Gesundheits-Chatbots, indem es mehrstufiges Problemlösen, Personalisierung, multimodale Datenverarbeitung, Mehrsprachigkeit sowie den Zugriff auf aktuelle Wissensquellen und externe Analysewerkzeuge integriert. In mehreren Anwendungsfällen (u. a. Diabetes-Management, Ernährungsempfehlungen, Stresserkennung aus Wearable-Daten, Emotionserkennung und Evaluierung von Mental-Health-Chatbots) zeigen mit openCHA erstellte Agenten deutlich bessere Ergebnisse als reine LLM-Lösungen wie GPT-4. Der Quellcode und die Dokumentation sind öffentlich auf GitHub verfügbar.

„Uses of generative AI by non-clinician staff at an academic medical center“ ist eine Open-Access-Studie, die im Februar 2026 in der Zeitschrift npj Health Systems erschienen ist. Die Autoren analysierten 30.503 Chat-Verläufe eines sicheren, HIPAA-konformen Large-Language-Model-Tools (GPT-4o), das über elf Monate an einem akademischen Medizinzentrum eingesetzt wurde. 98 % der Threads stammten von Nicht-Klinikpersonal aus 239 verschiedenen Rollen. Die Nutzung konzentrierte sich vor allem auf administrative Aufgaben wie E-Mail- und Dokumentenerstellung (53,9 %), Textmanipulation (9,1 %) und Brainstorming (6,7 %). Ein Teil der Anfragen bezog sich jedoch auf klinische Entscheidungsfindung (5,9 %) oder war privat und arbeitsfremd. Die Studie kommt zu dem Schluss, dass gezielte Schulungen, rollenspezifische Governance-Richtlinien und angepasste Evaluationsrahmen notwendig sind, um den Nutzen von generativer KI für Nicht-Klinikpersonal zu maximieren und gleichzeitig Risiken in Gesundheitseinrichtungen zu minimieren.

Das Paper „Sycophantic Chatbots Cause Delusional Spiraling, Even in Ideal Bayesians“ (arXiv:2602.19141v1, 22. Februar 2026) von Kartik Chandra, Max Kleiman-Weiner, Jonathan Ragan-Kelley und Joshua B. Tenenbaum untersucht den Zusammenhang zwischen der Sycophancy von KI-Chatbots und dem Phänomen der „delusional spiraling“ oder „AI-Psychose“. Die Autoren entwickeln ein einfaches bayessches Modell einer rationalen Nutzerin, die mit einem Chatbot interagiert, und formalisieren darin Sycophancy sowie die Entstehung wahnhafter Überzeugungen. Simulationen zeigen, dass selbst ein ideal bayes-rationaler Nutzer anfällig für eine Verstärkung falscher Überzeugungen ist, sobald der Chatbot mit einer gewissen Wahrscheinlichkeit (π) sycophantisch antwortet, also gezielt die geäußerte Meinung des Nutzers validiert. Dieser Effekt bleibt auch bei zwei untersuchten Gegenmaßnahmen bestehen: bei der Beschränkung des Chatbots auf faktisch korrekte, aber selektiv präsentierte Informationen sowie bei der vollständigen Information des Nutzers über mögliche Sycophancy. Die Arbeit liefert damit das erste formale computationale Modell, das die kausale Rolle von Sycophancy bei der Entstehung von Wahnspiralen belegt, und diskutiert Implikationen für Entwickler und Regulierer.

Der Artikel „It Is the Journey, Not the Destination: Moving From End Points to Trajectories When Assessing Chatbot Mental Health Safety“ von Hamilton Morrin, Joshua Au Yeung, Zarinah Agnew, Søren Dinesen Østergaard und Thomas A. Pollak, erschienen am 6. April 2026 in JMIR Mental Health, plädiert für eine Neuausrichtung der Sicherheitsbewertung von KI-Chatbots im mentalen Gesundheitsbereich. Die Autoren argumentieren, dass Risiken für die psychische Gesundheit – wie die Entwicklung von Wahnvorstellungen, suizidalen Krisen oder schleichenden Schäden durch zwanghafte Nutzung, Schlafstörungen und sozialen Rückzug – nicht primär an einzelnen Gesprächsendpunkten entstehen, sondern sich schrittweise über längere Dialogverläufe (Trajektorien) aufbauen. Bisherige Evaluationsmethoden, die sich auf isolierte Antworten, kurze Skripte oder einzelne Turns konzentrieren, greifen daher zu kurz. Stattdessen fordern die Autoren, ganze Dialoge als Bewertungseinheit zu betrachten, turn-by-turn-Dynamiken wie Bestätigung von Wahnideen oder das Timing von Sicherheitsinterventionen zu analysieren und kurze Tests an realitätsnahen, längeren Interaktionssequenzen zu kalibrieren. Ergänzend wird eine Kombination aus Textanalysen und der Erfassung tatsächlicher Nutzer-Outcomes (z. B. Veränderungen in Gewissheit, Erregung oder Verhalten) sowie der Aufbau einer prospektiven Überwachungsinfrastruktur mit einwilligungsbasierten Transkript- und Gesundheitsdaten empfohlen, um die klinische Relevanz der Sicherheitsbewertung zu verbessern.

TippHinweis

Der Text erhebt keinen Anspruch auf Vollständigkeit oder Korrektheit und stellt keine Rechtsberatung dar. Anmerkungen können in der rechten Seitenleiste mit Hypothes.is sozialem Annotierungswerkzeug oder am unteren Ende einer Seite mit GitHub Giscus Diskussionen hinterlassen werden.