ChatGPT – KI mit echtem Medizinpotential

KI besteht deutsche Medizin-Examina – mit Ach und Krach

Die Wissenschaftler um Professor Dr. med. Inga Katharina Koerte wollten es genau wissen. Das Forscherteam fĂŒhlte ChatGPT auf den Zahn und testete das medizinische Wissen der kĂŒnstlichen Intelligenz (KI) von OpenAI. Laut Deutschem Ärzteblatt schaffte der Chatbot die schriftlichen medizinischen Staatsexamina M1 und M2, allerdings ohne Bildfragen.

Zuvor stellten bereits US-amerikanische Wissenschaftler die KI auf den PrĂŒfstein. Im Fachmagazin „PLOS Digital Health“ berichteten die Forscher ĂŒber die PrĂŒfungsergebnisse des „United States Medical License Exam“ (USMLE), das ChatGPT Ă€hnlich bestand.

Beim M2-Examen schnitt ChatGPT Im Bereich Pharmakologie mit 94,7 % verdammt gut ab
Im Bereich Pharmakologie schnitt ChatGPT beim M2-Examen mit 94,7 % erstaunlich gut ab

In Deutschland mĂŒssen angehende Humanmediziner drei Staatsexamina bestehen. Das erste (M1) prĂŒft Wissen zu vorklinischen Fachbereichen, das zweite (M2) zu klinischen FĂ€chern, beide in Form von Fragebögen. Die letzte HĂŒrde, das M3, ist im Gegensatz zu den beiden ersten eine rein mĂŒndliche PrĂŒfung.

Im August 2022 unterzogen die Wissenschaftler ChatGPT der M1-PrĂŒfung. Im Oktober erfolgte das zweite Staatsexamen. Allerdings klammerten sie Bildfragen aus, da ChatGPT derzeit keine Bilder analysieren kann. Das M1 umfasste danach noch 263 Fragen und das M2 noch 252 Fragen. Die untersuchten Examensfragen kannte der Algorithmus mit sehr hoher Wahrscheinlichkeit nicht.

ChatGPT ist ein „large language model“ (LLM). GPT steht fĂŒr „general pre-trained transformer“ und die verwendete ChatGPT-Version (GPT-3.5) basiert auf rund 175 Milliarden Parametern.

Die Forscher gaben die Fragen in ChatGPT ein und verglichen die Antworten mit den Musterlösungen der Examina. Stimmen mindestens 60 Prozent der Antworten, gilt das Examen als bestanden. Das M1 schaffte die KI knapp mit 60,1 %, im M2 schnitt sie mit 66,7 % etwas besser ab. Damit reichte es in beiden PrĂŒfungen gerade mal fĂŒr die Note 4.

Allerdings fielen die Ergebnisse im M1 je nach Fachbereich sehr unterschiedlich aus. ChatGPT schnitt folgendermaßen ab: Biologie (77,8 %), Soziologie (75,9 %), Psychologie (73,3 %), Chemie (33,3 %), Physik (45,5 %) und Anatomie (46,4 %).

Im M2 erzielte ChatGPT folgende Ergebnisse: Pharmakologie (94,7 %), Augenheilkunde (85,7 %), Dermatologie (85,7 %), Hals-Nasen-Ohrenheilkunde (33,3 %), Neurologie (46,7 %) und Epidemiologie (46,7 %). 

ChatGPT erbrachte insgesamt eine schlechtere Gesamtleistung als die durchschnittlichen Examensteilnehmer. Dabei ist allerdings zu berĂŒcksichtigen, dass die Fragen auf Deutsch erfolgten. Die Trainingsdaten der kĂŒnstlichen Intelligenz basieren zu 93 % auf englischsprachigen Texten und OpenAI trainierte ChatGPT nicht speziell auf Medizin.

Auf jeden Fall sind die Ergebnisse beachtlich und das Koerte-Team kam zu dem Schluss: „Die FĂ€higkeit von LLMs medizinische Daten zu strukturieren und Informationen vor dem Hintergrund der verfĂŒgbaren Literatur zu interpretieren, birgt Potenzial fĂŒr die Nutzung von ChatGPT in der Medizin.“

ChatGPT auf Basis GPT-4 dĂŒrfte noch wesentlich leistungsfĂ€higer als GPT-3.5 sein. Immerhin beruht der Trainingsdatensatz vermutlich auf rund einer Billion Parameter, die genauen Zahlen legte OpenAI nicht offen. Und noch fĂ€higere werden kĂŒnftig folgen. Chatbots wecken große Hoffnungen. Im Bereich Medizin zĂ€hlen zu den möglichen Anwendungen etwa das Verfassen von Arztbriefen oder die UnterstĂŒtzung bei der Suche nach den besten Therapieformen.

Es wĂ€re spannend die Ergebnisse auf Basis GPT-4 zu sehen. OpenAI bietet ChatGPT auf dieser Grundlage nur als Bezahlversion an, das kostenlose ChatGPT basiert noch auf GPT-3.5. Das neue Bing von Microsoft hingegen verwendet in seinem Chat bereits GPT-4. Über diesen Umweg lĂ€sst sich GPT-4 kostenlos nutzen.

Der Artikel erschien online am 04.05.2023 unter aerzteblatt.de

Das Team:

Leonard B. Jung*, Jonas A. Gudera*, Tim L. T. Wiegand*, Simeon Allmendinger, Konstantinos Dimitriadis, Inga K. Koerte

* Die Autoren teilen sich die Erstautorenschaft.

cBRAIN, Klinik und Poliklinik fĂŒr Kinder- und Jugendpsychiatrie, Psychosomatik und Psychotherapie, Ludwig-Maximilians-UniversitĂ€t, MĂŒnchen (Jung, Wiegand, Koerte) leonard.jung@gmx.com

Psychiatry Neuroimaging Laboratory, Department of Psychiatry, Brigham and Women’s Hospital, Harvard Medical School, Boston, MA, USA (Jung, Wiegand, Koerte)

LMU AIM, Ludwig-Maximilians-UniversitĂ€t, MĂŒnchen (Gudera, Wiegand)

Kinderklinik und Kinderpoliklinik, Dr. von Hauner Kinderspital, Ludwig-Maximilians-UniversitĂ€t, MĂŒnchen (Gudera)

Dana-Farber/Boston Children‘s Cancer and Blood Disorders Center, Harvard Medical School, Boston, MA, USA (Gudera)

Karlsruher Institut fĂŒr Technologie, Karlsruhe (Allmendinger)

Neurologische Klinik und Poliklinik, Ludwig-Maximilians-UniversitĂ€t, MĂŒnchen (Dimitriadis)

Institut fĂŒr Schlaganfall- und Demenzforschung (ISD), Ludwig-Maximilians-UniversitĂ€t, MĂŒnchen

Graduate School of Systemic Neurosciences, Ludwig-Maximilians-UniversitĂ€t, MĂŒnchen (Koerte)

Department of Psychiatry, Massachusetts General Hospital, Harvard Medical School, Boston, MA, USA (Koerte)