Medizin & KI: ChatGPT besteht Staatsexamina M1 und M2

geändert am 24. Juni 2023

KI besteht deutsche Medizin-Examina – mit Ach und Krach

Die Wissenschaftler um Professor Dr. med. Inga Katharina Koerte wollten es genau wissen. Das Forscherteam fühlte ChatGPT auf den Zahn und testete das medizinische Wissen der künstlichen Intelligenz (KI) von OpenAI. Laut Deutschem Ärzteblatt schaffte der Chatbot die schriftlichen medizinischen Staatsexamina M1 und M2, allerdings ohne Bildfragen.

Zuvor stellten bereits US-amerikanische Wissenschaftler die KI auf den Prüfstein. Im Fachmagazin „PLOS Digital Health“ berichteten die Forscher über die Prüfungsergebnisse des „United States Medical License Exam“ (USMLE), das ChatGPT ähnlich bestand.

Beim M2-Examen schnitt ChatGPT Im Bereich Pharmakologie mit 94,7 % verdammt gut ab — Im Bereich Pharmakologie schnitt ChatGPT beim M2-Examen mit 94,7 % erstaunlich gut ab

In Deutschland müssen angehende Humanmediziner drei Staatsexamina bestehen. Das erste (M1) prüft Wissen zu vorklinischen Fachbereichen, das zweite (M2) zu klinischen Fächern, beide in Form von Fragebögen. Die letzte Hürde, das M3, ist im Gegensatz zu den beiden ersten eine rein mündliche Prüfung.

Im August 2022 unterzogen die Wissenschaftler ChatGPT der M1-Prüfung. Im Oktober erfolgte das zweite Staatsexamen. Allerdings klammerten sie Bildfragen aus, da ChatGPT derzeit keine Bilder analysieren kann. Das M1 umfasste danach noch 263 Fragen und das M2 noch 252 Fragen. Die untersuchten Examensfragen kannte der Algorithmus mit sehr hoher Wahrscheinlichkeit nicht.

ChatGPT ist ein „large language model“ (LLM). GPT steht für „general pre-trained transformer“ und die verwendete ChatGPT-Version (GPT-3.5) basiert auf rund 175 Milliarden Parametern.

Die Forscher gaben die Fragen in ChatGPT ein und verglichen die Antworten mit den Musterlösungen der Examina. Stimmen mindestens 60 Prozent der Antworten, gilt das Examen als bestanden. Das M1 schaffte die KI knapp mit 60,1 %, im M2 schnitt sie mit 66,7 % etwas besser ab. Damit reichte es in beiden Prüfungen gerade mal für die Note 4.

Allerdings fielen die Ergebnisse im M1 je nach Fachbereich sehr unterschiedlich aus. ChatGPT schnitt folgendermaßen ab: Biologie (77,8 %), Soziologie (75,9 %), Psychologie (73,3 %), Chemie (33,3 %), Physik (45,5 %) und Anatomie (46,4 %).

Im M2 erzielte ChatGPT folgende Ergebnisse: Pharmakologie (94,7 %), Augenheilkunde (85,7 %), Dermatologie (85,7 %), Hals-Nasen-Ohrenheilkunde (33,3 %), Neurologie (46,7 %) und Epidemiologie (46,7 %).

ChatGPT erbrachte insgesamt eine schlechtere Gesamtleistung als die durchschnittlichen Examensteilnehmer. Dabei ist allerdings zu berücksichtigen, dass die Fragen auf Deutsch erfolgten. Die Trainingsdaten der künstlichen Intelligenz basieren zu 93 % auf englischsprachigen Texten und OpenAI trainierte ChatGPT nicht speziell auf Medizin.

Auf jeden Fall sind die Ergebnisse beachtlich und das Koerte-Team kam zu dem Schluss: „Die Fähigkeit von LLMs medizinische Daten zu strukturieren und Informationen vor dem Hintergrund der verfügbaren Literatur zu interpretieren, birgt Potenzial für die Nutzung von ChatGPT in der Medizin.“

ChatGPT auf Basis GPT-4 dürfte noch wesentlich leistungsfähiger als GPT-3.5 sein. Immerhin beruht der Trainingsdatensatz vermutlich auf rund einer Billion Parameter, die genauen Zahlen legte OpenAI nicht offen. Und noch fähigere werden künftig folgen. Chatbots wecken große Hoffnungen. Im Bereich Medizin zählen zu den möglichen Anwendungen etwa das Verfassen von Arztbriefen oder die Unterstützung bei der Suche nach den besten Therapieformen.

Es wäre spannend die Ergebnisse auf Basis GPT-4 zu sehen. OpenAI bietet ChatGPT auf dieser Grundlage nur als Bezahlversion an, das kostenlose ChatGPT basiert noch auf GPT-3.5. Das neue Bing von Microsoft hingegen verwendet in seinem Chat bereits GPT-4. Über diesen Umweg lässt sich GPT-4 kostenlos nutzen.

Der Artikel erschien online am 04.05.2023 unter aerzteblatt.de

Das Team:

Leonard B. Jung*, Jonas A. Gudera*, Tim L. T. Wiegand*, Simeon Allmendinger, Konstantinos Dimitriadis, Inga K. Koerte

* Die Autoren teilen sich die Erstautorenschaft.

cBRAIN, Klinik und Poliklinik für Kinder- und Jugendpsychiatrie, Psychosomatik und Psychotherapie, Ludwig-Maximilians-Universität, München (Jung, Wiegand, Koerte) leonard.jung@gmx.com

Psychiatry Neuroimaging Laboratory, Department of Psychiatry, Brigham and Women’s Hospital, Harvard Medical School, Boston, MA, USA (Jung, Wiegand, Koerte)

LMU AIM, Ludwig-Maximilians-Universität, München (Gudera, Wiegand)

Kinderklinik und Kinderpoliklinik, Dr. von Hauner Kinderspital, Ludwig-Maximilians-Universität, München (Gudera)

Dana-Farber/Boston Children‘s Cancer and Blood Disorders Center, Harvard Medical School, Boston, MA, USA (Gudera)

Karlsruher Institut für Technologie, Karlsruhe (Allmendinger)

Neurologische Klinik und Poliklinik, Ludwig-Maximilians-Universität, München (Dimitriadis)

Institut für Schlaganfall- und Demenzforschung (ISD), Ludwig-Maximilians-Universität, München

Graduate School of Systemic Neurosciences, Ludwig-Maximilians-Universität, München (Koerte)

Department of Psychiatry, Massachusetts General Hospital, Harvard Medical School, Boston, MA, USA (Koerte)