KI besteht deutsche Medizin-Examina â mit Ach und Krach
Die Wissenschaftler um Professor Dr. med. Inga Katharina Koerte wollten es genau wissen. Das Forscherteam fĂŒhlte ChatGPT auf den Zahn und testete das medizinische Wissen der kĂŒnstlichen Intelligenz (KI) von OpenAI. Laut Deutschem Ărzteblatt schaffte der Chatbot die schriftlichen medizinischen Staatsexamina M1 und M2, allerdings ohne Bildfragen.
Zuvor stellten bereits US-amerikanische Wissenschaftler die KI auf den PrĂŒfstein. Im Fachmagazin âPLOS Digital Healthâ berichteten die Forscher ĂŒber die PrĂŒfungsergebnisse des âUnited States Medical License Examâ (USMLE), das ChatGPT Ă€hnlich bestand.
In Deutschland mĂŒssen angehende Humanmediziner drei Staatsexamina bestehen. Das erste (M1) prĂŒft Wissen zu vorklinischen Fachbereichen, das zweite (M2) zu klinischen FĂ€chern, beide in Form von Fragebögen. Die letzte HĂŒrde, das M3, ist im Gegensatz zu den beiden ersten eine rein mĂŒndliche PrĂŒfung.
Im August 2022 unterzogen die Wissenschaftler ChatGPT der M1-PrĂŒfung. Im Oktober erfolgte das zweite Staatsexamen. Allerdings klammerten sie Bildfragen aus, da ChatGPT derzeit keine Bilder analysieren kann. Das M1 umfasste danach noch 263 Fragen und das M2 noch 252 Fragen. Die untersuchten Examensfragen kannte der Algorithmus mit sehr hoher Wahrscheinlichkeit nicht.
ChatGPT ist ein âlarge language modelâ (LLM). GPT steht fĂŒr âgeneral pre-trained transformerâ und die verwendete ChatGPT-Version (GPT-3.5) basiert auf rund 175 Milliarden Parametern.
Die Forscher gaben die Fragen in ChatGPT ein und verglichen die Antworten mit den Musterlösungen der Examina. Stimmen mindestens 60 Prozent der Antworten, gilt das Examen als bestanden. Das M1 schaffte die KI knapp mit 60,1 %, im M2 schnitt sie mit 66,7 % etwas besser ab. Damit reichte es in beiden PrĂŒfungen gerade mal fĂŒr die Note 4.
Allerdings fielen die Ergebnisse im M1 je nach Fachbereich sehr unterschiedlich aus. ChatGPT schnitt folgendermaĂen ab: Biologie (77,8 %), Soziologie (75,9 %), Psychologie (73,3 %), Chemie (33,3 %), Physik (45,5 %) und Anatomie (46,4 %).
Im M2 erzielte ChatGPT folgende Ergebnisse: Pharmakologie (94,7 %), Augenheilkunde (85,7 %), Dermatologie (85,7 %), Hals-Nasen-Ohrenheilkunde (33,3 %), Neurologie (46,7 %) und Epidemiologie (46,7 %).
ChatGPT erbrachte insgesamt eine schlechtere Gesamtleistung als die durchschnittlichen Examensteilnehmer. Dabei ist allerdings zu berĂŒcksichtigen, dass die Fragen auf Deutsch erfolgten. Die Trainingsdaten der kĂŒnstlichen Intelligenz basieren zu 93 % auf englischsprachigen Texten und OpenAI trainierte ChatGPT nicht speziell auf Medizin.
Auf jeden Fall sind die Ergebnisse beachtlich und das Koerte-Team kam zu dem Schluss: âDie FĂ€higkeit von LLMs medizinische Daten zu strukturieren und Informationen vor dem Hintergrund der verfĂŒgbaren Literatur zu interpretieren, birgt Potenzial fĂŒr die Nutzung von ChatGPT in der Medizin.â
ChatGPT auf Basis GPT-4 dĂŒrfte noch wesentlich leistungsfĂ€higer als GPT-3.5 sein. Immerhin beruht der Trainingsdatensatz vermutlich auf rund einer Billion Parameter, die genauen Zahlen legte OpenAI nicht offen. Und noch fĂ€higere werden kĂŒnftig folgen. Chatbots wecken groĂe Hoffnungen. Im Bereich Medizin zĂ€hlen zu den möglichen Anwendungen etwa das Verfassen von Arztbriefen oder die UnterstĂŒtzung bei der Suche nach den besten Therapieformen.
Es wĂ€re spannend die Ergebnisse auf Basis GPT-4 zu sehen. OpenAI bietet ChatGPT auf dieser Grundlage nur als Bezahlversion an, das kostenlose ChatGPT basiert noch auf GPT-3.5. Das neue Bing von Microsoft hingegen verwendet in seinem Chat bereits GPT-4. Ăber diesen Umweg lĂ€sst sich GPT-4 kostenlos nutzen.
Der Artikel erschien online am 04.05.2023 unter aerzteblatt.de
Das Team:
Leonard B. Jung*, Jonas A. Gudera*, Tim L. T. Wiegand*, Simeon Allmendinger, Konstantinos Dimitriadis, Inga K. Koerte
* Die Autoren teilen sich die Erstautorenschaft.
cBRAIN, Klinik und Poliklinik fĂŒr Kinder- und Jugendpsychiatrie, Psychosomatik und Psychotherapie, Ludwig-Maximilians-UniversitĂ€t, MĂŒnchen (Jung, Wiegand, Koerte) leonard.jung@gmx.com
Psychiatry Neuroimaging Laboratory, Department of Psychiatry, Brigham and Womenâs Hospital, Harvard Medical School, Boston, MA, USA (Jung, Wiegand, Koerte)
LMU AIM, Ludwig-Maximilians-UniversitĂ€t, MĂŒnchen (Gudera, Wiegand)
Kinderklinik und Kinderpoliklinik, Dr. von Hauner Kinderspital, Ludwig-Maximilians-UniversitĂ€t, MĂŒnchen (Gudera)
Dana-Farber/Boston Childrenâs Cancer and Blood Disorders Center, Harvard Medical School, Boston, MA, USA (Gudera)
Karlsruher Institut fĂŒr Technologie, Karlsruhe (Allmendinger)
Neurologische Klinik und Poliklinik, Ludwig-Maximilians-UniversitĂ€t, MĂŒnchen (Dimitriadis)
Institut fĂŒr Schlaganfall- und Demenzforschung (ISD), Ludwig-Maximilians-UniversitĂ€t, MĂŒnchen
Graduate School of Systemic Neurosciences, Ludwig-Maximilians-UniversitĂ€t, MĂŒnchen (Koerte)
Department of Psychiatry, Massachusetts General Hospital, Harvard Medical School, Boston, MA, USA (Koerte)