ChatGPT hat Prüfung für Radiologen bestanden

| pte 
| 21.05.2023

Manche Antworten der Künstlichen Intelligenz waren jedoch ungenau.

ChatGPT hat eine Prüfung der Radiological Society of North America bestanden. "Die Verwendung großer Sprachmodule wie ChatGPT explodiert und wird noch zunehmen", so Prüfer Rajesh Bhayana, Radiologe am Toronto General Hospital und fügt hinzu: "Unsere Forschung gibt Aufschluss über die Leistung von ChatGPT im radiologischen Kontext und unterstreicht das unglaubliche Potenzial großer Sprachmodule sowie die derzeitigen Einschränkungen, die es unzuverlässig machen."

Das könne Gefahren mit sich bringen, denn ChatGPT und ähnliche Chatbots würden in Suchmaschinen wie Google und Bing integriert, die Ärzt:innen und Patient:innen verwenden, um nach medizinischen Infos zu suchen, so Bhayana.

150 Multiple-Choice-Fragen

Das Team hat die ChatGPT-Version GPT-3.5 getestet, die derzeit am häufigsten verwendet wird. Die Prüfung bestand aus 150 Multiple-Choice-Fragen, die auf den Stil, den Inhalt und den Schwierigkeitsgrad der Prüfungen des Canadian Royal College und des American Board of Radiology abgestimmt waren. Dabei ging es um das Abrufen von Wissen und das Grundverständnis, um Anwendungen, Analysen und Synthesen sowie Beschreibungen der Bildgebungsbefunde, klinisches Management, Berechnung und Klassifikationen.

GPT-3.5 beantwortete 69 Prozent der Fragen richtig (104 von 150). Für ein Bestehen der Prüfung wären nach der Praxis des Royal College in Kanada 70 Prozent nötig gewesen. Das Modell schnitt bei Wissensfragen mit 84 Prozent richtigen Antworten (51 von 61) am besten ab, hatte aber Probleme mit Fragen, die das Denken höherer Ordnung betrafen (60 Prozent, 53 von 89). Genauer gesagt, hatte die Software Probleme bei der Beschreibung der Bildgebungsbefunde (61 Prozent richtig, 28 von 46), der Berechnung und Klassifizierung (25 Prozent, zwei von acht) und der Anwendung von Konzepten (30 Prozent, drei von zehn). Die schlechte Leistung bei Denkfragen höherer Ordnung führt Bhayana auf fehlende radiologiespezifische Vorschulung zurück.

Besseres Ergebnis mit aktueller Software 

Die Nachfolge-Software GPT-4, die im März 2023 in begrenzter Form für zahlende Nutzer:innen freigegeben wurde, machte es besser: Sie bestand die Prüfung mit 81 Prozent richtigen Antworten. Insbesondere registrierten die Radiolog:innen Verbesserungen bei anspruchsvolleren Aufgaben. "Wir waren überrascht von den großenteils genauen und selbstbewussten Antworten von ChatGPT auf einige herausfordernde radiologische Fragen, aber dann ebenso überrascht von einigen sehr unlogischen und ungenauen Behauptungen. Es ist gefährlich, sich nur auf ChatGPT zu verlassen", so Bhayanas Fazit.

www.chat.openai.com

www.rsna.org

Kommentar schreiben

* Pflichtfelder.

leadersnet.TV