DT News - Switzerland - Können KI-Modelle zahmedizinische Prüfungen bestehen und eigene Prüfungsfragen erstellen?

ZWP online Redaktion

Mi. 11 Februar 2026

Speichern

Manchester – Künstliche Intelligenz wird zunehmend auch in der medizinischen Ausbildung getestet und erprobt, flächendeckend etabliert ist sie jedoch noch nicht. Was passiert, wenn wir ChatGPT-4o, Gemini & Co. nicht nur über Zahnseide oder Prävention plaudern lassen, sondern sie mit echten Prüfungsfragen aus dem Zahnmedizinstudium konfrontieren? Eine britische Studie hat genau das untersucht.

Über 400 Prüfungsfragen & ein Ziel: bestehen oder durchfallen?

Insgesamt 340 Multiple-Choice-Fragen, 80 Kurzantwort-Fragen und drei strukturierte mündliche Prüfungen aus realen UK-Curricula (Bachelor of Dental Surgery sowie Dental Hygiene and Therapy) wurden den drei LLMs GPT, Grok2und Gemini vorgesetzt. Zusätzlich sollten die Modelle 140 neue Prüfungsfragen selbst erstellen. Die große Frage dabei: Können diese Systeme tatsächlich Prüfungen bestehen und auch sinnvolle Prüfungen generieren? Alle drei LLMs konnten die Prüfungen grundsätzlich bestehen. Bei den Multiple-Choice-Aufgaben gab es keine signifikanten Leistungsunterschiede. GPT-4o und Grok2 überzeugten bei den SAPs, während Gemini hier ins Hintertreffen geriet, insbesondere bei den UK-Curricula.

Der eigentliche Härtetest kam jedoch beim Erstellen eigener Prüfungsfragen. Das Bestehen war möglich, die Rolle als Prüfer hingegen überforderte die Systeme. Die von den LLMs generierten Fragen litten häufig unter unklaren Formulierungen, veralteter Terminologie oder schlicht didaktischem Unverständnis. Es gab doppelte Verneinungen, zu komplexe oder zu triviale Antwortoptionen, Bewertungsschemata, die eher an ein Lehrbuchkapitel als an einen Prüfungsleitfaden erinnern. Besonders bei Fragen mit höherem Anspruch hatten die KIs große Schwierigkeiten. Die meisten generierten Fragen kratzten maximal an der Oberfläche, selten erreichten sie das für Prüfungen so zentrale Niveau der klinischen Anwendung. Keines der LLMs konnte laut den Autoren durchgängig prüfungstaugliches Material liefern. Besonders in Bereichen wie Parodontologie oder Materialkunde wurden viele Fragen als ungeeignet eingestuft. Das zeigt, die KI kann auf jeden Fall mitlernen aber eben immer (noch) nicht lehren. Und das ist auch gut so.

DOI https://doi.org/10.1038/s41415-025-8383-2

Schlagwörter:

To post a reply please login or register

Verwandte Artikel

Vitamin-D-Mangel und Parodontitis können Diabetesrisiko erhöhen

SEELBACH, Deutschland – Eine aktuelle Studie der Universität von Toronto hat einen Zusammenhang zwischen Vitamin D, Parodontitis und Typ-2-Diabetes ...

Zahnärzte-Gesellschaft feiert 125-jähriges Bestehen

BERN - Am 7. März feiert die Schweizerische Zahnärzte-Gesellschaft (SSO) ihren 125. Geburtstag. Gründervater Friedrich Wellauer bezeichnete ...

Streifzug zum 100-jährigen Bestehen des VDDI

KÖLN – Der VDDI feiert in diesem Jahr sein 100-jähriges Bestehen. Dies gibt Anlass für einen Streifzug durch ein Jahrhundert ...

Können Probiotika ECC bremsen?

KOPENHAGEN – Early Childhood Caries (ECC) ist international noch immer ein großes Problem. Sechs bis neunzig Prozent aller Kinder unter sechs ...

Lange Arbeitszeiten können Gewichtszunahme begünstigen

KÖLN - Überstunden und lange Arbeitszeiten erschweren es, ein gesundes Körpergewicht aufrechtzuerhalten. Dies zeigen die Ergebnisse einer Auswertung von ...

Kieferknochenveränderungen können auf Größenverlust hinweisen

LONDON – Strukturelle Veränderungen des Kieferknochens im mittleren Lebensalter könnten auf einen nachfolgenden Größenverlust bei Frauen hinweisen, so...