Wie maakt tentamen beter: ChatGPT of echte studenten geneeskunde?

Op weinig plekken wordt ChatGPT zoveel gebruikt als in de collegebanken. Reden voor een universitair docent om te testen hoe de AI presteert vergeleken met zijn eigen studenten.

William Hersh geeft al decennialang les in medische informatica aan de Oregon University. Om te testen of zijn studenten nog wel meer weten dan een AI testte hij zes Large Language Models (LLM’s) zoals ChatGPT. De chatbots moesten – net als zijn studenten – tentamen doen in het inleidende vak biomedische en gezondheidsinformatica. En eng idee: de AI presteerde beter dan driekwart van de studenten.

“Dit is zorgwekkend, omdat het nog maar de vraag is of studenten nog eerlijk tentamen doen, maar er is een nog groter probleem”, zegt Hersh. “Hoe weten we of onze studenten daadwerkelijk de kennis en vaardigheden leren die ze nodig hebben voor hun toekomstige werk?”

De rekenmachine
Als professor in de medische informatica is Hersh bijzonder geïnteresseerd in nieuwe technologie. De rol van technologie in het onderwijs is ook niets nieuws, aldus Hersh. Hij vertelt over zijn eigen ervaring als middelbare scholier in de jaren 70 toen de rekenmachine opkwam en dus niet alles meer uit het hoofd hoefde. Ook toen waren er zorgen: zouden leerlingen nog wel fatsoenlijk leren rekenen?

Toch vindt de hoogleraar de opkomst van AI een grotere ontwikkeling, die zorgwekkendere implicaties heeft. “Het is duidelijk dat iedereen enige basiskennis van zijn vakgebied moet hebben”, stelt Hersh. “Wat is de basiskennis die je van mensen verwacht om kritisch te kunnen denken?”

AI maakt tentamens
Hersh en medeonderzoeker Kate Fultz Hollis verzamelden de beoordelingsscores van 139 studenten die in 2023 het inleidende vak biomedische en gezondheidsinformatica volgden. Ze gaven zes LLM’s de opdracht om de tentamens van de studenten te maken. Afhankelijk van het model scoorde de AI in het 50ste tot 75ste percentiel op meerkeuzevragen en op een eindtoets die korte schriftelijke antwoorden vereiste. “De resultaten van deze studie roepen belangrijke vragen op voor de toekomst van de beoordeling van studenten in de meeste, zo niet alle, academische disciplines”, schrijven de auteurs.

De studie is de eerste die LLM’s vergelijkt met studenten in een volledig academisch vak op biomedisch gebied. De onderzoekers merken op dat een op kennis gebaseerd vak zoals dit mogelijk bijzonder geschikt is voor generatieve LLM’s, in tegenstelling tot meer participerende academische cursussen die studenten helpen complexere vaardigheden en capaciteiten te ontwikkelen.

Dunne lijn
Hersh herinnert zich zijn eigen ervaring op de medische opleiding.
“Toen ik geneeskundestudent was, zei een van mijn opleiders dat ik alle kennis in mijn hoofd moest hebben”, zei hij. “Zelfs in de jaren 80 was dat een uitdaging. De hoeveelheid kennis van de geneeskunde is allang de capaciteit van het menselijk brein voorbijgestreefd om alles te onthouden.”

Toch gelooft hij dat er een dunne lijn is tussen het verstandig gebruik van technische middelen om het leren te bevorderen en overmatige afhankelijkheid, waardoor het leren wordt belemmerd. Uiteindelijk is het doel van een academisch ziekenhuis om zorgprofessionals op te leiden die in staat zijn om patiënten te verzorgen en optimaal gebruik te maken van gegevens en informatie over hen in de echte wereld.

Breder perspectief
In die zin, zegt hij, zal geneeskunde altijd een menselijk aspect vereisen. “Er zijn veel dingen die zorgprofessionals doen die vrij eenvoudig zijn, maar er zijn momenten waarop het ingewikkelder wordt en je een oordeel moet vellen”, legt hij uit. “Dan is het handig om dat bredere perspectief te hebben, zonder dat je elk feitje in je hoofd hoeft te hebben.”

Aan het begin van het nieuwe schooljaar maakt Hersh zich echter geen zorgen over studenten die misbruik maken van ChatGPT om hun tentamens te halen. “Ik werk de cursus elk jaar bij. In elk wetenschappelijk vakgebied zijn er voortdurend nieuwe ontwikkelingen en LLM’s zijn niet per se op de hoogte van alles. Het betekent gewoon dat we naar nieuwere of meer genuanceerde toetsen moeten kijken waarvoor je het antwoord niet uit ChatGPT krijgt.”

Bronmateriaal

"Results and implications for generative AI in a large introductory biomedical and health informatics course" - npj Digital Medicine
Afbeelding bovenaan dit artikel: Franz26 / Pixabay

Fout gevonden?

Voor jou geselecteerd