Bijna alle toonaangevende AI-chatbots vertonen symptomen vergelijkbaar met vroege dementie

Volgens onderzoekers is het onwaarschijnlijk dat AI artsen zal vervangen. Sterker nog, ze grappen dat artsen in de toekomst wellicht nieuwe, virtuele patiënten op hun spreekuur kunnen verwachten.

Zal kunstmatige intelligentie (AI) de rol van artsen overnemen? Het is een vraag die velen bezighoudt. En eerlijk is eerlijk: AI kan artsen zeker ondersteunen of zelfs bepaalde taken overnemen. Denk aan het analyseren van medische gegevens, het herkennen van patronen voor diagnoses, of het voorstellen van behandelingen. Vooral bij repetitieve en data-intensieve klussen is AI een krachtig hulpmiddel. Toch lijkt het onwaarschijnlijk dat artsen daadwerkelijk voor hun baan moeten vrezen, zo blijkt uit een ludiek onderzoek dat in de kersteditie van The BMJ is gepubliceerd.

Kunstmatige intelligentie
Enorme vorderingen hebben een golf van zowel enthousiaste als bezorgde speculaties veroorzaakt over de vraag of chatbots ooit menselijke artsen kunnen overtreffen. Uit verschillende studies blijkt dat grote taalmodellen opvallend goed zijn in een breed scala aan medische diagnostische taken. Maar, zo vroegen onderzoekers zich af, in hoeverre zijn chatbots eigenlijk gevoelig voor menselijke beperkingen, zoals cognitieve achteruitgang?

Chatbots
Om dat de bestuderen, onderzochten wetenschappers de cognitieve vaardigheden van de toonaangevende, openbaar beschikbare LLM’s: ChatGPT versies 4 en 4o (ontwikkeld door OpenAI), Claude 3.5 ‘Sonnet’ (ontwikkeld door Anthropic) en Gemini versies 1 en 1.5 (ontwikkeld door Alphabet). Om de cognitieve vaardigheden te testen, maakte het team gebruik van de zogenoemde ‘Montreal Cognitive Assessment (MoCA)-test’.

Meer over de MoCA-test
Wat de MoCA-test inhoudt? Deze test wordt vaak gebruikt om cognitieve achteruitgang en vroege tekenen van dementie op te sporen, vooral bij oudere volwassenen. Met een reeks korte taken en vragen worden vaardigheden zoals aandacht, geheugen, taal, visuospatiële vaardigheden en uitvoerende functies beoordeeld. De maximale score is 30 punten, waarbij 26 of meer meestal als normaal wordt beschouwd.

De instructies voor elke taak die aan de chatbots werden gegeven, waren hetzelfde als die voor menselijke patiënten. De scoring volgde de officiële richtlijnen en werd beoordeeld door een praktiserend neuroloog.

Slechte scores
Opvallend genoeg bleken de chatbots niet zo goed te scoren. ChatGPT 4o behaalde de hoogste score op de MoCA-test, met 26 van de 30 punten. ChatGPT 4 en Claude volgden met 25 van de 30 punten. Gemini 1.0 scoorde het laagst, met slechts 16 van de 30 punten.

Taken
Taken zoals benoemen, aandacht, taal en abstractie werden door alle chatbots goed uitgevoerd. Maar op het gebied van visuospatiële vaardigheden en uitvoerende taken viel hun prestatie tegen. Zo hadden ze moeite met taken waarbij omcirkelde cijfers en letters in oplopende volgorde moesten worden verbonden. Ook presteerden ze slecht bij de taak waarbij ze een klok met een specifieke tijd moesten tekenen. De Gemini-modellen faalden tevens bij de taak waarbij ze een reeks van vijf woorden moesten onthouden. Bij verdere visuospatiële tests slaagden de chatbots er ook niet in empathie te tonen of complexe visuele scènes nauwkeurig te interpreteren. Alleen ChatGPT 4o slaagde in de Stroop-taak, waarbij combinaties van kleurennamen en letterkleuren worden gebruikt om te meten hoe interferentie de reactietijd beïnvloedt.

Vroege dementie
Het betekent dat bijna alle toonaangevende chatbots tekenen van milde cognitieve achteruitgang vertonen in de test die vaak wordt gebruikt om vroege symptomen van dementie op te sporen. De resultaten tonen ook aan dat ‘oudere’ versies van chatbots, net als oudere patiënten, slechter presteren bij de test.

Artsen vervangen
De studie is uiteraard ludiek. De auteurs erkennen de fundamentele verschillen tussen het menselijk brein en grote taalmodellen. Toch wijzen ze ook op het constante falen van alle grote taalmodellen bij taken die visuele abstractie en uitvoerende functies vereisen. Dit benadrukt een belangrijk zwak punt dat hun inzet in klinische omgevingen zou kunnen belemmeren. De auteurs stellen dat deze bevindingen ‘de veronderstelling uitdagen dat AI binnenkort menselijke artsen zal vervangen’. Het menselijk aspect van geneeskunde, zoals empathie, het interpreteren van complexe situaties en het maken van morele of ethische keuzes, blijft cruciaal. Artsen en AI zullen daarom waarschijnlijk eerder samenwerken dan dat de één de ander vervangt.

De bevindingen stellen dan ook gerust. “Het is onwaarschijnlijk dat neurologen binnenkort vervangen zullen worden door grote taalmodellen”, zo concluderen de onderzoekers. Ze voegen er gekscherend aan toe: “onze bevindingen suggereren zelfs dat ze misschien snel nieuwe, virtuele patiënten zullen behandelen: chatbots die tekenen van vroege dementie vertonen.”

Bronmateriaal

"Almost all leading AI chatbots show signs of cognitive decline" - BMJ Group (via EurekAlert)
Afbeelding bovenaan dit artikel: via Canva Pro

Fout gevonden?

Voor jou geselecteerd