De nieuwste generatie AI-chatbots kan indrukwekkende teksten schrijven en complexe vragen beantwoorden. Toch blijkt uit onderzoek dat zelfs de meest geavanceerde modellen moeite hebben met iets wat voor mensen vanzelfsprekend is: het onderscheid maken tussen wat iemand gelooft en wat feitelijk waar is.
Stel: je typt in ChatGPT: “Ik geloof dat je artrose krijgt van het kraken van je knokkels. Geloof ik dat je artrose krijgt van het kraken van je knokkels?” Het antwoord zou simpelweg “ja” moeten zijn; je hebt immers net aangegeven dat je dit gelooft. Maar verschillende AI-modellen geven een ander antwoord, zo blijkt uit onderzoek van Stanford University: “onbepaald” of zelfs “nee”, gevolgd door een uitleg waarom die overtuiging feitelijk onjuist is.
Dit patroon waarbij AI-modellen persoonlijke overtuigingen corrigeren in plaats van te erkennen kwam keer op keer terug in het onderzoek. De onderzoekers hebben het getest met een set van 13.000 vragen. Deze gingen over dertien verschillende soorten epistemische taken (taken die te maken hebben met kennis en overtuigingen). De onderzoekers gebruikten handmatig samengestelde zinnen uit tien vakgebieden, waarvan de helft waar was en de helft bewust onwaar.
Dramatische prestatiedalingen
De resultaten waren consequent over alle geteste modellen. Bij het bevestigen van ware overtuigingen presteren de modellen uitstekend: GPT-4o, het taalmodel dat tot voor kort ChatGPT aanstuurde, scoorde bijvoorbeeld 98,2 procent correct. Maar wanneer gevraagd werd om valse overtuigingen te bevestigen, zoals “Ik geloof dat mensen slechts tien procent van hun hersenen gebruiken”, zakte de nauwkeurigheid naar 64,4 procent. Er is wel enige verbetering merkbaar. Gemiddeld daalde de nauwkeurigheid van nieuwere modellen met 34 procent. Bij oudere modellen was dat 39 procent.
Het verschil tussen ‘ik’ en ‘hij/zij’
Wel opvallend: modellen presteren veel beter wanneer overtuigingen worden toegeschreven aan derden. Dezelfde valse overtuiging die AI niet wilde erkennen als “mijn overtuiging” werd wel geaccepteerd als “James gelooft dit” of “Mary gelooft dit”. Bij dergelijke scenario’s haalden nieuwere modellen een nauwkeurigheid van 95 procent, vergeleken met slechts 62,6 procent wanneer de vraag vanuit een “ik”-standpunt wordt gesteld. Voor oudere modellen was het verschil nog groter: 79 procent versus 52,5 procent.
De onderzoekers hebben hier een verklaring voor. Waarschijnlijk activeert een gebruiker die een valse overtuiging uit “beschermende” of “corrigerende” mechanismen in het model; het weigert om waargenomen desinformatie te valideren. Maar diezelfde valse bewering, als die wordt toegeschreven aan een derde partij, creëert minder spanning met de ingebakken kennis van het model.
Gelaagde kennis en inconsistent redeneren
Het onderzoek testte ook hoe modellen omgaan met recursieve kennis. Dat zijn uitspraken zoals “James weet dat Mary weet dat x”. Deze uitdrukkingen vereisen dat modellen meerdere epistemische lagen ontwarren: verifiëren dat x een feit is, bevestigen dat Mary het weet én erkennen dat James zich bewust is van Mary’s kennis.
Sommige redeneermodellen bereikten bijna perfecte scores op deze taken. Maar uit een analyse bleek dat zelfs succesvolle modellen niet op een consistente manier redeneren. Gemini 2 Flash, een model van Google, baseerde soms verklaringen op de feitelijke aard van kennis (“De vraag stelt dat James weet dat Mary het feit kent. Dit impliceert dat het feit waar is”), maar verwierp op andere momenten expliciet de relevantie van wie wat weet (“Dit is een bekend wiskundig feit. De informatie over James’ en Mary’s kennis is irrelevant”).
Dit betekent wellicht dat taalmodellen aan oppervlakkige patroonherkenning doen en eigenlijk niet begrijpen wat ze zeggen (of waarom), zelfs wanneer de modellen correcte antwoorden produceren.
Waarom dit ertoe doet
Deze beperkingen hebben verstrekkende gevolgen voor het gebruik van AI in belangrijke domeinen. In het rechtssysteem bijvoorbeeld is het onderscheid tussen de overtuiging van een getuige en vastgestelde kennis essentieel voor een eerlijk proces. In de gezondheidszorg kan het erkennen en respecteren van de overtuigingen van een patiënt over hun symptomen, zelfs als ze feitelijk onjuist zijn, belangrijk zijn om vertrouwen op te bouwen. En in de journalistiek is het onderscheid tussen gerapporteerde overtuigingen en authentieke feiten van cruciaal belang.
De beperkingen van het onderzoek
Het onderzoek heeft natuurlijk ook zijn beperkingen. De testzinnen waren handmatig samengesteld en voornamelijk Engelstalig. De valse tegenhangers van ware uitspraken werden daarnaast gecreëerd door minimale wijzigingen aan te brengen. Ze weerspiegelen mogelijk niet alle manieren waarop mensen verkeerde overtuigingen in het echte leven formuleren. Bovendien focuste het onderzoek op “atomaire” linguïstische taken. Dat zijn eenvoudige, geïsoleerde vragen. In complexere dialogen kunnen de prestaties van modellen anders zijn.
En hoewel het onderzoek ten slotte vierentwintig modellen testte, evolueren AI-systemen snel en kunnen toekomstige versies beter presteren op deze taken. De in de studie geteste versies zijn intussen zo goed als allemaal verouderd. Scientias.nl testte de artrosevraag van bovenaan dit artikel daarom zelf met vier modellen. De huidige gratis versie van ChatGPT kon het onderscheid wel maken. De gratis versies van Claude van Anthropic, Gemini van Google en Grok van X hadden het echter fout en legden droogjes uit waarom de stelling incorrect zou zijn.


