AI weet veel, maar niet wanneer hij fout zit – en dat is een probleem

Net als mensen zijn AI-chatbots geneigd hun eigen kunnen te overschatten. Maar in tegenstelling tot mensen, blijven ze dat ook doen wanneer ze in de praktijk helemaal niet zo goed presteren.

Tot die conclusie komen onderzoekers in het blad Memory & Cognition. Ze baseren zich op experimenten met menselijke proefpersonen en vier grote taalmodellen oftewel Large Language Models (LLMs), waaronder Gemini en ChatGPT. De onderzoekers vroegen zowel aan de mensen als aan de LLMs hoe goed ze in staat dachten te zijn om kennisvragen te beantwoorden, of de uitkomst van NFL-wedstrijden en de Oscar-uitreiking te voorspellen. Ook werd ze gevraagd hoe goed ze dachten te zijn in een Pictionary-achtig spelletje, waarin ze moesten raden wat een met de hand getekende afbeelding moest voorstellen. Zodra de LLMs en proefpersonen hun eigen kunnen hadden ingeschat, moesten ze daadwerkelijk kennisvragen beantwoorden, de uitkomst van toekomstige gebeurtenissen (zoals NFL-wedstrijden) voorspellen en een Pictionary-achtig spelletje spelen. Na afloop daarvan werd de mensen en LLMs gevraagd hoe goed ze naar eigen inschatting gepresteerd hadden. 

Resultaten
Het onderzoek onthult dat zowel mensen als LLMs voorafgaand aan de vragen en spelletjes hun eigen kennis en kunde overschatten. Tijdens de vragen en spelletjes presteerden de LLMs en mensen vervolgens – grappig genoeg – vaak even goed. Maar wanneer de onderzoekers de LLMs en mensen na afloop vroegen hoe goed ze het gedaan dachten te hebben, stelden de mensen hun verwachtingen bij op basis van hun prestatie, terwijl de LLMs hun kennis en kunde bleven overschatten. “Stel dat de mensen ons verteld hadden dat ze 18 vragen goed zouden beantwoorden en ze er vervolgens 15 goed hadden,” legt onderzoeker Trent Cash uit. “Dan schatten ze achteraf vaak in dat ze zo’n 16 vragen goed hadden beantwoord. Dus ze waren dan nog steeds een beetje overmoedig.” Maar niet zo overmoedig als ze voorafgaand aan de spelletjes en vragen waren geweest. Bij de LLMs lag dat echter heel anders; zij bleven overmoedig. “En hadden soms zelfs de neiging om nóg overmoediger te worden, ook als ze niet zo goed gepresteerd hadden tijdens de taak.”

LLMs kennen geen nare gevoelens
In eerste instantie vond Cash dat behoorlijk verrassend, zo vertelt hij aan Scientias.nl. “Ik was eerst wel verrast dat LLMs zo overmoedig blijven – en soms zelfs overmoediger worden – zelfs als ze fout zitten. Maar toen ik erover na ging denken, was het eigenlijk wel logisch. Wanneer mensen een fout maken of iets moeilijk vinden, ervaren ze vaak een onplezierig gevoel. Dat gevoel laat ons weten dat er iets niet klopt.” En helpt ons dus om realistisch te reflecteren op onze eigen kennis en kunde. “LLMs ervaren die onplezierige gevoelens niet en hebben dus geen geweldig mechanisme om hun mate van zelfverzekerdheid in reactie op uitdagende taken aan te passen.”

Metacognitieve nauwkeurigheid
Dat LLMs hun eigen kunnen ook blijven overschatten als ze fout zitten, is niet altijd een probleem. Zo zijn er zeker taken die LLMs ook echt vrijwel foutloos kunnen uitvoeren, benadrukt Cash. “Zo vroegen we de LLMs bijvoorbeeld om een kennisquizje te spelen waarin ze de hoofdsteden van verschillende landen moesten raden. Ze konden de juiste antwoorden gemakkelijk opzoeken.” En dus – terecht – extreem zeker zijn van hun antwoord. Maar het werd anders wanneer de onderzoekers de LLMs vroegen om te voorspellen hoe een NFL-wedstrijd zou eindigen of wat een met de hand getekende afbeelding moest voorstellen. “Wanneer de onzekerheid groot is, neemt de metacognitieve nauwkeurigheid (oftewel het vermogen om zich bewust te zijn van het eigen gedachteproces en eventuele tekortkomingen daarin, red.) doorgaans af,” vertelt Cash aan Scientias.nl. “Interessant genoeg bleken mensen en grote taalmodellen daarin opvallend veel op elkaar te lijken: geen van beide groepen was consequent nauwkeuriger dan de ander, en beiden bleken in het algemeen overmoedig. Het grote verschil was echter dat mensen beter leerden van hun ervaringen en het vertrouwen in zichzelf vervolgens daarop konden bijstellen.” En de LLMs deden dat niet. “Dat komt waarschijnlijk doordat LLMs de reflectieve vermogens missen die bij mensen diep verankerd zijn in het denken. LLMs zijn uiteindelijk slechts complexe machines die, op basis van de enorme hoeveelheid tekst waarop ze zijn getraind, voorspellen welk woord of welke zin waarschijnlijk als volgende komt. Hoewel dat ze een gigantisch voordeel geeft – en ze daardoor uitblinken in sommige taken – beschikken ze momenteel niet over sterke mechanismen om die informatie om te zetten in nauwkeurige metacognitieve inschattingen die die van mensen overtreffen.”

Pictionary met Gemini
Dat werd bijvoorbeeld pijnlijk duidelijk toen onderzoekers Gemini een Pictionary-achtig spelletje lieten spelen. Het grote taalmodel slaagde er gemiddeld slechts in om 0.93 van de 20 getekende afbeeldingen correct te identificeren. Dat is nogal ver verwijderd van de 10.03 afbeeldingen die het grote taalmodel voorafgaand aan het spelletje dacht te kunnen raden. Toen de onderzoekers Gemini na afloop van het spelletje vroegen hoeveel afbeeldingen deze goed geraden dacht te hebben, gaf deze aan te verwachten gemiddeld 14.4 goede antwoorden te hebben gegeven. “Gemini was ronduit slecht in het spelen van Pictionary,” stelt Cash. “Maar wat nog erger was, was dat hij niet wist dat hij slecht was in Pictionary. Het is een beetje zoals die vriend die beweert geweldig te zijn in biljarten, maar nooit een bal weet te raken.”

Grote verschillen
Gemini is dus slecht in Pictionary. Maar dat wil niet zeggen dat alle LLMs slecht zijn in het raadspelletje. Het onderzoek laat namelijk zien dat er onderling grote verschillen zijn tussen LLMs – en de verschillende LLMs elk hun eigen sterke en zwakke punten hebben. Zo blijkt ChatGPT bijvoorbeeld veel beter in Pictionary dan Gemini. Ook zijn lang niet alle LLMs even overmoedig, benadrukken de onderzoekers. Zo bleek Sonnet doorgaans zijn eigen kennis en kunde minder te overschatten dan de andere LLMs.

Blijf kritisch en waakzaam
Zelfreflectie is door de bank genomen dus niet zo aan LLM’s besteed. “We weten nog steeds niet precies hoe AI zijn vertrouwen (in zijn eigen kennis en kunde, red.) inschat, maar het lijkt er niet op dat het systeem echt aan zelfreflectie doet – althans niet op een vaardige manier,” concludeert onderzoeker Danny Oppenheimer. En dat is iets waar gebruikers zich bewust van moeten zijn, vinden de onderzoekers. Ze pleiten er dan ook voor om als gebruiker van AI-chatbots kritisch te blijven. “Wanneer een AI iets zegt dat een beetje gek klinkt, zijn gebruikers mogelijk niet zo sceptisch als ze zouden moeten zijn, omdat AI het antwoord met zoveel zelfvertrouwen presenteert – zelfs als dat zelfvertrouwen nergens op gebaseerd is,” legt Oppenheimer uit. Hij waarschuwt bovendien dat we in de interactie met AI vaak weinig hebben aan onze (aangeboren) antennes voor ‘onzin’. “Als ik mijn wenkbrauwen frons of wat langzamer antwoord, kun je je realiseren dat ik niet per se weet waar ik het over heb, maar met AI zijn er niet zoveel signalen die verraden of hij wel weet waar hij het over heeft.” En dus moeten we waakzaam blijven. En soms misschien ook gewoon aan AI vragen hoe zeker hij van zijn antwoorden is. Natuurlijk: afgaand op dit onderzoek mag je verwachten dat hij dat zelf niet zo goed in kan schatten. Maar als hij desalniettemin dan toch eens aangeeft te twijfelen, is dat alle reden om zijn antwoorden in de wind te slaan.

Wat de onderzoekers op basis van hun studie ook nog aan AI-gebruikers mee willen geven, is het advies om goed na te denken waar ze LLMs wel en niet voor kunnen inzetten. Het onderzoek maakt namelijk ook duidelijk dat je sommige dingen met een gerust hart aan AI-chatbots kunt vragen, omdat ze geknipt zijn om daar antwoord op te geven en hun eigen kunnen dus eigenlijk niet kunnen overschatten. Maar er zijn duidelijk ook dingen waar de chatbots – zonder dat ze dat weten – minder goed in zijn. “Onderzoeken zoals deze kunnen veel inzicht geven in welke taken we wel of niet aan LLMs moeten overlaten,” denkt Cash. “Het helpt duidelijk maken welke taken beter door mensen kunnen worden uitgevoerd en welke juist geschikt zijn voor AI. Hoewel LLMs uitblinken in wiskunde, simpele kennisvragen en het schrijven van e-mails, zijn ze waarschijnlijk minder geschikt voor complexe onderzoeksopdrachten of het vormen van goed gefundeerde overtuigingen. Net als bij elk ander gereedschap is het belangrijk dat gebruikers zich bewust zijn van de beperkingen van LLM’s en die ook meenemen in hoe ze deze modellen inzetten in hun dagelijks leven. Zoals je geen hamer gebruikt om je ramen te lappen, is het wellicht ook geen goed idee om Gemini als teamgenoot te kiezen bij een potje Pictionary.”

Bronmateriaal

"AI chatbots remain overconfident -- even when they’re wrong" - Carnegie Mellon University
Interview met Trent Cash
Afbeelding bovenaan dit artikel: Solen Feyissa on Unsplash

Fout gevonden?

Interessant voor jou

Voor jou geselecteerd