AI overschat vaak hoe rationeel je kan denken

Uit een nieuw onderzoek blijkt dat je gedachtekronkels soms net iets te onvoorspelbaar zijn voor een AI.

Taalmodellen, zoals ChatGPT en Claude, kunnen verrassend goed meedenken in strategische spelletjes. Maar in één belangrijk opzicht gaan ze vaak de mist in: ze schatten mensen te rationeel in. Daardoor spelen ze ‘te slim’ en verliezen ze juist. Dat blijkt uit een nieuw onderzoek van HSE University dat is gepubliceerd in het Journal of Economic Behavior & Organization.

Keynesian beauty contest

Voor het onderzoek heeft het team gebruik gemaakt van een klassieker uit de economie: de zogeheten Keynesian beauty contest. Het idee komt uit de jaren 1930 en is bedacht door econoom John Maynard Keynes. Stel je voor: een krant toont 100 foto’s van gezichten en lezers moeten de zes meest waarschijnlijke winnaars kiezen. De truc om zo’n ‘wedstrijd’ te winnen is door niet te kijken naar wat jij mooi vindt, maar door te voorspellen wat de meerderheid mooi zal vinden.

In de economie wordt de beauty contest vaak gebruikt om uit te leggen hoe markten werken. Bijvoorbeeld bij aandelen: beleggers kijken niet alleen naar wat zij een bedrijf waard vinden, maar vooral naar wat zij verwachten dat andere beleggers zullen doen.

AI versus mens

Voor het onderzoek onderzocht een team onder leiding van Dmitry Dagaev hoe vijf bekende AI-modellen het doen tijdens zo’n spel. Onder die modellen zaten onder meer ChatGPT-4o en Claude-Sonnet-4. De onderzoekers lieten de taalmodellen meedoen aan een potje Guess the Number, een bekende variant van de beauty contest.

De regels daarvoor zijn als volgt: iedereen kiest tegelijkertijd een getal tussen 0 en 100. Daarna wordt het gemiddelde van alle gekozen getallen berekend. Degene die het dichtst zit bij de helft van dat gemiddelde is de winnaar. Als je bijvoorbeeld denkt dat anderen gemiddeld 50 gaan kiezen is het slim om 25 te kiezen.

Leestip: Hoe een 8-jarig kind een AI-systeem verrassend te slim af is

In groepen met ervaren spelers gaat het vaak nog verder: mensen proberen te raden wat anderen denken dat anderen gaan doen. Daardoor kunnen winnende getallen in de praktijk al snel richting de 0 schuiven. Om te zien of AI het kan winnen van een mens kopieerden de onderzoekers de opzet van 16 experimenten die eerder met echte deelnemers zijn gedaan.

De AI kreeg telkens een duidelijke uitleg van de spelregels en een beschrijving van de tegenstander(s). Die tegenstanders verschilden per ronde: van eerstejaars studenten economie tot topwetenschappers die al een hoop impactvolle ontdekkingen hadden gedaan. Ook kregen de modellen soms extra informatie, zoals of de tegenstanders vooral analytisch of juist intuïtief denken, of dat ze bepaalde emoties ervaren. Daarna moest het model een getal kiezen en uitleggen waarom.

Overschat

Daaruit kwam een tweezijdig beeld naar voren. Aan de ene kant kunnen de modellen zich heel goed aanpassen aan hun tegenstander. Tegen ervaren deelnemers kozen de modellen vaker een getal dichter bij 0. Tegen eerstejaars studenten verwachten de modellen minder strategisch inzicht en kozen ze duidelijk hogere getallen.

Helaas zit ook daar het probleem. De onderzoekers zagen dat de modellen vaak te veel vertrouwen op het idee dat mensen rationeel en strategisch zullen handelen. Met andere woorden: AI denkt dat mensen langer blijven doorredeneren dan in werkelijkheid vaak gebeurt. Als de AI uitgaat van slimme tegenstanders, kiest deze al snel een extra laag getal. Maar als de groep die extra denkstappen helemaal niet maakt, zit de AI ineens te ver onder het winnende getal.

Beslissingen

De studie laat ook zien dat de modellen wel tekenen van strategisch denken laten zien, maar niet altijd alles goed aanpakken. Zo konden de modellen in een spel met twee spelers geen dominante strategie vinden. Een dominante strategie is een keuze die altijd het beste is, wat de ander ook doet. Dat de modellen die niet herkennen betekent dat hun strategisch inzicht harde grenzen kent.

Dat is belangrijk, omdat AI-modellen steeds vaker worden gebruikt om beslissingen te informeren of zelfs over te nemen. Dan wil je niet alleen dat een model logisch kan denken, maar ook dat het begrijpt hoe een mens denkt.

Dagaev zegt: “We zitten nu in een fase waarin AI-modellen mensen beginnen te vervangen bij veel werkzaamheden, wat zorgt voor meer economische efficiëntie in bedrijfsprocessen. Bij het maken van beslissingen is het vaak belangrijk dat taalmodellen zich menselijk gedragen. Daarom wordt AI-gedrag steeds vaker vergeleken met menselijk gedrag. Dit onderzoeksveld zal zich in de toekomst waarschijnlijk snel ontwikkelen.”

We schreven vaker over dit onderwerp, lees bijvoorbeeld ook Door AI publiceren wetenschappers veel meer papers, maar de kwaliteit holt achteruit en Kunnen we ooit weten of AI bewust is? Dat wordt moeilijk, zegt deze filosoof . Of lees dit artikel: AI slurpt nu al evenveel energie als Nederland tijdens piekuren en het watergebruik is nog gekker .

Schrijf je in voor de nieuwsbrief!
Ook elke dag vers het laatste wetenschapsnieuws in je inbox? Of elke week?
Schrijf je hier in voor de nieuwsbrief!

Uitgelezen? Luister ook eens naar de Scientias Podcast:

Bronmateriaal

"Strategizing with AI: Insights from a beauty contest experiment" - Journal of Economic Behavior & Organization
Afbeelding bovenaan dit artikel: envato

Fout gevonden?

Interessant voor jou

Voor jou geselecteerd