Zelfs na 5 minuten praten hebben mensen niet door dat ze met een robot te maken hebben

De opkomst van AI gaat nu heel snel. Hoewel de mogelijkheden eindeloos zijn, boezemt het ons tegelijkertijd een beetje angst in, want weten we straks nog wel of we met een mens of met een robot te maken hebben? De eerste studies daarnaar tonen aan dat onze vrees terecht is.

Het bekendste voorbeeld van een kunstmatige intelligentie (AI) die nu in duizelingwekkende vaart opkomt, is ChatGPT. De antwoorden en andere teksten die het nieuwste model, GPT-4, genereert zijn zo realistisch dat onderzoekers besloten uit te zoeken of mensen nog wel doorhebben dat ze met een AI in gesprek zijn.

Turingtest
De wetenschappers van University College San Diego voerden daarom de bekende Turingtest uit, vernoemd naar de beroemde computerwetenschapper Alan Turing. Deze test is ontworpen om te beoordelen in welke mate een machine mensachtige intelligentie vertoont.

Nu kun je je voorstellen dat het misschien lastig is om op basis van één enkel antwoord te bedenken of je met een robot te maken hebt of niet, maar dat is niet wat de onderzoekers deden. Ze lieten proefpersonen vijf minuten lang praten met GPT-4 en dan nóg was het lastig om mens van chatbot te onderscheiden.

Simpel spelletje
Ze deden eigenlijk een simpel raadspelletje: is het een mens of niet? “We creëerden een onlineversie van het spel voor twee spelers waarbij menselijke deelnemers werden gekoppeld aan een ander mens of aan een AI”, vertelt onderzoeker Cameron Jones van UC San Diego.

Tijdens iedere sessie ‘sprak’ een menselijke ondervrager met een ‘getuige’, die ofwel een mens ofwel een AI was. De ondervrager had maar één taak: achterhalen – door vragen te stellen – of hij met een mens te maken had of niet.

Maximaal vijf minuten
“De gesprekken duurden maximaal vijf minuten. Aan het eind velde de ondervrager zijn oordeel over of de tegenspeler een mens was of een AI”, legt Jones uit. “Binnen die vijf minuten konden de deelnemers praten waarover ze maar wilden.”

Voor het computerspelletje gebruikten de onderzoekers drie verschillende Large Language Models (LLM’s), zoals chatbots ook wel worden genoemd: GPT-4, GPT-3.5 en ELIZA. En nu komt het: de deelnemers konden meestal nog wel achterhalen dat ELIZA en GPT-3.5 geen echte mensen waren, maar met GPT-4 lukte dat niet meer. Ze hadden het even vaak goed als wanneer ze zouden gokken.

Echte wereld
“Echte mensen waren op zich succesvoller. Ze wisten de deelnemers er twee derde van de tijd van te overtuigen dat ze echte mensen waren, maar onze resultaten laten zien dat in de echte wereld mensen niet kunnen vertellen of ze met een mens of een AI te maken hebben”, aldus Jones.

“In de echte wereld zijn mensen zich immers minder bewust van de mogelijkheid dat ze met een AI-systeem praten, dus ze zullen nog vaker bedot worden”, meent de onderzoeker. “Ik denk dat dit gevolgen kan hebben voor het soort dingen waarvoor AI gebruikt wordt: we kunnen klantenservicebanen automatiseren of het gebruiken voor fraude en desinformatie.”

Leugens en bedrog
De onderzoekers willen nu verder onderzoek doen, onder meer door een onlinespel met drie ‘personen’. “We zijn benieuwd naar een driepersoonsversie van het spel, waarbij de ondervrager tegelijkertijd met een mens en een AI praat en moet bepalen wie, wie is”, legt Jones uit.

“We willen ook testen wat er gebeurt als we AI toegang geven tot livenieuws of een document waarin ze aantekeningen kunnen maken voor ze reageren. Ook willen we kijken hoe overtuigend AI is op andere gebieden: kan hij mensen overtuigen om leugens te geloven, te stemmen voor specifiek beleid of geld te doneren aan een goed doel?”

Wantrouwen
Het zijn maar enkele voorbeelden die duidelijk maken hoe verreikend de impact van chatbots kan zijn, zeker als je bedenkt hoe ver GPT-4 nu al is: zelfs na vijf minuten praten slaagt de AI nog voor de Turingtest. De chatbot is dus tijdens korte gesprekjes niet meer te onderscheiden van echte mensen. Daardoor ontstaat er ook veel meer wantrouwen. Mensen zullen het al snel niet meer vertrouwen als ze contact hebben met iemand online, omdat ze gewoon niet meer weten of ze nog wel met een echt mens praten.

Niet de eerste keer…
Je kunt de Turingtest op verschillende manieren uitvoeren. Begin maart schreven we al over een studie waarbij ChatGPT-4 op de proef werd gesteld, wat betreft zijn betrouwbaarheid, altruïsme en eerlijkheid. Ook toen slaagde hij met vlag en wimpel voor de test. Sterker nog, de nieuwste versie van ChatGPT bleek altruïstischer en meer bereid om samen te werken dan echte mensen. De onderzoeker noemde het goed nieuws. “Het betekent dat we dan misschien best op AI kunnen vertrouwen in bepaalde taken waarbij dit soort eigenschappen handig zijn, zoals in de gezondheidszorg, bij onderhandelingen of conflictbemiddeling.” Ook zei ze dat we kunstmatige intelligentie dan steeds meer als mensen zullen behandelen. “We kunnen een AI bijvoorbeeld op sollicitatiegesprek laten komen voor we besluiten hem aan te nemen voor bepaalde taken.”

Bronmateriaal

"People cannot distinguish GPT-4 from a human in a Turing test" - arXiv
Afbeelding bovenaan dit artikel: wal_172619 / Pixabay

Fout gevonden?

Voor jou geselecteerd