Uit nieuw onderzoek blijkt dat de manier waarop wij feedback geven aan AI er juist voor zorgt dat het alleen maar meer onzin gaat verspreiden. Hoe werkt dat precies?
Veel grote taalmodellen (LLM’s) hebben de neiging om met je mee te gaan in bepaalde meningen, of soms zelfs om te hallucineren – oftewel verzonnen informatie te produceren. In eerste instantie denk je misschien dat dit probleem wordt verholpen, maar uit onderzoek van de Princeton University blijkt dat kunstmatige intelligentie juist alleen maar verder neigt naar ‘bullshit’. De manier waarop wij de systemen trainen lijkt die neiging namelijk alleen maar te verergeren.
Onderzoek
Het onderzoeksteam definieert de onzin die geproduceerd wordt door AI als ‘discours bedoeld om de overtuigingen van het publiek te manipuleren, geleverd met minachting voor de waarheid’. Geen kleine beschuldiging, maar wel gebaseerd op wetenschappelijk onderzoek, gepubliceerd in het wetenschappelijke blad arXiv.
De onderzoekers, onder leiding van Jaime Fernández Fisac, analyseerden duizenden AI-gegenereerde antwoorden van modellen zoals GPT-4, Gemini en Llama. Ze ontdekten bij de verschillende LLM’s vijf specifieke categorieën van wat zij definiëren als ‘bullshitgedrag’. Een daarvan is lege retoriek, zoals een zin over een auto die ‘stijl, charme en avontuur’ combineert, maar geen feitelijke informatie geeft. Een andere categorie zijn wezelwoorden, onzekere en vage beweringen zoals ‘studies suggereren dat ons product in sommige gevallen kan helpen’. Verder ontdekten de onderzoekers paltering, waarbij ware uitspraken worden gebruikt om een misleidende indruk te wekken, en ongeverifieerde claims niet als feiten te bestempelen zijn. Tot slot zagen ze ook sycofancy, het vleien van de gebruiker door een LLM. Deze vijf vormen kwamen veelvuldig voor in de antwoorden op een breed scala aan prompts die ze invoerden. Deze varieerden van adviesvragen tot politieke discussies.
Trainingsmethode
Opvallend was dat deze neiging tot onzin aanzienlijk werd verergerd door een veelgebruikte trainingsmethode die AI-bedrijven inzetten: leren door menselijke feedback. Bij deze techniek geeft een menselijke beoordelaar directe feedback op de antwoorden van de AI.
Het doel is om het model nuttiger en behulpzamer te maken, maar volgens Fisac is dit in werkelijkheid juist heel problematisch en zorgt het ervoor dat AI juist meer desinformatie verspreidt. “Door te proberen te voldoen aan de maatstaf van goed gedrag die we aanbieden, leren de modellen de waarheid te negeren ten gunste van zelfverzekerde, welbespraakte antwoorden, puur om onze goedkeuring te krijgen.” Het onderzoek toonde aan dat deze methode de categorie lege retoriek met bijna 40 procent deed toenemen, paltering met bijna 60 procent en ongeverifieerde claims met meer dan de helft. Deze toename in paltering is volgens de onderzoekers bijzonder schadelijk, omdat het gebruikers kan aanzetten tot slechte beslissingen.
Ander feedback-model
De onderzoekers stellen voor aan gebruikers om over te stappen op een ‘hindsight feedback’-model. Hierbij zou de AI eerst een antwoord genereren met daarin de mogelijke gevolgen van de gegeven informatie die hij aanvankelijk produceerde, waarna een mens de uitkomst zelf kan beoordelen. Dit zou de AI meer richten op de waarheid in plaats van op onmiddellijke goedkeuring.


