De kunsten van ChatGPT en andere LLM’s (Large Language Models) gaan met rasse schreden vooruit. Het wordt steeds lastiger om te zien of de maker van een tekst van menselijke of artificiële aard is. Lukt het AI nog wel om AI te herkennen en hoe werkt dit kat-en-muisspel?
De AI-technologie is in vele opzichten een verrijking van ons leven. Je kunt in een handomdraai structuur brengen in een ondernemersplan, een opzet maken voor een rapport, zoeken naar bugs in je vers geklopte programmeercode of een persoonlijk sinterklaasgedicht opstellen. Chat-GPT en soortgelijke toepassingen werken steeds beter en uit onderzoek blijkt dat ze zelfs al net zo creatief zijn als mensen. De nieuwe technologie brengt echter ook risico’s met zich mee. Als het niet mogelijk is om door machines gegenereerde teksten te herkennen, wordt de kans op misbruik groter en liggen schadelijke gevolgen voor de samenleving op de loer.
Machinale wapenwedloop
Academici en commerciële bedrijven zijn druk bezig om programma’s te bouwen die AI-gegenereerde teksten kunnen detecteren. Dit lukt al vrij goed als het om een tekst gaat die uit een LLM is gerold en verder niet is aangepast. De machinelearning-modellen kunnen subtiele patronen in woordkeuze en grammaticale constructies opsporen die voor mensen moeilijk waarneembaar zijn. Bedrijven die commerciële detectiesoftware op de markt hebben gebracht, claimen dat ze met een nauwkeurigheid van 99 procent in staat zijn om AI-gegenereerde tekst te herkennen, maar klopt dat wel?
RAID: de standaard voor AI-detectie
Hoofdonderzoeker Chris Callison-Burch van de University of Pennsylvania heeft samen met zijn promovendus Liam Dugan een nieuwe dataset ontwikkeld, de Robust AI Detector (RAID), bestaande uit meer dan 10 miljoen documenten, variërend van kookrecepten tot nieuwsartikelen en blogposts. Een deel van de teksten is geschreven door de mens, een deel is door AI gegenereerd. Callison-Burch noemt RAID vol trots de eerste gestandaardiseerde maatstaf om de prestaties van huidige en toekomstige detectors te testen.
Het onderzoek laat zien dat veel van de huidige detectiesoftware niet zo goed presteert als beloofd. Detectors die zijn getraind op teksten die uit de Chat-GPT-koker komen, bleken bijvoorbeeld nauwelijks in staat om teksten van andere taalmodellen, zoals LLaMA, te detecteren. Dit toont aan dat de meeste detectieprogramma’s alleen goed werken binnen zeer specifieke parameters. Ze zijn alleen goed in het beoordelen van teksten die matchen met de platforms en teksten waarvoor ze zijn getraind.
Een andere zorg is dat de huidige detectors eenvoudig te omzeilen zijn door kleine aanpassingen te maken in de tekst. Als je bepaalde letters door vergelijkbare symbolen vervangt of extra spaties toevoegt, is het mogelijk voor de gebruiker om een AI-gegenereerde tekst vrijwel onzichtbaar te maken voor de meeste detectors.
De gevaren van onbetrouwbare detectiesoftware
Het gebruik van slecht getrainde detectiesoftware kan flinke consequenties hebben. Studenten kunnen bijvoorbeeld onterecht worden beschuldigd van het gebruik van AI om een essay te schrijven, terwijl een andere student die daadwerkelijk AI gebruikt – en weet hoe hij of zij de detector kan omzeilen – ongestoord vals kan blijven spelen.
De wetenschappers concluderen dat de huidige detectors nog niet krachtig genoeg zijn om breed ingezet te worden, maar dat uitgebreide en transparante evaluaties van deze tools cruciaal zijn voor verdere ontwikkeling. “Het openlijk testen van detectors op grote, diverse datasets zoals RAID leidt tot betere en betrouwbaardere detectie in de toekomst”, voorspelt Callison-Bruch.
De toekomst van AI-detectie
Detectiesoftware gaat daarnaast een belangrijke rol spelen bij het voorkomen van problemen door de verspreiding van slechte AI-gegenereerde content, denken de onderzoekers. “Mijn werk richt zich op het verminderen van de schade die grote taalmodellen kunnen veroorzaken”, aldus Callison-Burch. “Het is erg belangrijk om te begrijpen waar en hoe teksten gegenereerd worden. Mensen moeten weten waar de informatie die ze tot zich nemen vandaan komt, zodat ze hun beslissingen hierop kunnen baseren.” Detectie is slechts één aspect van een breed palet aan mogelijkheden om schade door AI te voorkomen. Verdere innovatie en bewustwording zijn van cruciaal belang.