ChatGPT of varianten daarvan die met elkaar een samenleving vormen, het klinkt een stuk futuristischer dan het is: nu al kunnen chatbots spontaan sociale normen ontwikkelen, puur door met elkaar te babbelen.
Deze zogenoemde AI-agenten, gebaseerd op LLM’s, kunnen in groepen met elkaar communiceren. Daarbij volgen ze niet simpelweg een script of herhalen een patroon, nee, ze weten zichzelf te organiseren en overeenstemming te bereiken over taalnormen, net als menselijke gemeenschappen eigenlijk. Daarover schrijven onderzoekers van City St George’s, University of London en de IT University of Copenhagen in tijdschrift Science Advances.
Een AI-agent binnen een chatbot kun je zien als een assistent met een expertise, die een specifieke taak uitvoert. De chatbot zelf is het kanaal waarmee je met de agent communiceert. Denk aan een planningsagent, die afspraken voor je maakt of een onderzoeksagent die online bronnen raadpleegt.
Gedrag afstemmen
LLM’s (grote taalmodellen) zijn krachtige deep learning-algoritmen die menselijke taal kunnen begrijpen en genereren. ChatGPT is het bekendste voorbeeld. “De meeste onderzoeken tot nu toe hebben LLM’s geïsoleerd bestudeerd”, zegt hoofdonderzoeker Ariel Flint Ashery, promovendus aan City St George’s. “Maar AI-systemen in de echte wereld zullen steeds vaker uit meerdere, onderling communicerende agenten bestaan. Wij vroegen ons af: kunnen deze modellen hun gedrag op elkaar afstemmen door conventies te vormen, de bouwstenen van een samenleving? Het antwoord is ja, en wat ze samen doen, kan niet worden herleid tot wat ze individueel doen.”
Tot die conclusie komen de onderzoekers nadat ze het zogenaamde naamgevingsspel (Naming Game) hadden aangepast voor AI. Dit is een klassiek spel om sociale conventies bij mensen te bestuderen. In hun experimenten varieerde de groepsgrootte van LLM-agenten van 24 tot 200 individuen. De geteste LLM’s zijn Llama-2-70b-Chat, Llama-3-70B-Instruct, Llama-3.1-70B-Instruct en Claude-3.5-Sonnet. In elk experiment werden twee agenten willekeurig gekoppeld en gevraagd een naam te kiezen voor iets (bijvoorbeeld een letter of een willekeurige reeks tekens) uit een gedeelde lijst met opties. Als beide agenten dezelfde naam kozen, kregen ze een beloning. Deden ze dat niet, dan kregen ze straf en zagen ze elkaars keuzes.
De Naming Game is een klassiek model dat wordt gebruikt om te onderzoeken hoe taal ontstaat en zich ontwikkelt binnen een groep. In dit model proberen individuen gezamenlijk een naam (of woord) te kiezen voor een bepaald object of concept, zonder centrale aansturing. Ze communiceren in paren: de een stelt een naam voor, de ander accepteert of verwerpt die. Zijn ze het eens dan onthouden beiden de gekozen naam. Mislukt het dan passen ze hun geheugen aan. Na veel interacties ontstaat er spontaan een gedeelde naam die de hele groep gebruikt. Het model laat zien hoe sociale conventies, zoals taal, zich op natuurlijke wijze kunnen vormen door simpele regels en herhaalde interacties.
Geen centrale sturing
Hoe ging de Naming Game bij de chatbots? De AI-agenten hadden een beperkt geheugen, enkel bestaande uit hun eigen recente interacties en dus niet van de volledige populatie. Ze wisten ook niet dat ze deel uitmaakten van een groep. En toch: na vele interacties ontstonden er puur spontaan gedeelde namen binnen de groep, zonder centrale aansturing of vooraf gedefinieerde oplossing. Best bijzonder: het lijkt namelijk sterk op de manier waarop normen van onderaf ontstaan in menselijke culturen.
Nog opvallender was dat er collectieve vooroordelen ontstonden die niet te herleiden waren tot individuele agenten. “Vooroordelen komen niet altijd van binnenuit”, legt Andrea Baronchelli, hoogleraar aan City St George’s, uit. “We waren dan ook verrast te zien dat ze kunnen ontstaan tussen agenten, puur door hun interacties. Dit is een blinde vlek in het huidige AI-veiligheidsonderzoek, dat zich vooral richt op afzonderlijke modellen.”
Gevaarlijke trekjes
De onderzoekers gingen nog een stap verder. Ze toonden aan hoe gevaarlijk zulke spontaan opkomende normen kunnen zijn: een kleine, toegewijde groep AI-agenten kan de hele populatie een andere richting op sturen. Dat laat zien dat het bekende tipping point-effect ook bij AI-chatbots werkt. Dit is het moment waarop een kleine verandering of groep mensen een grote omslag veroorzaakt in gedrag, normen of overtuigingen van de hele samenleving. Je kunt het zien als een kantelpunt: lange tijd lijkt er weinig te veranderen, maar zodra een bepaalde drempel wordt bereikt, slaat de balans om en volgt de massa snel. Bekende voorbeelden zijn de acceptatie van gordels in de auto of het gebruik van genderneutrale taal.
Nu jan en alleman de chatbots volop in het dagelijks leven gebruikt, is de studie extra relevant. We willen namelijk graag weten in hoeverre chatbots objectieve en correcte antwoorden geven en waar ze de mist in gaan. Een van de problemen kan zijn dat LLM’s vooroordelen uit de samenleving overnemen en verspreiden. Zo creëren ze hun eigen waarheid, die wij als gebruiker maar al te gemakkelijk geloven.
Onze voorwaarden
“Deze studie opent een nieuw perspectief voor AI-veiligheidsonderzoek”, besluit Baronchelli. “Ze laat zien hoe groot de impact kan zijn van deze nieuwe soort agenten die nu met ons zijn gaan interacteren en mede vorm gaan geven aan onze toekomst. Begrijpen hoe zij functioneren is essentieel om samen te leven met AI op onze voorwaarden, in plaats van eraan onderworpen te zijn. We gaan een wereld binnen waarin AI niet alleen praat, maar ook onderhandelt, discussieert en het soms oneens is over bepaald gedrag, net als wij.”