Wie is grappiger: AI of echte mensen? Het is voor het eerst op grote schaal getest

Kan een AI je net zo hard laten lachen als je beste vriend? Dat besloten onderzoekers voor het eerst op grote schaal te testen door AI internetmemes te laten maken. De chatbot bleek verrassend grappig, maar niet het grappigst.

De wetenschappers van onder meer het Zweedse KTH Royal Institute of Technology en de Ludwig Maximilian Universiteit in München maakten drie testgroepen: mensen die zelfstandig memes maakten, mensen die samenwerkten met een AI-systeem en de AI die op eigen houtje memes bedacht. Daarbij werden bekende sjablonen gebruikt, zoals Doge, Fry uit Futurama en Boromirs beroemde uitspraak: “One does not simply…”. Een tweede groep van bijna honderd mensen beoordeelde vervolgens de memes op drie criteria: creativiteit, humor en de kans dat iemand de meme doorstuurt of deelt.

Gemiddeld scoort AI hoger
De resultaten zijn opvallend. Gemiddeld genomen scoorden de AI-memes het best op alle drie de aspecten. Maar als je alleen naar de beste memes kijkt – de echte uitschieters – hebben toch echt mensen de grootste lolbroek aan. Samenwerkingen tussen mens en AI scoorden vooral hoog op creativiteit en deelbaarheid. “AI is geweldig in het snel genereren van veel ideeën”, zegt onderzoeker Zhikun Wu van het KTH Royal Institute of Technology tegen Scientias.nl. “Maar kwantiteit betekent niet altijd kwaliteit.”

De onderzoekers schrijven dat AI-modellen dankzij hun toegang tot enorme datasets content kunnen maken die een breed publiek aanspreekt. Maar de best beoordeelde memes kwamen toch van menselijke grappenmakers. Dat laat zien dat AI vooral “degelijk maar gemiddeld” werk levert. “De beste resultaten ontstonden wanneer mensen selecteerden en verfijnden wat de AI had geproduceerd”, aldus Wu.

Een meme die is voortgekomen uit een samenwerking tussen mens en AI. Bron: Zhikun Wu, Thomas Weber, Florian Müller

Samenwerken met AI
Deelnemers die samenwerkten met de AI-assistent produceerden gemiddeld meer ideeën en gaven aan minder moeite te hoeven doen. Toch gebruikten velen de tool maar één keer, slechts enkelen werkten echt iteratief, dus met meerdere feedbackrondes en aanpassingen. Dat beperkte gebruik kan de creatieve potentie van samenwerking tussen mens en AI hebben geremd, aldus de onderzoekers.

Een opvallend voorbeeld van succesvolle samenwerking komt volgens Wu voort uit een cyclisch proces: “Sommige sterke memes ontstonden door een iteratieve lus: de AI leverde een snelle eerste versie. De menselijke partner verfijnde vervolgens de bewoordingen, timing en visuele opmaak, vaak met feedback aan de AI voor nieuwe formuleringen, gevolgd door nog een ronde aanpassingen. Gemiddeld doorliepen sommige topmemes twee tot drie mensgeleide revisierondes.”

‘Best wel goede’ grappen
Maar waarom zijn mensen uiteindelijk nog steeds het grappigst? Wu legt uit: “De AI heeft de neiging veel ‘best wel goede’ grappen te maken die een breed publiek aanspreken, waardoor het gemiddelde hoog ligt. Mensen daarentegen zijn veel wisselvalliger: sommige ideeën slaan nergens op, maar de beste zijn scherper en maken gebruik van genuanceerde persoonlijke of culturele referenties die het model nog niet volledig heeft geïnternaliseerd.”
Volgens Wu is humor veel meer dan alleen een goede punchline. “Humor gaat niet alleen over de clou”, zegt hij. “Het draait om verrassing, culturele context en emotionele nuance, dingen die AI nog niet volledig begrijpt.”

Smaakverschillen
Om de memes te beoordelen, voerden de onderzoekers een vervolgonderzoek uit met bijna honderd beoordelaars die willekeurig vijftig memes evalueerden. Ze gebruikten een zevenpuntsschaal om humor, creativiteit en deelbaarheid te meten. “Een grote, internationale groep beoordelaars compenseert voor individuele smaakverschillen”, legt Wu uit. “Maar het blijft lastig, want humor is sterk afhankelijk van cultuur en context.”
Om die subjectiviteit te beperken, randomiseerden de onderzoekers de volgorde van de onderwerpen, gebruikten ze bekende memesjablonen om herkenbaarheid te garanderen en analyseerden ze de resultaten per thema om culturele effecten te kunnen detecteren.

De toekomst
De keuze voor bekende formats als Doge of Futurama Fry was bewust. “We kozen bewust voor wereldwijd herkenbare sjablonen, zodat deelnemers en beoordelaars niet werden afgeleid door een onbekende visuele grammatica”, aldus Wu. Maar wat gebeurt er als we overstappen naar modernere formats, zoals TikTok-video’s? “Nieuwere of vrijere formats, zoals TikTok-video’s, voegen extra lagen toe, zoals audio, timing en visuele bewerking. Dat kan zowel de sterke als zwakke punten van AI aan het licht brengen, denk aan subtiele culturele signalen. We zien deze studie als een basislijn voor humor en creativiteit.”

Meer dan content genereren
Volgens de onderzoekers moeten toekomstige AI-tools beter inspelen op het creatieve proces en meer doen dan alleen content genereren. Ze moeten gebruikers bijvoorbeeld ook helpen hun ideeën vorm te geven. “Hoewel AI de productiviteit kan verhogen en content kan maken die een breed publiek aanspreekt, blijft menselijke creativiteit cruciaal voor content die op bepaalde gebieden dieper raakt”, schrijven de auteurs in hun conclusie.

Kortom: AI kan veel mensen snel aan het lachen maken. Maar wil je echt dubbel liggen dan is je beste vriend waarschijnlijk grappiger.

Bronmateriaal

"One Does Not Simply Meme Alone: Evaluating Co-Creativity Between LLMs and Humans in the Generation of Humor" - ACM Digital Library
Interview met onderzoeker Zhikun Wu van het KTH Royal Institute of Technology
Afbeelding bovenaan dit artikel: Markus Distelrath / Pexels

Fout gevonden?

Interessant voor jou

Voor jou geselecteerd