Haatzaaierij op social media is in korte tijd uitgegroeid tot een groot probleem. Maar het is nog niet zo makkelijk te meten, vooroordelen liggen op de loer. Daarom hebben onderzoekers nu een nieuw AI-model ontwikkeld dat veel beter dan mensen onlinehaat kan herkennen en dus kan weren.
De verspreiding van haatdragende taal online vergroot de politieke verdeeldheid, marginaliseert kwetsbare groepen nog verder en verzwakt de democratie. Het kan zelfs het risico op terrorisme vergroten. Niet voor niets willen politici en beleidsmakers onlinehaat aanpakken. Een nieuw Multi-task Learning-model (MTL) kan uitkomst bieden. Dit machinelearning-model werkt met meerdere datasets waardoor een betere definitie van onlinehaat ontstaat.
Automatische identificatie
We spraken erover met onderzoeker Marian-Andrei Rizoiu, hoofd van het Behavioural Data Science Lab aan de University of Technology Sydney (UTS). Hij bindt al jaren de strijd aan met onlinedesinformatie en haatzaaiende berichten. Dat doet hij door computer- en sociale wetenschappen te combineren om menselijk gedrag in de onlineomgeving beter te begrijpen en te voorspellen. Denk aan de berichten op social media die de publieke opinie beïnvloeden en polariseren. “Aangezien sociale media een belangrijk onderdeel zijn van ons dagelijks leven, is automatische identificatie van haatdragende en beledigende content van cruciaal belang om de verspreiding van schadelijke berichten tegen te gaan en de negatieve effecten ervan te voorkomen”, legt Rizoiu uit.
Dat is een hele uitdaging. “De huidige modellen zijn niet erg effectief in het identificeren van alle verschillende soorten haatzaaiende uitlatingen, waaronder racisme, seksisme, intimidatie, aanzetten tot geweld en extremisme”, begint de onderzoeker tegen Scientias.nl. “Dat komt doordat die modellen slechts op een deel van een dataset zijn getraind en op dezelfde dataset worden getest. Dit betekent dat ze moeite hebben met nieuwe of andere data en daardoor niet consistent presteren.”
Meerdere definities van haat
Een Multi-task Learning-model daarentegen kan meerdere taken tegelijkertijd uitvoeren en informatie delen tussen datasets. In dit geval werd het model getraind op acht datasets met haatzaaiende berichten van platforms als X, Reddit, Gab en het neo-naziforum Stormfront. Waarom dit model zoveel beter werkt? “Onze classifier is beter omdat we rekening houden met meerdere definities van haat op verschillende platforms. Traditioneel werden in de literatuur haatzaaiende uitlatingen geclassificeerd op basis van data die handmatig zijn gelabeld door menselijke experts. Dit is duur – menselijke expertise is traag en kostbaar – en leidt vaak tot bevooroordeelde definities van haat, die de standpunten van de labelaar weerspiegelen. Ons model is ontworpen om getraind te worden op meerdere kleine datasets, waardoor de vooroordelen worden uitgemiddeld en een meer allesomvattende definitie van haatzaaiende berichten ontstaat.”
300.000 tweets
Het MTL-model werd getest op een unieke dataset van 300.000 tweets van 15 Amerikaanse publieke figuren, zoals voormalige presidenten, conservatieve politici, extreemrechtse complottheoretici, mediacommentatoren en linksgeoriënteerde zeer progressieve personen. De analyse toonde aan dat beledigende en haatdragende tweets, vaak met vrouwenhaat en islamofobie, voornamelijk afkomstig zijn van rechtse mensen. Van de 5299 beledigende berichten waren er 5093 van rechtse figuren. “Rechts georiënteerde mensen hadden de neiging om meer haatdragende tweets te plaatsen vlak voor een verkiezing, waarna het aantal kort afnam na de uitslag, voordat het weer toenam.”
Hoewel de meeste onlinehaat van rechtse afkomst is, waren de onderzoekers toch nog verbaasd dat er zoveel linkse haatzaaierij was. “Wat ons verraste, was dat beledigende taal niet uitsluitend een kenmerk is van rechts georiënteerde figuren. Links georiënteerde mensen verspreiden ook haatberichten. Hoewel die volgens de meeste definities niet per se als haatzaaiende uitlatingen worden beschouwd, waren ze toch beledigend”, aldus Rizoiu.
Dunne lijn
Die maakt duidelijk dat het nog niet zo eenvoudig is om te bepalen wat haatzaaierij is en wat niet. “Haatzaaiende berichten zijn niet eenvoudig te kwantificeren. Ze liggen op een continuüm met beledigende taal en andere schadelijke content zoals pesten en intimidatie.” Ook maakt het uit wie een haatbericht plaatst. “Als het gaat om de mate van schade, zijn er genuanceerde vragen, zoals het verschil tussen het plaatsen van haat en het verspreiden ervan. Dit zijn namelijk twee afzonderlijke kwesties. Bijvoorbeeld: als gebruiker A veel haatberichten plaatst maar niemand leest ze omdat hij weinig volgers heeft, is hij dan net zo schadelijk als gebruiker B met 1 miljoen volgers die slechts vijf haatdragende berichten plaatst?”
De Verenigde Naties definiëren haatzaaierij als “elke vorm van communicatie in spraak, schrift of gedrag waarmee iemand of een groep wordt aangevallen of waarbij discriminerende taal wordt gebruikt op basis van wie ze zijn”, waaronder hun religie, ras, geslacht of andere identiteitsfactoren.
Het MTL-model was in staat om beledigende berichten te onderscheiden van haatzaaiende content, en specifieke onderwerpen te identificeren. “De belangrijkste doelwitten van haat waren de islam, politiek, ras en etniciteit, met significant meer haat gericht tegen zwarte mensen, Arabieren en Joden, vrouwen, vluchtelingen en immigranten. Het is opvallend hoe de meeste haat gericht is op de kwetsbaarste groepen”, aldus Rizoiu.
Haat verpakt als humor
Het nieuwe MTL-model kan helpen om die haat tegen te gaan. “We hebben een tool gebouwd voor het detecteren van haatzaaiende content met bredere definities van haat. Onderzoek naar haatzaaierij kan zich niet richten op één enkele definitie, omdat dit meestal contextafhankelijk is. De echte implicaties van het werk liggen in het vermogen om een breed scala aan haatdragende content te detecteren zonder dat menselijke experts aan dergelijke taal worden blootgesteld. Identificatie is de eerste stap in het aanpakken van onlinehaat”, meent de onderzoeker.
“Er moeten echter zorgvuldige afwegingen worden gemaakt om ervoor te zorgen dat we de vrijheid van meningsuiting niet belemmeren. Er is een dunne lijn tussen wat haatdragend – en dus schadelijk en mogelijk illegaal – is en wat een mening is. Haatzaaiende uitlatingen bevinden zich op een continuüm, waarbij haat openlijk kan worden uitgedrukt met scheldwoorden en directe verwijzingen, of subtieler via sarcasme of zelfs humor. Als machinelearning een bericht verkeerd identificeert, noemen we dat een false positive. Dit is een onlinebericht dat als haatdragend wordt gemarkeerd terwijl dat in feite niet zo is. Onze tools kunnen het aantal valspositieve resultaten verminderen, omdat ze zijn getraind op meer diverse datasets.”
Er ontstaat dus een veel nauwkeuriger beeld van wat onlinehaat is, wie het doelwit zijn en wie de afzender. Zo kan het beter worden aangepakt en vermindert hopelijk de polarisatie in de maatschappij.