Is deze stem echt of nep? Mensen herkennen deepfakes vaak niet, zelfs niet als ze erin getraind zijn

Hoe weet je of de stem die je hoort echt is? Met de opkomst van deepfake is dat een hele relevante vraag geworden. Uit nieuw onderzoek blijkt dat nu al ruim een kwart van de deepfake-stemmen niet van echt te onderscheiden is.

Spraak-deepfakes zijn stemmen die zijn geproduceerd door kunstmatige intelligentie. Het zijn dus geen echte stemmen, maar zo klinken ze wel. Zo kun je beroemde personen, zoals de premier, dingen laten zeggen, die hij eigenlijk helemaal niet zou willen zeggen. Je kunt je voorstellen wat daarvan de gevolgen kunnen zijn. De laatste tijd zijn spraak-deepfakes nóg geloofwaardiger geworden, reden genoeg tot zorg dus. Want we noemden net het voorbeeld van een politicus, maar er zijn ook al verhalen bekend van bankiers die er op die manier zijn ingeluisd om frauduleuze geldtransacties te autoriseren.

Echt of niet?
Om te achterhalen hoe geloofwaardig die deepfakes op dit moment zijn, besloot onderzoeker Kimberly Mai samen met collega’s van University College London ruim vijfhonderd mensen te vragen om echte van onechte stemmen te onderscheiden. De deelnemers kregen meerdere audiofragmenten te horen met zowel echte menselijke stemmen als deepfakes. Daarbij waren sommigen Engels- en anderen Mandarijnsprekend. Een aantal kreeg ook nog actief voorbeelden te horen van spraak-deepfakes om hen te trainen in de herkenning ervan.

Het lukte de deelnemers uiteindelijk om 73 procent van de tijd de deepfakes eruit te halen. Maar helaas mocht training niet baten: de resultaten verbeterden nauwelijks. De Engelssprekenden scoorden ongeveer hetzelfde als degenen die de fragmenten in Mandarijn te horen kregen. Wel letten de deelnemers op verschillende dingen. De Engelssprekenden letten meer op de ademhaling, terwijl de Mandarijnsprekers eerder aansloegen op de cadans, de tijd tussen woorden en hoe vloeiend de zinnen klonken.

Te veel vertrouwen in intuïtie
Onderzoeker Kimberly Mai legt uit aan Scientias.nl: “Mensen gebruikten dezelfde signalen om deepfakes als juist of onjuist te bestempelen. De deelnemers vertrouwden grotendeels op hun intuïtie bij het maken van een keuze. Ze noemden bijvoorbeeld vaak de natuurlijkheid van een stem en vroegen zich af of een fragment robotisch klonk.” Daarnaast waren er nog enkele factoren, die minder vaak werden genoemd. “Ze letten bijvoorbeeld ook op onregelmatige pauzes, intonatie, uitspraak en het tempo van het Engels en Mandarijn.”

De onderzoeker was wel verrast door de resultaten. “Ten eerste is het opmerkelijk dat deelnemers afgingen op hun intuïtie en niet op objectieve kenmerken om tot een beslissing te komen. Ten tweede vond ik het bijzonder dat de Engels- en Mandarijnsprekenden ongeveer even goed presteerden, hoewel die twee talen ongelooflijk verschillend zijn.”

Sombere conclusie
Dat ruim een kwart van de deepfake-stemmen niet te herkennen was, is al zorgwekkend, maar in werkelijkheid ligt dat percentage waarschijnlijk nog veel hoger, omdat de deelnemers van tevoren wisten dat sommige fragmenten nep waren. De onderzoekers beschikten bovendien niet over de meest geavanceerde spraaktechnologie.

Is een computer dan beter in het herkennen van een computerstem? Nog niet. Op individueel niveau presteerde een geautomatiseerde deepfake-detector weliswaar iets beter, maar gezamenlijk waren de deelnemers ongeveer even goed als de computer. De conclusie van het onderzoek is dan ook behoorlijk somber: hoogstwaarschijnlijk wordt het alleen maar moeilijker om speech-deepfakes te herkennen. Training heeft weinig zin en computers zijn er ook niet bijster goed in.

Tijd voor beleid
Toch noemt Kimberly Mai een aantal strategieën die ons kunnen helpen. “Onze experimenten tonen aan dat deelnemers beter presteerden als ze konden luisteren naar wat referentie-audio. We hebben ook laten zien dat hoewel mensen individueel niet betrouwbaar zijn, de geaggregeerde reacties wel tot betere prestaties leidden.” Daarmee bedoelt de onderzoeker dat alle keuzes van de deelnemers zijn verzameld en dat daaruit een meerderheidsbesluit volgt. “Daarom is het een goed idee om anderen naar hun mening te vragen en de bron te verifiëren met een referentie als je een audiofragment hoort waar je aan twijfelt, omdat de inhoud bijvoorbeeld ongebruikelijk is.” Denk aan een aanvraag voor de transactie van een groot geldbedrag.

Samenvattend pleit ze voor een gemengde aanpak. “Het samenvoegen van reacties en anderen om hun mening vragen kan nu nog behulpzaam zijn. Daarnaast moeten geautomatiseerde detectoren worden verbeterd, want die zijn nog niet goed genoeg. Tenslotte moeten overheden en organisaties ook werk maken van goede regels en beleid op dit gebied.” En dan nog zal het lastig genoeg worden om echt van nep te onderscheiden.

Bronmateriaal

"Warning: Humans cannot reliably detect speech deepfakes" - PLoS ONE
Interview met onderzoeker Kimberly Mai van University College London
Afbeelding bovenaan dit artikel: Gustavo Frazao (Getty via Canva.com)

Fout gevonden?

Voor jou geselecteerd