Nu al is een AI-stem niet meer van echt te onderscheiden. Maar dat heeft ook positieve kanten

Bij een AI-stem denk je ongetwijfeld nog steeds aan zo’n blikkerig robotgeluid, dat niet om aan te horen is. Maar die tijd is allang voorbij. Tegenwoordig kun je een AI-stem niet meer van een echte onderscheiden.

Volgens nieuw onderzoek van de Queen Mary University of London is de technologie inmiddels zo ver dat stemklonen of deepfakes net zo realistisch klinken als menselijke opnames.

In de studie werden echte menselijke stemmen vergeleken met twee soorten AI-stemmen. Een deel was gekloond van bestaande stemopnames om die zo nauwkeurig mogelijk na te bootsen. Een ander deel werd gegenereerd door een groot stemmodel en had dus geen direct menselijk origineel. Deelnemers moesten beoordelen welke stemmen het meest realistisch klonken en welke dominanter of betrouwbaarder overkwamen. De onderzoekers wilden ook weten of AI-stemmen inmiddels hyperrealistisch waren geworden, zoals eerder bij AI-beelden van gezichten is aangetoond. Daaruit bleek dat mensen AI-gezichten soms vaker als echt beoordelen dan echte foto’s.

Een dergelijk effect werd bij stemmen niet gevonden, maar wel bleek dat stemklonen net zo echt kunnen klinken als menselijke stemmen. Luisteraars hadden moeite om ze van elkaar te onderscheiden. Beide soorten AI-stemmen werden zelfs vaker als dominanter beoordeeld dan menselijke stemmen en soms ook als betrouwbaarder. Wat dit betekent, vroegen we hoofdonderzoeker Nadine Lavan. “Stel je voor dat iemand een AI-stem als overdreven dominant ervaart, dan zou diegene wellicht ophouden met het gesprek. Maar misschien werkt diezelfde dominantie ook in positieve zin en luisteren mensen juist beter”, legt ze uit.

Eenvoudige techniek

De technologie heeft dus een grote vlucht genomen. “AI-stemmen zijn inmiddels overal om ons heen. We hebben allemaal wel eens met Alexa of Siri gesproken of een telefoontje gehad van een automatische klantenservice”, zegt de universitair hoofddocent psychologie van de Queen Mary University of London. “Die klinken nog niet helemaal als echte stemmen, maar het was slechts een kwestie van tijd voordat AI natuurlijke, mensachtige spraak zou produceren. Ons onderzoek laat zien dat dat moment nu is aangebroken.”

Volgens Lavan kon het team verrassend eenvoudig en snel klonen van echte stemmen maken met commercieel beschikbare software. “Het proces vergde nauwelijks expertise, slechts een paar minuten aan stemopnames en bijna geen geld”, legt ze uit. “Dat laat zien hoe toegankelijk en geavanceerd AI-stemtechnologie inmiddels is.”

Fraude en desinformatie

De razendsnelle ontwikkeling heeft volgens Lavan grote gevolgen voor ethiek, auteursrecht en veiligheid, vooral rond desinformatie en fraude. “Als er maar een paar minuten of zelfs seconden opname van een stem nodig zijn om die redelijk overtuigend te klonen, dan ligt identiteitsdiefstal voor de hand als groot risico. Er zijn inmiddels ook meerdere voorbeelden van deepfakes die zijn gebruikt om mensen verkeerd voor te stellen. Zo werd recent Sadiq Khan, de burgemeester van Londen, nog misbruikt in een deepfake”, vertelt Lavan aan Scientias. “Dat is een voorbeeld waarbij iemand iets van je afneemt. De andere kant van de medaille is dat iemand de stem van een bekende kan klonen om bijvoorbeeld iemand af te persen via nepgesprekken.”

Daarnaast kunnen mensen ook zonder het te weten in gesprek raken met een AI-stem die extreem realistisch klinkt. “Dat kan leiden tot allerlei risico’s, van catfishing tot andere vormen van fraude. Een onschuldiger voorbeeld: er bestaan al volledig AI-gegenereerde influencers die niet altijd als zodanig worden gepresenteerd”, aldus de wetenschapper.

Kansen voor AI-stemmen

Maar Lavan ziet ook positieve kanten. “De mogelijkheid om realistische stemmen op grote schaal te genereren biedt spannende kansen. Een van de meest veelbelovende toepassingen is het teruggeven van een stem aan mensen die niet meer kunnen praten of hun eigen stem nauwelijks kunnen gebruiken. Zulke hulpmiddelen bestaan al met Stephen Hawking als bekend voorbeeld. Het verschil nu is dat de stemmen veel persoonlijker gemaakt kunnen worden: iemand kan zijn oorspronkelijke stem laten nabootsen of juist een nieuwe stem kiezen die bij de eigen identiteit past.”

Verder zijn er ook mogelijkheden voor andere sectoren. Denk aan gepersonaliseerde stemmen in audioboeken, nieuws, of onderwijs, waardoor hoogwaardige vertellingen toegankelijker en diverser worden. “Ook interessant is de mogelijkheid om een stem te klonen in verschillende talen, zodat mensen zichzelf wereldwijd kunnen vertegenwoordigen zonder hun stemidentiteit te verliezen. Dat zou grote invloed kunnen hebben op communicatie, toegankelijkheid en culturele uitwisseling.”

Menselijke eigenschappen

Maar zo ver is het nog niet. “Het is lastig te voorspellen hoe realistisch AI-stemmen worden, zeker omdat de vooruitgang de laatste jaren zo snel is gegaan. Niet zo lang geleden klonken synthetische stemmen nog als Alexa of Siri: duidelijk kunstmatig, met een gladde intonatie alsof je naar een podcaststem luisterde. Mensachtig, maar zonder de imperfecties, pauzes en emotionele nuances die echte spraak kenmerken. Tegenwoordig kunnen AI-stemmen al levensechte elementen bevatten, zoals ademhaling, emotionele intonatie, gefluister, aarzeling en kleine versprekingen.”

Lavan besluit: “Maar wat ik vooral fascinerend vind, is dat mensen heel snel menselijke eigenschappen toeschrijven aan AI-stemmen, zelfs als ze weten dat de stem niet echt is en misschien niet eens heel realistisch klinkt. We kunnen er als luisteraars bijna niet aan ontkomen: zodra iets klinkt als een stem, ervaren we het als menselijk.”

Bronmateriaal

"Voice clones sound realistic but not (yet) hyperrealistic" - PLOS One
Interview met dr. Nadine Lavan van de Queen Mary University of London
Afbeelding bovenaan dit artikel: Mohamed Nohassi / Unsplash

Fout gevonden?

Voor jou geselecteerd