Tijdens virtuele vergaderingen kun je gemakkelijk het geluid van een almaar ratelende collega dempen. En straks kan dat mogelijk ook in de echte wereld.
In drukke restaurants of overvolle cafés waar iedereen door elkaar praat, is het vaak lastig om degene waarmee je een avondje uit bent te verstaan. In tegenstelling tot virtuele vergaderomgevingen, bestaan er in de echte wereld helaas nog geen knoppen om de tafel naast je te ‘muten’. Althans, nóg niet. Want onderzoekers hebben nu een slimme luidspreker ontwikkeld die hier zomaar eens verandering in zou kunnen brengen.
Technologie
“Wanneer ik mijn ogen sluit en er zijn tien mensen in een kamer aan het praten, heb ik geen idee wie wat zegt en waar ze zich precies in de kamer bevinden,” zegt onderzoeker Malek Itani. “Dit is ontzettend lastig voor het menselijk brein om te verwerken, en tot nu toe was het voor technologie ook een uitdaging. We hebben nu echter een technologie ontwikkeld waarmee we de posities van meerdere mensen die in een kamer praten kunnen volgen en hun spraak kunnen onderscheiden.”
Slimme speaker
Concreet gaat het om een ‘slimme speaker’ die microfoons gebruikt om een bepaalde ruimte in verschillende spraakzones te verdelen en de posities van afzonderlijke sprekers volgt. Het systeem maakt gebruik van geavanceerde deep-learning algoritmen die het mogelijk maken voor gebruikers om bepaalde geluiden te dempen of om gesprekken die tegelijkertijd plaatsvinden, te scheiden. Zelfs als twee mensen naast elkaar zitten en vergelijkbare stemgeluiden hebben, kan het systeem onderscheid maken tussen hun stemmen en kun je kiezen welke stem je wel of niet wilt horen.
Zeven kleine robots
Het prototype bestaat uit zeven kleine, bewegende robots. Terwijl ze zich verplaatsen, zenden deze robots een hoogfrequent geluid uit, vergelijkbaar met hoe een vleermuis geluiden gebruikt om te navigeren. Ze maken ook gebruik van andere sensoren om obstakels te detecteren en te vermijden. Het handige is dat deze robots zichzelf automatisch positioneren voor maximale precisie. Ze verspreiden zich zo ver mogelijk van elkaar omdat grotere onderlinge afstanden het gemakkelijker maken om mensen die aan het praten zijn te onderscheiden en te lokaliseren.
Zo werkt het
“Stel je voor dat ik één microfoon op een meter afstand van een mij heb en een andere microfoon op een afstand van twee meter,” schetst onderzoeker Tuochao Chen. “Als ik iets zeg, bereikt mijn stem eerst de microfoon die een meter van mij afstaat. Maar als iemand anders dichter bij de microfoon staat die twee meter van mij weg is, dan zal zijn stem eerst door die microfoon worden opgevangen. Wat we nu hebben ontwikkeld, zijn neurale netwerken die deze vertragingen in geluidssignalen gebruiken om te begrijpen wie wat zegt en waar hij of zij zich in de ruimte bevindt. Dus zelfs als er vier mensen in een kamer twee verschillende gesprekken voeren, kan het systeem elke afzonderlijke stem isoleren en precies aangeven waar die stem vandaan komt.”
Tests
Het team voerde tests uit met de robots in kantoren, woonkamers en keukens, waar groepen van drie tot vijf mensen met elkaar aan het praten waren. In al deze verschillende omgevingen slaagde het systeem erin om verschillende stemmen te herkennen, zelfs als ze zich binnen 50 centimeter van elkaar bevonden. Bovendien kon het systeem drie seconden aan geluidsopnamen verwerken in een gemiddelde tijd van 1,82 seconden. Dit is snel genoeg voor live streaming, al is het misschien een beetje traag voor gesprekken die in realtime worden gevoerd, zoals videogesprekken waarbij directe reacties vereist zijn.
De onderzoekers zijn zich bewust van het risico op misbruik en hebben daarom beveiligingsmaatregelen getroffen. In tegenstelling tot andere vergelijkbare systemen maken de nieuw ontwikkelde microfoons geen gebruik van ingebouwde camera’s voor navigatie. De robots zijn opvallend zichtbaar en hun lampjes knipperen wanneer ze actief zijn. Bovendien wordt alle audio lokaal verwerkt, wat betekent dat er geen gegevens naar de cloud worden gestuurd. Bovendien kan het systeem juist ook worden gebruikt om privacy te waarborgen, zo betogen de onderzoekers. Je kunt bijvoorbeeld voor specifieke privacy-instellingen kiezen, zoals ‘neem niets op rond mijn bureau’ en het systeem zal een virtuele ‘bubbel’ van 3 meter om je heen creëren, waarbinnen geen opnames worden gemaakt. Ook als er twee groepen mensen naast elkaar praten, waarbij de ene groep een privégesprek voert, kan het systeem één van de gesprekken in een stiltezone plaatsen. Dit geeft aan dat deze technologie ook potentieel positieve privacyvoordelen kan bieden.
Al met al hebben onderzoekers een handige ‘gadget’ ontwikkeld, die in de toekomst best weleens te pas zou kunnen komen. Het team veronderstelt dat naarmate de technologie vordert, het mogelijk wordt om de slimme speaker in slimme huizen te integreren. Dit maakt het mogelijk dat alleen mensen die zich in een specifieke ‘actieve zone’ bevinden – bijvoorbeeld op de bank – in staat zijn om met hun stem bijvoorbeeld de tv te bedienen. Hierdoor zou de spraakherkenning en interactie met slimme apparaten veel preciezer en gerichter worden.
Muten
Maar het wordt natuurlijk pas echt leuk wanneer we met de slimme speaker anderen kunnen ‘muten’. Niet alleen kun je je dan beter op je eigen gesprek richten, het stelt je ook in staat om geluiden die je even niet wilt horen – zoals die ruziënde kinderen op de achterbank of die valszingende collega – te dempen. Het onderzoeksteam bestudeert momenteel of de luidsprekers geluid kunnen uitzenden waarmee ze daadwerkelijk ‘mute zones’ in de fysieke wereld kunnen creëren. Hierdoor zouden mensen, op basis van hun locatie, in verschillende delen van een kamer verschillende geluiden kunnen horen.
De nieuwe studie, gepubliceerd in Nature Communications, markeert een verdere stap richting technologieën die we normaal gesproken alleen in sciencefictionverhalen zien. Dit geeft aan hoe snel de vooruitgang in technologie ons in staat stelt om concepten uit fictie werkelijkheid te laten worden.