De laatste tijd verschijnt er studie na studie over wat AI allemaal beter kan dan mensen. Maar in één ding is kunstmatige intelligentie minder goed: het interpreteren van sociale interactie.
Meer precies: het beschrijven en begrijpen van sociale interacties in een bewegende omgeving, een vaardigheid die bijvoorbeeld nodig is voor zelfrijdende auto’s, zorgrobots en andere technologie die met hulp van AI door de echte wereld moet bewegen.
Zelfrijdende auto’s
Volgens de onderzoekers van Johns Hopkins slaagt kunstmatige intelligentie er nog niet in om de sociale dynamiek en context te begrijpen die nodig zijn voor de interactie met mensen. Het probleem zou hem zitten in de infrastructuur van AI-systemen.
“AI voor een zelfrijdende auto moet bijvoorbeeld de intenties, doelen en acties van bestuurders en voetgangers herkennen. Je wil dat hij weet in welke richting een voetganger gaat lopen of dat hij ziet of twee mensen in gesprek zijn of op het punt staan de straat over te steken”, zegt hoofdauteur Leyla Isik van Johns Hopkins University. “Als je wilt dat een AI interactie heeft met mensen, moet die ook herkennen wat mensen aan het doen zijn. Onze studie maakt duidelijk dat deze systemen dat nu niet kunnen.”
350 AI-modellen vergeleken
Om te bepalen hoe goed AI-modellen presteren vergeleken met mensen, moesten menselijke deelnemers videoclips van 3 seconden bekijken en beoordelen welke kenmerken belangrijk zijn voor het begrijpen van sociale interacties. In de filmpjes waren mensen te zien die contact hadden met elkaar, zij aan zij activiteiten uitvoerden of zelfstandig dingen deden. Vervolgens moesten meer dan 350 AI-modellen voorspellen hoe mensen de video’s beoordelen en hoe hun hersenen reageren op het kijken.
Deelnemers waren het grotendeels met elkaar eens over alle vragen; de AI-modellen, ongeacht de grootte of de gegevens waarop ze getraind waren, niet. Videomodellen waren niet in staat om nauwkeurig te beschrijven wat mensen in de video’s deden. Zelfs beeldmodellen die een reeks stilstaande beelden te analyseren kregen, konden niet betrouwbaar voorspellen of mensen communiceerden. Taalmodellen waren beter in het voorspellen van menselijk gedrag, terwijl videomodellen beter waren in het voorspellen van neurale activiteit in de hersenen.
Blinde vlek
De resultaten staan in schril contrast met het succes van AI bij het lezen van stilstaande beelden, aldus de onderzoekers. “Het is niet genoeg om alleen maar een afbeelding te zien en objecten en gezichten te herkennen. Dat was de eerste stap, die ons een heel eind op weg heeft geholpen met AI. Maar het echte leven is niet statisch. We hebben AI nodig om het verhaal te begrijpen dat zich in een scène ontvouwt. Het begrijpen van de relaties, context en dynamiek van sociale interacties is de volgende stap. Dit onderzoek laat zien dat er mogelijk een blinde vlek is in de ontwikkeling van AI-modellen”, aldus Garcia.
De onderzoekers denken dat dit komt doordat AI-netwerken geïnspireerd zijn op de infrastructuur van het deel van de hersenen dat statische beelden verwerkt, wat anders is dan het deel van de hersenen dat dynamische sociale scènes verwerkt. “Er zijn veel nuances, maar het belangrijkste is dat geen van de AI-modellen de reacties van het menselijk brein en gedrag op bewegende scènes kan evenaren, zoals ze dat wel doen voor statische scènes”, besluit Isik. “Ik denk dat er iets fundamenteels is aan de manier waarop mensen scènes verwerken dat deze modellen missen.”