Hoe slim is IBM’s Watson en kunnen we ‘m nog slimmer maken?

watson2

In 2011 versloeg Watson, de supercomputer van IBM, in de Amerikaanse tv-quiz Jeopardy de twee beste (menselijke) Jeopardy-spelers ter wereld. Indrukwekkend. Maar hoe slim Watson ook mag zijn, zelfs dit systeem moet nog dingen bijleren. Vandaar dat onder andere Nederlandse onderzoekers de afgelopen jaren hard werkten om Watson nog slimmer te maken.

De meeste computers zijn sneller dan mensen. Maar ze zijn niet altijd slimmer. Computers zijn ontegenzeggelijk beter in dingen zoals rekenkundige berekeningen. Maar Jeopardy is een kennisquiz. Voor wie Jeopardy niet kent, deze Amerikaanse quiz is al sinds midden jaren 60 op tv. In tegenstelling tot andere shows krijgt u bij Jeopardy het antwoord waarbij het de kunst is om de vraag te achterhalen. Er wordt in een bepaalde categorie (bijvoorbeeld politiek) een hint gegeven zoals ‘deze oud-journalist was de bekendste initiatiefnemer voor de oprichting van de partij D66’. Het antwoord dat u dan geeft moet in een vraag worden gesteld (“Wie is Hans van Mierlo?”). Het gaat er daarbij niet alleen om dat u het antwoord weet, maar ook dat u het antwoord sneller weet dan uw tegenstander.

Uitdaging
Wanneer u dat alles in het achterhoofd houdt, wordt wel duidelijk dat de uitdaging voor Watson groot was:
1) hij moest de vraag die in gewoon Engels is gesteld begrijpen;
2) daarna het meest waarschijnlijke antwoord zoeken in zijn database;
3) en het antwoord geven in de vorm van een vraag.
De vragen konden bijna overal over gaan, bijvoorbeeld mensen, plaatsen of gebeurtenissen (een breed en open domein). Door het competitie-element moest dat beantwoorden van de vraag ook nog gebeuren voordat één van de andere spelers dat doet.

Watson in Jeopardy. Afbeelding: IBM.
Watson in Jeopardy. Afbeelding: IBM.

De uitdaging is anders
Het grote verschil bij Jeopardy tussen een mens en een computer is dat de mens moet weten wat het antwoord is terwijl een computer de vraag moet begrijpen. Kandidaten beantwoorden trouwens niet alle vragen. Als u het antwoord fout heeft, verliest u het bedrag waar u voor speelt, topspelers zoals Ken Jennings (de succesvolste Jeopardy speler met 74 overwinningen achter elkaar) beantwoordt tussen de 40 procent en 80 procent van de vragen, maar geeft wel meer dan 80 procent correcte antwoorden. Gemiddeld wordt 50 procent beantwoord met 90 procent correcte antwoorden.

Cognitive computing
Watson maakt gebruik van ‘cognitive computing’. De essentie hiervan is dat een computer meer opereert als het menselijk brein. Het gaat hierbij dan ook niet zozeer om zaken waar een computer goed in is, bijvoorbeeld rekenkundige berekeningen maar om het begrijpen van taal, spraak en het herkennen van beelden. Cognitive computing kan worden gebruikt voor zoeken op het internet (Websearch), zoeken naar afbeeldingen (Image search), zoeken naar gebeurtenissen (Events search), social Computing (Social computing) en begrijpen van natuurlijke taal (Natural language understanding).

De Essentie van Watson
Watson is niet simpelweg een database met de antwoorden op vragen, daarvoor was het domein te groot. Watson is ontwikkeld om grote hoeveelheden tekst ‘as-is’ te kunnen analyseren. Dat is slim, want een groot gedeelte van het internet bevat dit soort informatie. Maar hoe geeft Watson dan concreet antwoord op een Jeopardy-vraag? Dat doet hij in vier stappen. Hij begint met het analyseren van de vraag en de categorie. Vervolgens genereert hij kandidaat-antwoorden. Daarna berekent hij de score van elk kandidaat-antwoord. Hij evalueert die score en geeft bij voldoende zekerheid een antwoord.

Zou Watson op een enkele computer hebben gedraaid dan zou het zomaar twee uur kunnen duren voor er een antwoord komt. Veel te lang voor een show als Jeopardy.

Beoordelen
Watson moet informatie dus beoordelen: alle kandidaat-antwoorden krijgen door middel van de algoritmes van Watson een score. In totaal zijn er 150 algoritmes die de score bepalen met tussen de 150 – 200 deelscores met een bepaalde wegingsfactor. Sommige zijn simpel zoals de Term Frequency – Inverse Document Frequency (tf-idf factor, hoe vaak een woord voor komt in een document ten opzicht van de frequentie van het woord in de andere documenten), andere zijn complexer (en daar wordt in verband met intellectueel eigendom ook niets over verteld). Daarnaast worden ook databases gebruikt, bijvoorbeeld met steden in de VS om de vraag over C.W. Post te antwoorden. Deze database heeft in het algemeen een hogere betrouwbaarheid dan een willekeurige pagina omdat deze database centraal, bijvoorbeeld door de overheid, wordt bijgehouden. Het voorbeeld van Postum (zie hieronder) laat dit goed zien. Alle kandidaat antwoorden die geen stad of dorp zijn in de staat Michigan vallen direct af.

Afbeelding: IBM.
Afbeelding: IBM.

Om snel te kunnen antwoorden (<3 seconden) bestond Watson uit een cluster van 3000 nodes. Zou Watson op een enkele computer hebben gedraaid dan zou het zomaar twee uur kunnen duren voor er een antwoord komt. Veel te lang voor een show als Jeopardy. Watson is meer dan voor de show
Het ontwikkelen van Watson is niet gedaan voor ‘de show’ maar om de technologie te kunnen inzetten voor soortgelijke problemen van het begrijpen van relaties tussen zaken of dingen. Watson is software die op dit moment kan worden ingezet voor toepassingen in de medische sector en gezondheidszorg, insurance, financiële sector en diagnose van support-systemen.

“Om Watson te laten leren moet u hem vertellen wat goed en fout is, iets wat de ‘ground truth’ wordt genoemd”

COMMIT helpt Watson leren
Maar hoe slim Watson ook mag zijn, zelfs dit systeem moet nog dingen bijleren. Dr. Lora Aroyo van de Vrije Universiteit heeft als onderdeel van het Nederlandse COMMIT-programma meegewerkt aan het ontwikkelen van Watsons intelligentie. Om Watson te laten leren moet u hem vertellen wat goed en fout is, iets wat de ‘ground truth’ wordt genoemd. Op basis van deze feiten kan Watson, maar ook andere machine learning-systemen, nieuwe informatie beoordelen. Aroyo heeft voor Watson met name gewerkt aan het begrijpen van wat een politieke bijeenkomst is. Op dat moment was het een verkiezingsjaar en de media stonden vol met artikelen over Romney en Obama die in het land kiezers toespraken. Ze deden dat bijvoorbeeld op een rally, een ‘town hall’-meeting of een fundraiser. Om de overeenkomsten en verschillen te leren tussen deze evenementen is het nodig dat Watson het verschil wordt geleerd. Daarnaast is Dr. Aroyo ook bezig geweest in het medische domein, om Watson te leren dokters te helpen met het stellen van een diagnose. Voor deze taak heeft u zowel computerexperts nodig, die de algoritmes ontwikkelen als ook medische studenten of professionals die in het specifieke medische domein Watson helpen. Watson zou bijvoorbeeld de volgende vraag kunnen tegen komen in een medisch artikel: ‘Welke neurologische aandoening is een contra-indicatie voor het gebruik van bupropion?’ Watson zal waarschijnlijk bupropion in zijn database hebben, maar struikelt over het woord contra-indicatie. Met help van een expert leert Watson dat dit betekent dat het ‘niet gebruikt moet worden’ en kan op zoek gaan naar het antwoord, in dit geval zijn dat aanvallen zoals epilepsie.

Over COMMIT

Meer weten over het Nederlandse COMMIT-programma? Kijk dan ook eens op Commit-nl.nl.

Napoleon stierf niet op 22 augustus 1866
Veel internet stukken zijn positief gesteld, de meeste algoritmes kijken dan ook naar een positieve relatie (voorbeeld). Dat is begrijpelijk, de meeste artikelen online beschrijven data in een positieve vorm, bijvoorbeeld Napoleon stierf op 5 mei 1821. U zult vergeefs zoeken naar zinnen als ‘Napoleon stierf niet op 2 april 1997’ voor een gedeelte omdat het aantal foute antwoorden oneindig veel groter is dan het aantal juiste. Toch zijn er ook negatieve relaties te vinden online, bijvoorbeeld wanneer er sprake is van een wijdverbreide mening: bijvoorbeeld dat “de Chinese Muur niet het enige door mensen gemaakte object is wat zichtbaar is vanuit de ruimte” of zoals hierboven in medische bijsluiters.

De toekomst van Watson
Watson en andere systemen die zich bezighouden met menselijke uitdagingen, zoals beeldherkenning, tekstanalyse enzovoort hebben een grote toekomst. De hoeveelheid informatie op het internet dijt uit en zonder geautomatiseerde tools om het te analyseren, ordenen en verwerken, ontstaat er een situatie die zich het best laat omschrijven door de quote van de schrijver John Naisbitt: “We are drowning in information but starved for knowledge.”

Het COMMIT-programma is een privaat-publieke samenwerking op het gebied van ICT-onderzoek. Het programma telt vijftien verschillende projecten, waaronder dus dit project over sentiment summerization. Eerder verschenen op Scientias.nl ook al artikelen over een andere COMMIT-projecten: TaSST, een apparaat dat aanrakingen op afstand mogelijk maakt en een studie die ernaar streeft om mensen meer grip te geven op het immer uitdijende internet.

Bronmateriaal

De foto bovenaan dit artikel is gemaakt door IBM.

Fout gevonden?

Voor jou geselecteerd