Wetenschap op zoek naar grip op het alsmaar uitdijende internet

internetcafe

Het internet groeit razendsnel: elke seconde komen er nieuwe sites, pagina’s, tweets en likes bij. Mensen schrijven over van alles en vaak zit daar een mening in. En verschillende organisaties hebben er baat bij om al die online meningen (‘het sentiment’) te inventariseren. Maar ja, hoe doet u dat?

“Het internet is groot, echt te gek groot. Je gelooft gewoon niet hoe gigantisch, kolossaal, breinbrekend groot het is”. Deze iets aangepaste quote van sciencefictionschrijver Douglas Adams (hij schreef over een ander groot ‘iets’, het heelal) is een mooie binnenkomer wanneer we schrijven over het inventariseren van het online sentiment. Want het is waar, het internet groeit snel: iedere seconde van iedere dag worden nieuwe sites, pagina’s, tweets en ‘likes’ toegevoegd. Mensen schrijven over van alles: pop- en filmsterren, politiek, bedrijven en merken, ga zo maar door. In veel gevallen zit daar ook een mening in: de kijk van de schrijver op een specifieke situatie of gebeurtenis.

Waardevolle informatie
Voor een bedrijf kan dit een waardevolle bron zijn van informatie die inzicht geeft hoe klanten en niet-klanten het bedrijf en de producten of diensten zien en waarderen. Onderzoekers van de Erasmus Universiteit Rotterdam en het bedrijf Teezir doen onderzoek op welke manier u het sentiment in discussies en conversaties zou kunnen inventariseren.

Lange zin of korte zin?
Het empirische onderzoek (onderdeel van het COMMIT-programma) richt zich op het identificeren van zinnen die het meest relevant zijn voor de mening die in het artikel verwoord wordt. Zou een lange zin een goede indicatie zijn van sentiment? Of misschien een zin aan het einde van het artikel, omdat de conclusie meestal aan het einde staat? Om uit te zoeken welke zinnen relevant zijn, namen de onderzoekers een 60-tal artikelen of posts over Ziggo van het Tros Radar-forum. De keuze voor Ziggo is trouwens in deze willekeurig, het kan over ieder bedrijf of product gaan waar mensen een mening over hebben. Zoals Oscar Wilde al zei: er is maar één ding erger dan dat er over je gepraat wordt … en dat is dat er NIET over je gepraat wordt.

Zou Oscar Wilde ook liever een dislike dan geen like gehad hebben? Foto: Steel Wool (cc via Flickr.com).
Zou Oscar Wilde ook liever een dislike dan geen like gehad hebben? Foto: Steel Wool (cc via Flickr.com).

Het experiment
Van iedere ‘post’ zijn volgens een vooraf bepaald stramien zeven typen zinnen geselecteerd en aan een paar reviewers (mensen) getoond die het sentiment analyseerden en de relevantie voor het artikel bepaalden. Alexander Hogenboom, promovendus aan de Erasmus Universiteit Rotterdam en verbonden aan Erasmus Studio: “We maakten een voorselectie van zinnen met uiteenlopende kenmerken en op verschillende niveaus van abstractie: lange zinnen, korte zinnen, zinnen die een conclusie bevatten, zinnen waarin (een aspect van) Ziggo genoemd werd, enzovoorts. Elk van deze zinnen werd vervolgens door drie mensen beoordeeld met betrekking tot de mate waarin de boodschap en het sentiment van zo’n zin representatief waren voor de boodschap en het sentiment van het artikel als geheel.”

Dagelijks voegen we heel veel informatie aan het web toe. Foto: Sebastian (cc via Flickr.com).
Dagelijks voegen we heel veel informatie aan het web toe. Foto: Sebastian (cc via Flickr.com).
Indicatoren
Uit dit onderzoek kwam naar voren dat stukken tekst met een mening, stukken tekst met argumenten die de mening ondersteunen, stukken tekst die over aspecten van het onderwerp gaan en relatief lange zinnen goede indicatoren zijn die het sentiment van het artikel weergeven. Hogenboom: “Onze resultaten suggereren dat het niet zozeer de absolute positie van een stuk tekst is waarmee relevante van irrelevante elementen kunnen worden onderscheiden. Zinnen aan het begin of eind van een tekst zijn niet per definitie interessanter dan zinnen die in de kern van de tekst voorkomen. Evenmin blijkt de intensiteit van het sentiment dat uit een stuk tekst spreekt van grote invloed te zijn op de relevantie van dit stuk tekst. In plaats daarvan lijkt het er vooral op dat de crux zit in de rol die sentiment-dragende tekstelementen spelen in een tekst. Een kreet vol krachttermen over de service van Ziggo is in die zin minder interessant dan een onderbouwing van dat statement.”

Algoritmes
Maar wat kunnen met deze kennis? Als het project afgelopen is, hopen de onderzoekers dat ze voldoende kennis en algoritmes hebben om een systeem te kunnen ontwikkelen dat automatisch het sentiment kan samenvatten van verzamelingen documenten. Dit is relevant voor iedereen of iedere organisatie die wil weten wat er nou eigenlijk over hen wordt gezegd, in andere woorden wat het sentiment is. Maar ook van de andere kant: een reiziger die in een bepaald hotel of resort zou willen verblijven en wil weten hoe mensen er over denken.

Maar het zal nog wel even duren voordat een dergelijke dienst beschikbaar is. Er moet nog steeds onderzoek worden gedaan. Dit onderzoek ging over artikelen in het Nederlands; gelden de gevonden resultaten ook voor andere talen? Hoe zit het met andere typen conversaties of documenten, geldt het daar ook voor? Uiteindelijk zal het onderzoek leiden tot nieuw state of the art onderzoek naar sentiment summerization en ten minste een klein beetje grip op het immer uitdijende internet.

Het COMMIT-programma is een privaat-publieke samenwerking op het gebied van ICT-onderzoek. Het programma telt vijftien verschillende projecten, waaronder dus dit project over sentiment summerization. Eerder verscheen op Scientias.nl ook al een ander artikel over een ander COMMIT-project: TaSST, een apparaat dat aanrakingen op afstand mogelijk maakt.

Bronmateriaal

De foto bovenaan dit artikel is gemaakt door Blaise Alleyne (cc via Flickr.com).

Fout gevonden?

Voor jou geselecteerd