Een alternatief voor Google, zonder de irritante advertenties en mét behoud van privacy, het is iets wat we allemaal wel willen, maar niet voor mogelijk houden. Of kan het misschien toch? Europese onderzoekscentra gaan gezamenlijk een poging doen.

Het wordt niet écht een alternatief voor Google, althans niet direct. Het gaat eerder om een open zoekinfrastructuur waarbij gebruikers een index downloaden op hun computer om zo veilig en met behoud van privacy te kunnen zoeken naar informatie. OpenWebSearch.EU, zoals het project heet, heeft 8,5 miljoen euro subsidie ontvangen van de Europese Commissie om te onderzoeken of er een zoekalternatief gemaakt kan worden dat rekening houdt met de Europese normen, waarden, principes en wetgeving. Om dat voor elkaar te krijgen werkt de Nijmeegse Radboud Universiteit samen met dertien andere Europese onderzoekscentra, waaronder veel Duitse universiteiten.

 “Vrije, open en onbevooroordeelde toegang tot informatie – we zijn deze kernbeginselen van zoeken op internet kwijtgeraakt en moeten ze dringend herstellen. Daarom ontwikkelen we een open Europese infrastructuur voor internetzoeken, gebaseerd op Europese waarden en rechtspraak”, zegt projectcoördinator Michael Granitzer van de Universiteit van Passau en de Open Search Foundation.

Ethischer zoeken
In drie jaar tijd moet er een blauwdruk liggen voor een Europese open webindex. Aan de Radboud Universiteit zijn onder andere Arjen de Vries en Djoerd Hiemstra bij het project betrokken. “Djoerd en ik hebben onze kracht gebundeld om mensen weer controle te geven over hun toegang tot informatie”, aldus De Vries, hoogleraar informatica en onderzoeksdirecteur van het Onderzoeksinstituut voor Informatica en Informatiekunde van de Radboud Universiteit. “We willen mensen helpen te begrijpen hoe hun zoekresultaten tot stand komen, de invloed van reclame bij het zoeken verminderen en, in het algemeen, zoeken ethischer maken.”

Het project vindt zijn oorsprong in zorgen over de onevenwichtigheid van de zoekmachinemarkt. Zoeken op het web vormt weliswaar de ruggengraat van onze digitale economie, maar wordt gedomineerd en beperkt door een paar poortwachters zoals Google, Microsoft, Baidu en Yandex. Informatie als een openbaar goed, met vrije, onbevooroordeelde en transparante toegang staat dus niet meer onder publieke controle.

Geen nieuwe Google
De grote vraag is hoe zo’n zoekindex eruit gaat zien. “Het wordt geen nieuwe search-engine. Duitsland en Frankrijk hebben daar samen al eens vele miljoenen ingestopt, maar dat is mislukt. Het laat zien hoe lastig het is om een concurrerende zoekmachine te maken”, begint hoogleraar Arjen de Vries in gesprek met Scientias.nl. “We willen wel iets doen aan het monopolie van Google en Bing en laten zien dat we als Europa meer kunnen doen dan boetes uitdelen. Dat ze weten: als we zo doorgaan komt er straks een beter alternatief.”

En dat alternatief is een open webindex, vooral gericht op Europa. Het onderzoeksproject ontwikkelt de tools, de software en de index, maar het is nadrukkelijk noch gecentraliseerd zoals Google, noch volledig gedecentraliseerd. “Het bijzondere is dat meerdere partijen de index kunnen maken, normaal is dat één partij. Maar je kunt veel meer bereiken als je het werk kunt delen. De Nederlandse partijen crawlen bijvoorbeeld Nederlandse media, zoals de Volkskrant. Daaruit volgt een index van de Nederlandse kranten. Duitse partners doen hetzelfde voor de Duitse bronnen.”

5 sterrenbronnen
Zo moet er een zoekindex ontstaan, die weliswaar niet volledig is, maar wel een goed antwoord geeft op de meeste vragen, geclassificeerd in verschillende deelgebieden. Er komt bijvoorbeeld een index voor sport, een voor nieuws, een voor wetenschap of specifiek voor voetbal. Zo’n index download je op je computer. “Dat lijken veel data, maar vroeger nam een computer een hele kamer in beslag, tegenwoordig is hij zo groot als een smartphone. Er passen steeds meer data op een pc of laptop.” Heeft de index het antwoord niet, dan kun je altijd Google er nog bij pakken.

Openwebsearch.eu / beelden van NASA en Unsplash

De Vries: “Bij de Radboud Universiteit zijn we vooral geïnteresseerd in het opschonen en indelen van de documenten. Je wilt niet alleen het boek delen, maar ook de inhoudsopgave. We gaan dus de ruwe data opschonen, een index maken en de documenten annoteren: dit is goed taalgebruik en dat niet. Dit is valide informatie en dat minder. We geven dan bijvoorbeeld een bron 5 sterren of maar 3. Degene die de index in gebruik neemt, kan dan zelf beslissen wat te doen met de 1 sterbronnen.”

Desinformatie
Veel verder willen de onderzoekers niet gaan om desinformatie tegen te houden. “We analyseren de autoriteit van een bron: hoe leesbaar is het? Dan annoteren we de index met die informatie, maar we willen geen oordeel vellen. Anders zullen gebruikers daar niet mee akkoord gaan: wie zijn wij om te bepalen wat je wel en niet moet lezen?”

Groot voordeel van de Europese index is de waarborging van privacy. “Dat alles lokaal op je eigen computer staat, is veel beter voor je privacy. Je zet de informatie en de software voor jezelf op je computer. Je kunt daar ook je e-mail aan toevoegen en andere privédocumenten.” Zo wordt een belangrijk nadeel van Google verholpen: je zoekopdrachten en dus je persoonlijke voorkeuren en interesses liggen niet meer op straat, maar blijven waar ze horen: op jouw computer.

Updaten
Volgens de hoogleraar zit het architectuurplaatje goed in elkaar. “Technologisch gezien moet het lukken. De vraag is meer: kunnen we dit bouwen tegen kosten die te overzien zijn.”

Zo is er nog een probleem rond het updaten van de informatie. Er komt immers steeds nieuwe info bij en die moet steeds gedownload worden. “Zeker bij nieuws is dat lastig. Mogelijk moet er een extra zoekmachine komen die kijkt of er updates zijn, die antwoord geven op je vraag.”

Niet direct antwoord
De Vries zegt dat we misschien ook meer geduld moeten hebben. “Je kunt denken aan een vorm van slow search. We moeten wennen aan een nieuwe wereld waarin je de zoekvraag goed formuleert en je ook een goed antwoord krijgt, maar niet in 5 milliseconde. Als je daaraan gewend raakt, dat je goed en vrij snel antwoord krijgt, maar niet direct, dan vind je dat ook prima en kun je er zelfs op vooruitgaan omdat  je een beter antwoord krijgt dan via Google.”

Verdienmodel
Nog een hoofdpijnpuntje is het verdienmodel, want gratis is het natuurlijk niet. “Je kunt je iets voorstellen bij een model, waarbij je de hardware kunt kopen of zelfs een hele index op een disk, maar je kunt ook betalen door advertenties voorgeschoteld te krijgen. Organisaties waarbij het belangrijk is dat de zoekopdrachten geheim blijven, kunnen bijvoorbeeld kiezen voor een abonnement zonder advertenties”, suggereert de hoogleraar.

“Wil je dat de index beschikbaar is voor alle Nederlanders dan zou het bijvoorbeeld een nutsvoorziening kunnen worden, al zullen mensen dan misschien twijfelen aan de betrouwbaarheid: laat de overheid geen bronnen weg of worden alleen bepaalde geschikt bevonden  zoekresultaten getoond?”

Mensenwerk
Maar dat zijn allemaal nog vergezichten. Zo ver is het project nog lang niet, ook omdat er nogal een verschil is in middelen tussen Google en het Europese project. “Bij Google werken honderden ingenieurs aan het up-to-date houden van de zoekmachine. Er zijn duizenden mensen met name in lagelonenlanden dagelijks bezig om spam te verwijderen. Mensen denken vaak dat alles automatisch gaat, maar er komt nog veel mensenwerk bij kijken. En dat soort middelen hebben wij niet.”

Nu is het wel zo dat de Europese index van zichzelf al ‘schoner’ wordt. “Er is al een soort selectie. Een webmaster kan van tevoren aangeven: als je op onze site komt, crawl dan dit wel en dat niet. Daarmee wordt de index al opgeschoond.”

Open source
Het onderzoek is een opensourceproject, waar veel mensen tegelijkertijd aan werken. In Duitsland is nog meer interesse dan in Nederland. “Daar zijn ze zich veel bewuster van hun onlineprivacy. Zo probeerden we eens voor een ander project Google Analytics te vervangen voor een andere webanalysetool. In Nederland was er één universiteit die Google Analytics níét gebruikte. In Duitsland gebruikte 90 procent juist al wél een andere tool uit privacyoverwegingen.”

Mogelijk staan onze oosterburen ook meer open voor de nieuwe webindex. Want dat is uiteindelijk een belangrijk punt: hoeveel mensen zijn bereid over te stappen? “Willen mensen dat wel? Je ziet nu al hoe lastig het is als een internetbedrijf eenmaal een monopolie heeft.” Daarom hoopt De Vries dat het alternatief beter wordt dan het origineel. “Door een combinatie van websearch, opslag van persoonlijke documenten en data kan het beter worden dan Google. Met bijvoorbeeld een subscription-based webindex kun je direct het hotel van jouw voorkeur vinden wat prijs, smaak en locatie betreft. Dat hoef je niet meer in te voeren. Dat maakt zoeken nog makkelijker dan nu.” Verder zijn er voordelen voor onder meer samenwerkingen tussen organisaties. “Denk aan financiële instellingen die informatie voor zichzelf verzamelen en via de software overzichtelijk kunnen delen met elkaar.”

Spannend
De mogelijkheden zijn eindeloos en gaan zelfs verder dan alleen de zoekmachine. “Veel natuurlijke taalverwerking werkt technisch het beste met deep learning maar daar zijn heel veel data voor nodig en die zijn in commerciële handen. Met onze index kun je ook die deep learningmodellen gratis toegankelijk maken en de modellen trainen. Dit is niet waar het project om draait maar wel een mooie bijvangst”, aldus De Vries.

Het spannendst is of dit allemaal te realiseren is. “Over drie jaar ligt er echt nog geen kant-en-klare oplossing voor de consument. Maar er moet wel een proof of concept zijn plus een indicatie of dit een haalbare route is. We willen een soort prototype klaar hebben van hoe de zoekmachine eruit gaat zien en hoe je je kunt abonneren op deelindices. We kunnen hopelijk iets neerzetten waarvan je denkt: wat een goed project, hier moeten we mee verder gaan.”