‘Dit is nog maar het topje van de ijsberg’

KIJK-redactie

12 februari 2011 16:00

Exclusief op KIJK.nl: enkele ‘deleted scenes’ uit het interview met de twee Harvard-wetenschappers achter Google’s Ngram Viewer.

In KIJK 3/2011 vind je een interview met Jean-Baptiste ‘JB’ Michel (rechts op de foto) en Erez Lieberman Aiden, de twee belangrijkste wetenschappers achter de Ngram Viewer van Google labs. Met dit programma kun je 5 miljoen gedigitaliseerde boeken doorzoeken op setjes van maximaal vijf woorden, bijvoorbeeld ‘HIV’ of ‘Adolf Hitler’. Hierbij de ‘deleted scenes’ van het betreffende artikel: een aantal vragen en antwoorden die niet in het blad pasten, maar die we jullie toch niet wilden onthouden.

KIJK: Hoe komt het dat de Ngram Viewer zo snel is met zo’n enorme hoeveelheid data?

JB: “Alles is al berekend; in feite is het gewoon een opzoektabel. Er staat bijvoorbeeld een regel met het woord “Holland” en daarachter zie je hoe vaak dat werd gebruikt in het jaar 1500, 1600, 1601, 1602, enzovoorts. Dus als iemand een zoekopdracht intikt, hoeft Google alleen maar die regel op te zoeken en niets te berekenen.”

Hoe voelde het voor jullie om als wetenschappers samen te werken met een commercieel bedrijf als Google?

Erez: “Daar hebben we heel lange gesprekken over gevoerd. Je wilt absoluut niet dat wat je doet wordt scheefgetrokken door iemands commerciële belangen. Aan de andere kant: in dit specifieke geval kun je heel duidelijk stellen dat we dit werk niet hadden kunnen doen als we niet met Google hadden samengewerkt. Je moet je vooral heel erg bewust zijn van de problemen die ontstaan als je samenwerkt met bedrijven. Maar we vonden allebei dat het de juiste beslissing was. Als we het niet hadden gedaan, had het nog ik-weet-niet-hoeveel jaren kunnen duren voordat zo’n instrument beschikbaar was gekomen. We vonden het belangrijk dat dit werk in gang werd gezet. Je moet gewoon goed je persoonlijke integriteit in de gaten houden.”

Met welk onderzoeksonderwerp willen jullie je nu bezig gaan houden?

JB: “We zouden graag de geesteswetenschappers enthousiast maken om een project uit te voeren waarbij een groot deel van het vastgelegde verleden binnen tien tot vijftien jaar wordt gedigitaliseerd. Dus we zijn bezig uit te vinden hoe we dat voor elkaar kunnen krijgen. Wij willen vooral instrumenten bouwen; dat heeft dit onderzoeksveld echt nodig. Erez en ik zullen zelf maar een heel klein deel van het daadwerkelijke onderzoek met deze instrumenten doen.”

Erez: “De grote uitdaging voor ons is om niet te veel in de ban te raken van één bepaald onderzoeksonderwerp. Het gevaar is namelijk dat je de mogelijkheid uit het oog verliest om dingen te doen die relevant zijn voor vele andere onderzoeksgebieden. Wij moeten bedenken welke instrumenten, technieken en data het mogelijk maken om analyses te doen over een grote verscheidenheid aan verschijnselen. We proberen ons echt op het grote geheel te richten.”

Vanwege auteursrechtenkwesties rond de gebruikte Google Books hebben jullie je beperkt tot setjes van maximaal vijf woorden. Stel dat dit probleem niet meer zou spelen, wat voor nieuwe onderzoeksmogelijkheden zien jullie dan?

JB: “Enorm veel meer. Ten eerste voor taalkundigen. Die zijn vaak geïnteresseerd in zinsbouw en grammatica, waar je langere stukken tekst voor nodig hebt. De beschikbaarheid van de volledige teksten zou voor hen geweldig zijn. Maar ook voor historici en geesteswetenschappers. Die zouden dan kunnen zeggen: ik ben geïnteresseerd in deze woorden, maar alleen in boeken geschreven tussen 1830 en 1845 in het zuidwesten van Frankrijk die gaan over portretten. Zo’n zoekopdracht kan nu niet omdat alles van tevoren is berekend over alle boeken.”

Erez: “Iets heel basaals is dat wanneer mensen worden genoemd, je niet weet of dat op een positieve of negatieve manier is. Je kunt dat een beetje bekijken met n-grams, maar je zou het veel beter kunnen doen als je de volledige tekst tot je beschikking had. Of je kunt vragen: als mensen schrijven over een bepaalde kwestie, over welke andere kwestie schrijven ze dan ook in hun boek? Dat kunnen we nu nog niet. Dit is dus nog maar het topje van de ijsberg van wat je zou kunnen doen met de volledige tekst.”

Dit zijn enkele extra vragen, behorend bij een interview uit KIJK 3/2011, in de winkel van 11 februari tot en met 10 maart. De tekst werd geschreven door Arlette Sjerp.

Beeld: Kris Snibbe/Harvard University