Model controleert betrouwbaarheid Wikipedia

KIJK-redactie

13 april 2015 09:00

Amsterdamse wetenschappers hebben een model ontwikkeld dat automatisch de betrouwbaarheid van Wikipediapagina’s kan controleren.

Wikipedia is een gigantische online encyclopedie. Hij is zo groot doordat iedereen pagina’s kan maken en bewerken. Maar dat heeft een keerzijde want de kwaliteit van artikelen is niet gewaarborgd. En het handmatig controleren van de ruim 34 miljoen artikelen is onbegonnen werk. Hoog tijd dus voor een computerprogramma dat dat automatisch doet. Wetenschappers van de Universiteit van Amsterdam hebben hier nu een model voor gemaakt.

Schrijvers

Het model gebruikt, naast de inhoudelijke kenmerken van het artikel (lengte, opbouw, etc.), een netwerk van Wikipediapagina’s en auteurs. Het lijkt wat dat betreft wel wat op PageRank, een programma dat pagina’s op het internet beoordeelt op hun relevantie. PageRank is ontwikkeld door de oprichters van Google en wordt gebruikt om te bepalen welke pagina’s als eerste naar voren komen bij een bepaalde zoekterm.

Schrijver en pagina beïnvloeden elkaar: draagt een schrijver bij aan een betrouwbare pagina dan wordt hij volgens het model ook betrouwbaarder. Ook het omgekeerde is waar; is de schrijver betrouwbaarder, dan wordt de pagina die hij heeft geschreven dat ook. Daarnaast wordt in het model rekening gehouden met de bijdrage van de verschillende auteurs. Iemand die meer heeft bijgedragen, heeft een grotere invloed op het artikel dan iemand die slechts een woord heeft toegevoegd.

Beter model

Vervolgens gebruiken de wetenschappers de featured articles. Dit zijn handmatig geselecteerde artikelen met een hoge kwaliteit. In het Amsterdamse onderzoek worden deze als waarheid aangenomen. De onderzoekers zetten ze, alvorens een berekening te doen, op 1 (100% betrouwbaarheid). De auteurs beginnen allemaal met een waarde van 0.

Tenslotte voeren de wetenschappers een t-toets uit om te testen of hun model beter is dan eerdere modellen. Ze testen hoe groot de kans is dat de beste artikelen (bijvoorbeeld de 180 beste artikelen in de categorie aardrijkskunde) zijn terug te vinden in de top die het model berekent (de top 200 bij aardrijkskunde). Dat blijkt inderdaad het geval en het nieuwe model blijkt aanzienlijk beter te scoren dan oudere modellen.

Bronnen: Automatically Assessing Wikipedia Article Quality by Exploiting Article–Editor Networks, UvA

Beeld: Wikimedia Foundation/CC BY-SA 3.0