AI voedt zichzelf met zijn eigen fouten – en dat geeft problemen

Niemand ontkomt meer aan de overvloed aan door AI gegenereerde teksten en afbeeldingen op internet. Ook AI zelf niet, want kunstmatig intelligente systemen gebruiken steeds vaker hun eigen output om mee te trainen. Daardoor voeden ze zich continu met hun eigen fouten. En dat is vragen om problemen.

Met de aanstekelijke woorden “Het is zo, zo, zo, bijna weer zomer!” wist John de Koning vorig jaar een plekje in de Nederlandse hitlijsten te bemachtigen. En dat terwijl de zanger niet eens echt bestaat. De stem én de songteksten van De Koning zijn gemaakt door kunstmatige intelligentie.

Eerder klonk dat nog heel bijzonder, inmiddels is het dat niet meer. Meer dan de helft van alle tekst op het internet is volgens een onderzoeksteam van Amazon gemaakt of vertaald door AI. En iedereen die weleens met ChatGPT heeft geëxperimenteerd, weet dat deze zogeheten synthetische data niet altijd kloppen. Onjuiste zinsconstructies en bizarre plaatjes overspoelen dus het web. Extra zorgwerkend: de volgende generatie AI-systemen wordt getraind met deze foute informatie. Wat hebben we nog aan deze technologie als die alleen nog maar leert van haar eigen creaties?

Lees ook:

Afvoerputje

AI is een parapluterm voor een tal van algoritmes en methodes die mensachtige taken uitvoeren, zoals redeneren, leren en plannen. Tegenwoordig doet vooral generatieve AI nogal wat stof opwaaien. Dit is de vorm van kunstmatige intelligentie die nieuwe teksten, plaatjes of andere informatie produceert. Het trainingsplan van dit soort systemen zit hem vooral in hun dieet. Het taalmodel achter ChatGPT leert bijvoorbeeld van de enorme hoeveelheid gegevens die het krijgt voorgeschoteld. In bakken met letters en pixels ontdekt het veelvoorkomende patronen.

“In essentie voorspelt een model, zoals ChatGPT, de kans dat een bepaalde token, een eenheid van informatie zoals een woord of lettergreep, aan de beurt is”, zegt Sandro Pezzelle, hoogleraar AI aan de Universiteit van Amsterdam. Zo berekent het systeem hoe groot de kans is dat het ene woord naast het andere woord staat, of dat een kat een staart en twee puntoren heeft. Als je aan het getrainde algoritme vraagt om een gedicht te schrijven of om een poes te tekenen, zie je de woorden en snorharen die de meeste kans maken om jouw verzoek op te volgen.

Dit is het begin van het artikel over hoe AI zichzelf in de staart bijt. Hoe groot is dat probleem en hoe lossen we het op? Je leest het in KIJK 2-2025. Bestel deze editie in onze webshop, of eenvoudig via de knop hieronder.

Tekst: Loys Bakker

AI voedt zichzelf met zijn eigen fouten – en dat geeft problemen

Afvoerputje

PODCAST

Meer Artikelen

KIJK op de wereld: waar kijk ik naar?

Stroom opwekken uit planten? Het is echt mogelijk

Het beste wetenschapsnieuws van deze week

‘De reusachtige Mosasaurus leefde niet alleen in zeeën, maar ook in rivieren’