Dankzij dit nieuw ontwikkelde algoritme kunnen audio-opnames heel realistisch in een video worden gestopt.
Laat het woord ‘playbacken’ vallen en veel mensen zullen meteen denken aan een concert van Britney Spears (of een andere popster). Dat komt doordat je het vrij goed kunt zien wanneer iemand aan het ‘lippen’ is, niet alleen bij live optredens, maar ook in filmpjes.
Dat is iets wat wetenschappers van de universiteit van Washington nu hopen te verhelpen. Zij ontwikkelden namelijk een algoritme dat audio-opnames uiterst realistisch kan verwerken in een video, waarin die persoon eigenlijk iets heel anders aan het vertellen is. En dat laten ze graag zien met behulp van Barack Obama:
Net echt
De onderzoekers gebruikten 14 uur aan videomateriaal van Obama om een neuraal netwerk te trainen. Toen dat eenmaal was gelukt, kon hun systeem een audioclip van de voormalige president maken, mondvormen creëren die met het geluid waren gesynchroniseerd en vervolgens een realistische uitziende mond construeren die overeenkwam met die van Obama.
De nagemaakte mond die was gesynchroniseerd met de geluidsopname werd vervolgens verwerkt in een video van Obama die verschillend was van de audiobron. En om het nog natuurlijker te maken, corrigeerden de onderzoekers het systeem voor hoofdbewegingen, timing en details als hoe de kaak eruitzag.
Puntjes op de i
Er zitten natuurlijk wel nog wat haken een ogen aan het algoritme. Zo moet het systeem gezicht en mond nog beter kunnen afstemmen (soms kreeg Obama opeens twee kinnen). Daarnaast moet de juiste gezichtsemotie bij de juiste intonatie van het gesprek worden geplaatst; iets waar het algoritme ook nog mee worstelt.
Maar de beginselen zijn er en wanneer het systeem eenmaal is gefinetuned dan zal Miss Spears er vast en zeker geïnteresseerd in zijn.
Bronnen: University of Washington, ACM Transactions on Graphics (pdf), Engadget
Beeld: University of Washington / Ira Kemelmacher-Shlizerman Lab
Lees ook: ‘Neuraal netwerk laat gamekarakters beter bewegen’