Vědci z Washingtonské univerzity dokážou převést zvuk na video. V práci nazvané Learning Lip Sync from Audio popisují, jak dokážou vytvořit umělý Obamův projev jen na základě několika hodin videa a cílového zvukového souboru.
Jejich neuronová síť se z videí naučila, jak různé fonémy odpovídají tvaru úst. Jedno takové video pak může posloužit coby zdroj pro nové video s úplně jiným zvukem. Pozici rtů, zubů a jazyka dokážou díky natrénovaným datům napasovat na nová slova, i když se hlava ve videu různě otáčí a naklání. Na této ukázce je vidět srovnání falešného a pravého proslovu nebo synchronizace projevu Obamy z 90. let s videem v jeho prezidentském období.
Výsledek je většinou přirozený, ale ne dokonalý. Chyby jsou stále viditelné. Oblast úst má nižší rozlišení a tvůrci sami tvrdí, že někdy jim nechtěně vzniká i efekt dvojité brady. Nehledě na to, že ani načasování nebo tvar úst někdy neodpovídáají fonémům. To je ale věc, kterou by další trénink mohl vylepšit.
Vědci neuronovou síť trénovali na 17 hodinách Obamových projevů. V budoucnu by prý ale stačilo i hodinové video. Tvrdí přitom, že technologie může rozpovídat osoby z dávné historie (představte si povídání s Karlem IV. ve virtuální realitě) nebo může dodat vaši mluvící hlavu do běžného hovoru bez použití kamery.
Tip: Díky technologii Face2Face již neuvěříte žádnému videu. Může změnit, co lidé říkají
Osobně se mi tyto příklady zdají podivné a neužitečné. Více věřím v cílené zneužití. Obama a jiné celebrity mají spoustu dobrých imitátorů, takže bude možné vytvořit falešná videa vhodná do parodií, bulváru nebo propagandy. A někdy možná ani imitátorů nebude třeba. Adobe pracuje na nástroji, který upraví, co říkáte.