Microsoft dokáže rozpohybovat fotografie ve zpívající lidi tak dobře, že se sám bojí případného zneužití

Sdílet

 Autor: Cnews (s využitím DALL-E)
Nový experimentální nástroj umělé inteligence VASA-1 dokáže z fotografií statických osob vytvořit pohyblivý obrázek doplněný o zvukový soubor.

Společnost Microsoft Research Asia přišla s novým experimentálním nástrojem nesoucím název VASA-1, který dokáže vytvořit ze statických fotek nebo obrázků realistická videa osob s doprovodným zvukovým souborem. Tento audiosoubor pak nástroj dokáže přiložit k rozpohybovanému obličeji a vytvořit plnohodnotnou mluvící tvář.

Na oficiálním webu je společně s představením tohoto nástroje řada ukázkových videí, které mohou vypadat místy až děsivě přesvědčivě a mohly řadu lidí přesvědčit o tom, že postavy ve videu skutečně na dané téma hovoří nebo zpívají. Při bližším zkoumání pohybu hlavy a rtů je stále možné nalézt opakující se fragmenty, desynchronizaci a jakési robotické mimiky, i tak má ale tento nástroj potenciál vytvářet tzv. „deep fake“ videa, tedy falešná videa, například slavných osobností nebo politiků.

Nová technologie VASA-1 vypadá místy až děsivě přesvědčivě

Nová technologie VASA-1 vypadá místy až děsivě přesvědčivě

Autor: Microsoft

Tohoto zneužití se ostatně obávají i samotní výzkumníci. Podle magazínu Engadget výzkumníci nezveřejní žádné funkční demo, API, hotový produkt nebo cokoliv jiného do doby, dokud si nebudou jisti, že jejich technologie bude používána zodpovědně a v souladu s řádnými předpisy.

bitcoin školení listopad 24

Vědci se domnívají, že jejich technologie VASA-1 dokáže nabídnout spoustu výhod i přes její velký potenciál ke zneužití. Technologie rozpohybování obrázku může být použita například ke zvýšení rovnosti ve vzdělávání nebo zlepšení dostupnosti pro ty, kteří mají problém s komunikací a vytvoření jejich mluvícího avataru by jim mohlo tyto problémy pomoci překonat.

VASA-1 může být také použita jako terapeutická pomůcka pro ty, kteří ji budou potřebovat, nebo jako nástroj pro tvorbu AI postav, se kterými budou následně lidé mluvit. VASA-1 byla trénována na datovém souboru VoxCeleb2, který obsahuje přes 1 milion výroků 6112 celebrit extrahovaných z YouTube videí. 

Nová verze ZPS X přidává pokročilou práci s HDR fotografií Přečtěte si také:

Nová verze ZPS X přidává pokročilou práci s HDR fotografií