Místo obrázků už umělá inteligence vytváří i déletrvající video. Jazykový model Sora (v japonštině to znamená nebe) zatím není přístupný veřejnosti ani novinářům, hraje si s ní pár vývojářů a Sam Altman. Videa vypadají jako reálné lokace s reálnými lidmi.
Jazykový model trénuje na mnoha videích, která mají textový popis (titulky). Video tvoří podobně jako DALL-E statické obrázky. Kromě textového zadání ale lze Soře předhodit také statický obrázek nebo již existující video, kterému vymyslí pokračování.
Sora je difuzní model. Po zadání vstupních zašuměných políček (a podmiňujících informací, jako jsou textové výzvy) je vycvičen k předpovídání původních čistých políček.
Sora není prvním modelem schopným vytvářet video, žádný ale ještě neumí tak dlouhý a realistický film. Sora rozpozná nejen jak předměty a scény mají vypadat, ale i jak se mají chovat, jejich fyziku. Jen občas jdou poznat nelogičnosti – například osoba kousající sušenku ve videu nedrobí.
Podívejte se na uměle vytvořená videa a text, ze kterého vznikly:
Zadání: „Stylová žena kráčí po tokijské ulici plné teple zářících neonů a animovaných městských nápisů. Na sobě má černou koženou bundu, dlouhé červené šaty, černé boty a u sebe černou kabelku. Na očích má sluneční brýle a červenou rtěnku. Kráčí sebevědomě a nenuceně. Ulice je vlhká a zrcadlí se, což vytváří zrcadlový efekt barevných světel. Kolem se prochází mnoho chodců.“
Zadání: „Kočka, která budí svého spícího majitele a dožaduje se snídaně. Majitel se snaží kočku ignorovat, ale ta zkouší nové taktiky, a nakonec vytáhne zpod polštáře tajnou skrýš s pamlsky, aby kočku ještě chvíli zdržel.“