Noční můra filmařů? Umělá inteligence začíná vytvářet videa

6. 10. 2022 – 18:22 | Technologie | Ladislav Loukota |Diskuze:

Přítomnost se stává budoucností. Cimrmanovsky se tak můžeme ptát: Ten pokrok. Kde se to zastaví?zdroj: Profimedia

Facebook, Google i Číňané vyvíjejí umělou inteligenci, která vytváří videa z textu.

Strojová učení ukazují nový způsob, jak kreslit obrázky. Teď přicházejí na řadu videa. Zadáte počítači několika slovy či větami obsah požadovaného videa, umělá inteligence se zamyslí a dá vám obratem na výběr z několika videí, které podle vašeho zadání vytvořila.

Takový algoritmus vyvíjí společnost Meta, „matka“ sociální sítě Facebook. Pojmenovala ho Make-A-Video.

Následující klip vytvořil algoritmus pro převod textu na video na základě zadání: Plyšový medvídek kreslí svůj portrét.

Plyšový medvídek kreslí svůj portrét.zdroj: Kredit-Meta

Nástrojů, jakým je Make-A-Video, může být brzy hromada. Vize internetu jako prostředí, kde většinu obsahu generuje strojové učení, nabývá reálné obrysy.

Strojová učení DALL-E, Midjourney a další už vytváří obrázky o vysokém rozlišení na základě několika desítek slov popisujících požadovaný děj. Nejlepší obrázky se ale pohybují, tvrdí v korporaci Meta. Proto začali pracovat na strojovém učení, které podle textového požadavku stvoří video. Odpovídá tomu, jak stroj popis pochopil.

„Výzkum generativní umělé inteligence posouvá tvůrčí projev kupředu tím, že dává lidem nástroje k rychlému a snadnému vytváření nového obsahu,“ píše společnost Meta v příspěvku na svém blogu.

Videa zatím nejsou dokonalá, objekty jsou rozmazané, animace zkreslená. Přesto představují pokrok v generování obsahu umělou inteligencí. Najdete je třeba na webu Meta či v žurnálu Verge.

Když terorista, tak v turbanu

Mark Zuckerberg, generální ředitel korporace Meta v příspěvku na Facebooku napsal: „Je mnohem těžší vytvářet video než fotografie, protože kromě správného generování každého pixelu musí systém předvídat, jak se pixely budou v průběhu času měnit.“

Program generování videí zatím není dostupný veřejnosti. Kdy si ho budete moci vyzkoušet, zatím není jasné. Zuckerberg ale ujišťuje, že ho v budoucnu zpřístupní.

Make-A-Video se trénuje pomocí zkoumání jiných existujících videí, z nichž některá obsahují popis. Pocházejí z fotobank nebo z webu. Tréninkový obsah dohromady obsahuje miliony videí zahrnujících stovky tisíc hodin záznamu.

Jako všechny modely umělé inteligence trénované na datech získaných z webu, také Make-A-Video „učením získal některé přehnané sociální předsudky, včetně těch škodlivých“, píše Meta a upozorňuje: „Když například požádáte stroj, aby vytvořil obrázek teroristy a patrně vám zobrazí někoho v turbanu.“

‚Zuck‘, Google a Číňané

Nyní Make-A-Video vytváří videa ze 16 snímky za sekundu v rozlišení 64 × 64 pixelů, jejichž velikost je pomocí samostatného modelu umělé inteligence zvětšena na 768 × 768 pixelů. Videa zatím neobsahují žádný zvuk.

Už teď však systém pokrývá obrovskou škálu témat a z překotného vývoje AI generátorů obrázků se dá soudit, že už za několik měsíců bude kvalita videí výrazně lepší. Meta navíc není jediná společnost, která na generátoru videí pracuje.

Začátkem roku se obdobným systémem pochlubila skupina výzkumníků z univerzity Čching-chua a Pekingské akademie umělé inteligence. Zveřejnila vlastní model převodu textu na video s názvem CogVideo, zatím jediný další veřejně dostupný model převodu textu na video

Je to zatím jediný veřejně dostupný systém tohoto typu. Tvůrci jeho kód zpřístupnili přes GitHub.

A pozadu nechce zůstat ani Google, který na Make-A-Video odpovídá vlastním programem pro převod textu na video. Nazval ho Imagen Video. Představuje ho tady.

Google tvrdí, že Imagen Video je krokem k systému s „vysokým stupněm ovladatelnosti a znalostí světa, včetně schopnosti generovat záběry v řadě uměleckých stylů“.

Umělá inteligence ve službách Googlu.zdroj: Kredit-Google

Generátory obrázků každopádně nejsou nějaký letošní vynález – tento tweet z roku 2018 nám ale připomíná, že první veřejné výtvory měly daleko k tomu, co tyto systémy dokážou v současnosti.

It turns out "draw me a picture of whatever I ask for" is a really hard task for an algorithm. This one will try its best though: https://t.co/pwwpa7yUCX
Demo by @c_valenzuelab of this model: https://t.co/r0mHYuJkT8 pic.twitter.com/HhRBbYAOvc
— Janelle Shane (@JanelleCShane) August 16, 2018

Vize, že obsah internetu budoucnosti bude z podstatné části vytvářen počítači, je s představením Make-A-Video a Imagen Video každopádně blíž realitě. Budoucnost se začíná stávat přítomností.

Tagy:

Zdroje:

The Verge, Twitter, Meta