Podvodná videa prozrazují oči. Digitální simulace Obamy téměř nemrká
26. 6. 2018 – 18:10 | Technologie | Ladislav Loukota | Diskuze:
Rozeznat skutečné zprávy od těch falešných je v dnešním světě stále složitější oříšek - a stále více lidí je přesvědčeno o tom, že na tom vlastně ani nezáleží. Má být však ještě hůře. Rostoucí výzkum na poli tzv. deepfake videí ilustruje, že brzy nebudeme moct důvěřovat ani video obsahu. Animace simulující projevy slavných osobností se totiž začínají nebezpečně blížit realitě.
Pojem deepfake vychází ze dvou slov, které poslední dobou hýbou světem - "fake news" pro smyšlené zprávy a "deep learning" pro samostatně se učící systémy na bázi strojové inteligence. Z toho vyplývá i to, co deepfake umí - je s to autonomně vytvořit umělé video simulující projev a vzezření nějakého člověka čistě na bázi syntézy již známých videí a fotografií. Jinými slovy, daří se jim vytvořit něčí pohyblivý obraz skoro na stejné úrovni jako běžný obrazový záznam.
Je asi nasnadě, že z podobné míry automatizované animace plyne řada nových bolehlavů. Nemusí jít nutně jenom o politické implikace pro další šíření falešných zpráv - deepfake se může dotknout i každého z nás pomocí naklíčování vašeho obličeje třeba do pornografického videa. V posledních dvou letech se už objevily příklady obou druhů. Nejprve se loni na podzim na sítí Reddit objevily pornografická videa s "připomontovanými" fotkami slavných ženských hereček, letos na jaře pak upozornil komik Jordan Peele montáží fiktivního projevu bývalého amerického prezidenta Baracka Obamy na potenciál zneužití deepfakes v politice (video níže).
Nejde vlastně o tak velký skok oproti starším kolážím, ať už nedigitálním či těm tvořeným v Photoshopu a podobných programech, popřípadě k mladším "face swap" aplikacím umožňujícím snadnou výměnu obličejů. Deepfake je přesto posunem vpřed díky tomu, že svou kvalitou rychle letí kupředu.
I proto se vlastními programy simulace lidských tváří zabývají univerzitní týmy. Jen měsíc nazpět vyvinula Stanfordova univerzita vlastní systém Deep Video Portraits, který demonstruje rizika falzifikace tváří o něco lépe než tucet kauz z Redditu.
Zatímco deepfake politiků to má o to snazší, že politici během svých projevů stojí na místě a jsou zabíráni z jediného úhlu, pornografické deepfakes jsou přesně z opačných důvodů daleko méně "uvěřitelné". Se zdokonalováním technologie však zřejmě i na tomto poli dojde k postupnému zlepšování.
Stále s muškami
Na odhalování deepfake videí si nedávno posvítila i studie katedry počítačových věd americké univerzity v Albany a došla k mírně uklidňujícímu závěru – většinu podobných animací lze stále odhalit pro jejich drobnou nedokonalost při simulaci "spontánních a nedobrovolné fyziologické aktivity, jako je dýchání, pulz a pohyb očí".
Výzkumníci pro svou studii zkombinovali dvě vlastní umělé neuronové sítě a zaměřili se na známá videa s jejich nejjemnějšími odlišnostmi oproti reálným lidským projevům. Bez přehánění lze tak říct, že metoda spoléhá na umělou inteligenci analyzující výplody jiné umělé inteligence – to celé, aby nebylo ošáleno naše lidské já. Chtělo by se skoro vzpomenout na Voight-Kampff test z filmové sci-fi Blade Runner, to by však práci zřejmě mírně ubíralo na zajímavosti.
Jádro metody detekce se zaměřilo na proměnlivé tempo mrkání – průměrný člověk v klidu mrkne sedmnáctkrát za minutu, pokud však mluví, zvýší se tempo na 26 mrknutí za minutu. Při čtení pak naopak tempo poklesne až na čtyři a půl mrknutí. Při analýze reálných politických projevů je metoda poněkud ošidná, protože řada mluvčích svůj projev často čte. Přesto se během rozboru videí ukázalo, že řada falešných animací vůbec nemrká! Důvod je prostý – fotografie, z nichž deepfake systémy často čerpají, málokdy obsahují snímky světových vůdců se zavřenýma očima…
Odhalit deepfake videa tak paradoxně není tolik složité. Alespoň pokud si někdo nedá práci s dopilováním animace "ručně" jako ve videu s digitálním Obamou výše. Avšak i ta videa, na nichž digitální kopie světových lídrů mrkají, může vylepšený systém z Albany z rozboru detailního obrazu odhalit, zdali bylo pozorované oko v klidovém stavu (a tak bylo mrknutí "autentické") či nikoliv (a tak bylo mrknutí simulované). Lze očekávat, že časem může deepfake přeskočit i tuto míru detekce – ale prozatím jsme nejspíše před neodhalitelnými falzifikáty v bezpečí.
"Podle mého osobního názoru je nejdůležitější, aby si široká veřejnost uvědomovala možností moderních technologií při generování a editování videa," řekl k výzkumu Michael Zollhöfer, profesor na Stanfordské který pomáhal při vývoji deepfakeové demonstrační aplikace Deep Video Portraits (video z ní níže).
Právě to, nakolik bude lidem obecně záležet na autenticitě deepfake videí, nakonec nejvíce rozhodne o tom, zdali deepfake zůstanou spíše zábavní aplikací počítačové vědy, či dosáhnout mnohem negativnějšího významu.
Studie byla publikována na arXiv