Denník NSlovák dal komikovi tvár Toma Cruisa. Jeho deepfake videá videli milióny ľudí

Vystupuje na videu Bill Hader alebo Tom Cruise? Reprofoto – YouTube/Ctrl Shift Face
Vystupuje na videu Bill Hader alebo Tom Cruise? Reprofoto – YouTube/Ctrl Shift Face

Slovenský vývojár je presvedčený, že nástup deepfake videí pre svet dezinformácií nič veľké neznamená. Tvrdí, že na rozdiel od dezinformačných článkov možno zmanipulované video ľahko vyvrátiť.

Znepokojujúco dôveryhodné videá, kde majú herci vymenené tváre alebo sa im v priebehu monológu striedajú, vytvára slovenský vývojár žijúci v Česku. Nedávno obletel svet napríklad jeho skeč s komikom Billom Haderom a Tomom Cruisom.

„Naprávam zlé meno tejto techniky,“ napísal v korešpondenčnom rozhovore pre český Deník N vizuálny mág, ktorý si hovorí Tom. Je presvedčený, že technika deepfake nie je taká nebezpečná, ako ju médiá opisujú.

Tom svojím posledným kúskom vzbudil rozruch a prenikol aj na stránky svetových médií vrátane britského denníka Guardian.

Meno nie je podstatné

Video, kde sa tvár komika Billa Hadera premení na tvár Toma Cruisa vždy, keď Hader začne herca imitovať, sa na YouTube objavilo len pred dvoma týždňami. Odvtedy nazbieralo viac ako štyri milióny prezretí a tisíce komentárov. V nich sa mieša obdiv kvality spracovania so zdesením z dôveryhodnosti celého skeču.

„Prechod medzi tvárami je úplne nepatrný! Skvelá práca,“ odkazuje jeden z najobľúbenejších príspevkov. „Ježiši Kriste, bojím sa. S touto technikou sa skončí svet,“ obáva sa manipulácie ďalší komentujúci, ktorého príspevok si vyslúžil stovky lajkov.

Sám autor videa tvrdí, že nechce strašiť ľudí. „Som len používateľom techniky, ktorú vynašiel niekto iný a existuje už pár rokov. Technika deepfake je nástroj, ktorý využívam svojím spôsobom. Bol zneužitý už dávno, v pornovideách. Ak niečo robím, tak naprávam zlú povesť tejto techniky,“ odpovedal autor videa v písomnom rozhovore.

Svoje pravé meno zverejniť nechce: „Nepotrebujem, aby sa mi ľudia vŕtali v súkromí. Meno nie je podstatné. Mám svoj pseudonym a svoju tvorbu.“

Vyrobiť zlé video je ľahké

Tom sa živí prácou pre herný a filmový priemysel, kde sa zaoberá práve skenovaním a spracovaním tvárí. Profesia je zároveň jeho koníčkom – v kanáli YouTube nazvanom Ctrl Shift Face už zverejnil vyše dvadsať videí, kde sa pohráva s filmovými scénami alebo replikami z diskusných relácií. Raz vymení tváre hercom seriálu Office, inokedy zase namontuje do bojovej scény z filmu Matrix hlavnej postave tvár herca Bruce Leeho.

„Začal som s tým tak, že som sám seba montoval do rôznych scénok na pobavenie priateľov. Keďže moje deepfakes boli kvalitnejšie než väčšina tých, čo som videl na internete, založil som si kanál na YouTube,“ vysvetľuje Tom.

Videá s meniacimi sa tvárami sa naučil vyvárať sám, sériou pokusov a omylov. Nemohli by však vzniknúť bez kvalitného počítača, ktorý využíva na svoju prácu. „Vytvoriť zlý deepfake je ľahké. Ten kvalitný už je o niečom inom,“ uviedol.

Kľúčom sú kvalitné dáta

Jedno video zvyčajne vytvára tri až päť dní. Pracuje s programom DeepFaceLab, ktorý funguje na báze otvoreného zdrojového kódu. Kľúčom k presvedčivej videomontáži je použitie záberov alebo fotiek s vysokým rozlíšením, aby mohla umelá inteligencia pracovať s dostatočne objemným dátovým balíkom. „Preto je ťažké urobiť videomontáž s historickými postavami, napríklad s Churchillom. Nie je nato dostatok dát,“ vysvetlil Guardianu Tom.

Aj jeden z najväčších českých odborníkov na spracovanie obrazu, Daniel Sýkora z ČVUT, oceňuje kvalitu technického spracovania videa s Tomom Cruisom.

„Úspechu pomáha najmä relatívne nízke rozlíšenie a celková neostrosť obrazu doplnená o kompresné artefakty. Tie maskujú jemné detaily, ktoré by inak upozornili na napodobeninu. V niekoľkých pozíciách však vidno značné návraty do pôvodnej identity a je tiež zrejmé, že farba kože na tvári nie je v súlade so zvyškom hlavy, čo by malo pripadať zvláštne aj laikovi,“ hodnotí Sýkora.

Ako vzniká deepfake video?

Prvým krokom je získanie videozáznamu s hovoriacou osobou, ktorej identitu chceme preniesť, nasleduje extrakcia oblasti s tvárou a jej zarovnanie. V tejto fáze je dobré eliminovať prípadné zákryty, rozmazané snímky či extrémne pózy. Podobným spôsobom sa postupuje aj v prípade cieľovej sekvencie. Následne sa vytvoria zarovnané páry podobných póz a trénujú sa hlboké neurónové siete, ktoré následne dokážu pre vstupný obrázok tváre pôvodnej identity vygenerovať jeho variant v identite cieľovej. Výsledná zmenená tvár sa následne zasadí do videozáznamu. Tu je snaha eliminovať prípadné viditeľné švy a fotometrické nekonzistencie, čo sa nie vždy darí.

Čo je program DeepFaceLab, v ktorom Tom videá vytváral?

Je ukážkou využitia hlbokej neurónovej siete trénovanej na väčšom súbore zarovnaných párov pôvodného a cieľového obrazu. Na zarovnanie sa používajú automatické detektory významných oblastí tváre (napríklad kontúr očí, úst, nosa a brady). Tie takisto treba trénovať na veľkých súboroch dát, kde každý trénovací pár obsahuje pôvodný obrázok a ručne špecifikované pozície významných lokácií.

Aké sú zatiaľ limity techniky? Ako možno podvrh odhaliť?

Čo sa týka ľudských tvárí, býva kvalita falzifikátov na dobrej úrovni. V určitých vybraných prípadoch si môže aj expert zameniť originál s podvrhom. Ide však väčšinou o krátke úseky zamaskované nízkou kvalitou obrazu. V dlhších záznamoch s vyšším rozlíšením a nižším stupňom kompresie možno podvod rozpoznať väčšinou veľmi rýchlo pri pohľade na úroveň jednotlivých obrazových bodov. Často sa vyskytuje aj problém s konzistenciou pri zasadení modifikovanej tváre do pôvodnej sekvencie. Tu väčšinou podvrh rozpozná i laik. Pri zmene vzhľadu celej postavy sú zatiaľ technické možnosti veľmi obmedzené a kvalita významne pokrivkáva za tvárami.

Daniel Sýkora, ČVUT

Zdroje ich nezaujímajú

V súvislosti s podobne presvedčivými videami sa hovorí o zneužití techniky na šírenie dezinformácií. Vývojár Tom si však od takých debát drží odstup. Nebojí sa, že by sa jeho práca mohla zneužiť v dezinformačných kampaniach.

„Neviem, ako by to bolo možné – mojou prácou sú moje konkrétne videá. Ja nie som vývojár softvéru, ja ho len využívam,“ podotýka v rozhovore s tým, že k všetkým svojim videám pripája upozornenie, že ide o montáž.

Je presvedčený, že nástup deepfake videí pre svet dezinformácií nič veľké neznamená – ľudia, ktorí veria konšpiračnom teóriám a čítajú „fake news“, im budú veriť naďalej.

„Absolútne ich nezaujíma, aký je zdroj správy a či je to skutočne pravda. Pre nich je pravda len to, čo potvrdzuje ich presvedčenie. Práve títo menej inteligentní ľudia sú cieľom dezinformačných kampaní,“ hovorí Tom.

Články narobia viac škody

Verí tiež, že na rozdiel od dezinformačných článkov možno zmanipulované video ľahko vyvrátiť – stačí ho porovnať s originálom alebo sledovať určité tvary.

Poukazuje napríklad na hoax šírený koncom minulého roka priaznivcami amerického prezidenta Donalda Trumpa. Tí tvrdili, že reportér CNN Jim Acosta počas tlačovej konferencie nevyberavo siahol na stážistku Bieleho domu; pri bližšom skúmaní však vyšlo najavo, že sa mu žena v skutočnosti snažila vziať mikrofón.

Tom pripomína aj virálne video, na ktorom demokratická politička a predsedníčka snemovne reprezentantov Nancy Pelosiová pri svojom prejave pôsobí opito. Zistilo sa, že video iba niekto spomalil.

„Presne to sú hoaxy, ktoré sa veľmi rýchlo a ľahko vyvrátili. Keď však niekto napíše vymyslený článok, ktorý je neoveriteľný, a teda sa dá len ťažko vyvrátiť, je to podľa mňa nebezpečnejšie. Hlavne preto, že takýto článok sa dá napísať veľmi ľahko. Zato vytvoriť kvalitný deepfake je oveľa náročnejšie,“ myslí si Tom.

Dodáva, že v súčasnosti existujú siete umelej inteligencie na detekciu deepfake manipulácií a vývoj takýchto systémov bude pokračovať. Odhaliť podvrhnuté video tak podľa neho môže byť jednoduché. „Svet sa nekončí. A ak moje videá niekomu otvoria oči, vnímam to ako pozitívum,“ píše vývojár.

Má síce pravdu v tom, že spomínané podvrhy z USA boli rýchlo odhalené. Avšak išlo o veľmi sledované kauzy, o ktoré sa zaujímalo veľké množstvo novinárov aj široká verejnosť. Pri lokálnych, nízkoprofilových kauzách s regionálnym dosahom sa však na podvrh môže prísť až po dlhšom čase.

Čomu veriť?

Neškodnosť zmanipulovaných videí v porovnaní s písanými falošnými správami spochybňuje odborník na dezinformácie Jakub Kalenský z think-tanku Atlantic Council.

„Do značnej miery bude záležať aj na reakcii nášho informačného systému, kam patria nielen médiá, ale aj vláda a štátna správa. Ak dokáže informačný systém nový falzifikát odhaliť včas, teda ešte predtým, než toxická správa stihne otráviť príliš veľký počet ľudí, môže vyvrátenie, teda očkovanie neinfikovaných konzumentov, prísť tiež včas. Ak príde reakcia neskoro, keď už dezinformácii bude veriť priveľký počet ľudí, môže, samozrejme, taký falzifikát napáchať škody,“ reaguje Kalenský.

Kalenský je navyše presvedčený, že keď sa do šírenia falošných videí zapoja aj mainstreamové médiá, môžu ovplyvniť napríklad volebnú kampaň.

„Pripomeňme si českú prezidentskú voľbu a dezinformácie poškodzujúce kandidáta Drahoša – keby ich posilnilo nejaké deepfake video, v ktorom sa k svojim údajným hriechom bude sám pán Drahoš priznávať, nepochybne by to takú dezinformačnú kampaň posilnilo,“ odpovedá Kalenský na otázku, či sa pri veľmi sledovanej kauze dá predpokladať, že falošné video bude rýchlo odhalené. Expert navyše upozorňuje na to, že rýchle vyvrátenie nepravdy sa môže minúť účinkom.

Časť publika totiž dezinformácie šíri aj po ich vyvrátení – buď sa k nim pravdivá informácia nedostane, alebo jej neuveria.

„Konzumenti dezinformácií dodnes šíria zjavné falzifikáty – či už ide o vymyslené citáty Wericha, alebo o podvrhnuté články Josefa Klímu o Karlovi Schwarzenbergovi, a je im úplne jedno, že ide o odhalené podvrhy. Dezinformačný ekosystém bude tieto napodobeniny používať, pretože je to jednoducho v jeho záujme,“ dodáva odborník na dezinformácie.

Ostražitosť je potrebná

Ostražitosť pred takou technikou je namieste aj podľa odborníka na kybernetiku Michaela Šebka. Dodáva však, že s obavami to netreba preháňať.

„Je to jednoducho len ďalší pokrok techniky, ktorý urýchľuje a rozširuje možnosti: pre tých zlých aj pre tých dobrých. Veľké nebezpečenstvo asi nehrozí, pokiaľ budeme vedieť, že ide o falzifikát. Scarlett Johansson asi jej ‚deepfake porno‘ stále štve, ale boj proti nemu už vzdala. Jednak preto, že je márny, keď aj tak všetci vedia, že je to podvod. Horšie to bude, keď bude niekto deepfake považovať za pravdu. Ešte horšie bude, keď mu na pravdivosti nebude vôbec záležať,“ opisuje Šebek.

Upozorňuje aj na to, že proti zneužitiu videí sa dá technicky brániť. „Obranou je vkladať do obrázkov aj videí neviditeľný kód, ktorý by úpravy porušili. Alebo použiť nejaký elektronický podpis preukazujúci originalitu a pravosť. Potom sa rozpozná aj najmenšia zmena, ktorú by niekto urobil – hoci aj zmena jedného bitu,“ hovorí Šebek.

Navyše dodáva, že kedykoľvek sa v histórii objavila a rozvíjala nová zbraň, súčasne sa objavili a rozvíjali aj protizbrane.

„Dnes dokážu neurónové siete stále lepšie rozpoznať na obrázku ľudí, ale iné neurónové siete sa rýchlo učia tie rozpoznávacie systematicky prekabátiť. Podobné to bude aj pri deepfake. Tak ako sa jedna neurónová sieť – tá falošná – učí vyrábať stále lepšie falzifikáty, učí sa ich tá druhá – rozpoznávacia – stále lepšie odhaľovať. Obe sa zdokonaľujú navzájom, ako proti sebe hrajú. Ktorá práve kedy vyhrá, závisí od mnohých faktorov – trebárs od konkrétneho nastavenia algoritmov, ktoré je stále viac inžinierske alebo umelecké než vedecké alebo matematické,“ dodáva.

Proti slobode lži

Aj podľa Daniela Sýkoru platí, že hoci je kvalita falzifikátov videí s ľudskými tvárami na dobrej úrovni, technika má stále svoje rezervy. „Nemyslím si, že by v blízkej budúcnosti hrozilo bezprostredné nebezpečenstvo generovania ťažko rozpoznateľných ‚fake news‘,“ uzatvára odborník.

Jeho kolega, kybernetik Michael Šebek, však problém vidí v tom, že mnoho ľudí ani po odhalení podvrhu nemusí veriť, že video bolo upravené. Riešenie je podľa neho inde: „Rozvíjať kritické a logické myslenie a vychovávať ľudí, aby hneď neverili všetkému, čo uvidia. Aby si všetko overovali, o všetkom premýšľali. Čo vedie k mojej obľúbenej téme: nutnej zmene vzdelávania a škôl,“ dodal Šebek.

Tom vyzýva, aby sa podobné problémy riešili celosvetovo. Začať podľa neho treba s Facebookom. „To je hlavná platforma na šírenie dezinformácií a používanie cielených platených reklám, ktoré sú financované ktoviekým. Alebo si vezmite celý škandál Cambridge Analytica (spoločnosť, ktorá údaje o miliónoch voličov zneužívala na presné zameriavanie politickej reklamy – pozn. red.). Čo sa však robí pre to, aby sa tomu do budúcna predišlo? Ak sa Facebook nedá regulovať, mal by sa zrušiť,“ hovorí Tom.

Ako sa podľa neho teda manipuláciám vyhýbať? „Tak ako doteraz. Čítať správy z renomovaných overených zdrojov, zisťovať si pravdivosť podozrivých alebo kontroverzných informácií. Ale čitateľa pochybných pravicových zdrojov a ruskej propagandy takto nepresvedčíte. Tam treba riešiť samotný zdroj. Facebook. Som za slobodu slova. Ale nie som za slobodu lži,“ píše Tom.

Muž pôsobiaci v hernom a filmovom priemysle predpokladá, že deepfakes sa už čoskoro vo filmoch stanú realitou. „Je to ideálny nástroj napríklad na výmenu tváre kaskadéra za herca, ktorého zastupuje. Alebo na omladenie hercov či oživenie zosnulých hercov,“ vymenúva možnosti využitia.

Máte pripomienku alebo ste našli chybu? Prosíme, napíšte na [email protected].