S pomocí této technologie je tedy pak už velmi snadné vytvořit face swap video, na kterém se daná osoba nachází v takových situacích či místech, ve kterých ve skutečnosti nikdy nebyla.
Co je to Lip Sync
Lip Sync je další ze seznamu technologií, které jsou využívány k tvorbě face swap nebo deepfake videí. Funguje tak, že se vezme určitý zvukový záznam (nejčastěji něčí hlas nebo zcela smyšlená řeč), který je poté spárován s cílovým videem, aby to vypadalo, že osoba na videu říká slova ze zvukového záznamu.
Aby takové video vypadalo co nejdůvěryhodněji, jsou pohyby úst osoby na videu pomocí AI upraveny tak, aby byly synchronní se zvukovou nahrávkou a vyřčenými slovy. Cílem je tedy vytvořit deepfake video, na kterém daná osoba řekne něco, co ve skutečnosti nikdy neřekla.
I za technologií Lip Sync stojí umělá inteligence, nejčastěji modely pro audio-driven animaci obličeje či motion transfer. V obou případech se jedná o techniky umělé inteligence, které analyzují mimiku osoby z referenčního videa a aplikují je na jiný subjekt.
AI model nejčastěji analyzuje samotný zvukový signál a na jeho základě generuje odpovídající pohyby rtů a mimiky ve videu. Namluvení zvukového záznamu tak probíhá reálnou osobou, ale poté tyto pohyby přenese do nově generovaného videa na jinou osobu.
Co je to Voice Cloning
Voice Cloning neboli klonování hlasu je proces využívající umělou inteligenci, pomocí kterého je možné vygenerovat hlas velmi věrně napodobující hlas konkrétní osoby. Systém se nejprve učí z hlasových nahrávek, ze kterých si osvojí charakteristické rysy daného hlasu, jako je barva, intonace, tempo nebo rytmus řeči. Následně dokáže tímto klonovaným hlasem pronášet zcela nové věty, které daná osoba nikdy neřekla.
Riziko a možnosti zneužití klonovaného hlasu pro tvorbu deepfake videí jsou jasné - klonovaný hlas řekne to, co podvodník potřebuje, ale originálním hlasem konkrétní osoby na videu. Ve spojení s technologií Lip Sync pak tímto způsobem může vzniknout velmi propracované deepfake video, které je velmi těžké odhalit.
Jaké technologie stojí za Voice Cloningem
V oblasti klonování hlasu došlo v posledních letech k výraznému technologickému posunu. Zatímco dřívější systémy pracovaly s jednoduššími modely (např. rekurentními neuronovými sítěmi - RNN), moderní voice cloning je dnes založen na pokročilých generativních architekturách, které dokáží vytvářet velmi realistický mluvený projev i z krátkých hlasových ukázek.
Významnou roli dnes hrají zejména transformerové modely a v některých systémech také difuzní přístupy, které dokáží analyzovat a generovat řeč jako celek, nikoliv pouze po jednotlivých časových krocích. Díky tomu přesně zachycují jemné nuance lidského hlasu, včetně rytmu řeči, důrazu, pauz nebo emočního zabarvení. Tyto modely se učí z hlasových nahrávek charakteristické rysy konkrétní osoby a následně jsou schopny generovat nový mluvený projev, který zní velmi věrohodně a přirozeně.
Klíčovou součástí voice cloningu jsou také moderní Text-to-Speech (TTS) systémy, které převádějí psaný text na mluvené slovo. Na rozdíl od starších syntetických hlasů dnes TTS technologie dokáží produkovat plynulou řeč s přirozenou intonací a tempem, přičemž některé systémy umožňují i omezené modelování emočního projevu. V kombinaci s hlasovým modelem konkrétní osoby pak umožňují číst libovolný text hlasem, který zní jako skutečný člověk, a právě tato schopnost činí voice cloning tak přesvědčivým – a zároveň rizikovým z hlediska zneužití.
Voice Cloning vs syntetický hlas
Klonování hlasu není jediným způsobem, kterým je možné vytvořit hlas. Alternativu představuje tzv. syntetický hlas. Zatímco voice cloning se snaží napodobit konkrétního člověka, syntetické hlasy žádnou reálnou osobu nekopírují.
Vznikají totiž trénováním umělé inteligence na velkém množství různých hlasových nahrávek, ze kterých systém následně poskládá nový, univerzální hlas.Ten pak lze flexibilně přizpůsobit tónu, stylu nebo emocím a použít ve velkém měřítku, například pro automatizované služby. Oproti tomu je tedy voice cloning specifičtější a osobnější – a právě proto i citlivější z hlediska bezpečnosti a zneužití v deepfake videích.
Příklady pozitivního využití
Přestože jsou technologie Deep Fake, Face Swap, Lip Sync a Voice Cloning nejčastěji spojovány s riziky a zneužitím, existuje celá řada legitimních a přínosných oblastí, kde nacházejí uplatnění.
Film, televize a počítačové hry
Technologie deep fake, face swap a lip sync se využívají při tvorbě vizuálních efektů, digitálním omlazování herců, dabingu nebo lokalizaci obsahu do jiných jazyků. Ve hrách umožňují vytvářet realistické postavy s přirozenými pohyby obličeje a synchronizací řeči.
Vzdělávání
Pomocí umělé inteligence lze vytvářet realistické rekonstrukce historických osobností, které mohou promlouvat k studentům či návštěvníkům muzeí. Tyto technologie se uplatňují také při tvorbě virtuálních průvodců, interaktivních výstav či vzdělávacích videí.
Deep fake a voice cloning lze také využít při digitalizaci a rekonstrukci historických nahrávek, filmů nebo rozhlasových záznamů. Umožňují obnovit poškozený materiál, doplnit chybějící části nebo zachovat hlas a podobu významných osobností pro budoucí generace – typicky v archivech, knihovnách a paměťových institucích.
Marketing
Realisticky generovaná videa umožňují personalizovanou komunikaci se zákazníky, tvorbu realistických marketingových kampaní či jednotný vizuální styl napříč různými trhy a jazyky, bez nutnosti opakovaného natáčení.
Zákaznická podpora a školení
Firmy mohou zase využívat realistické AI avatary nebo klonované hlasy pro zákaznickou podporu. Výhodou je konzistentní tón komunikace, možnost rychlé aktualizace obsahu a dostupnost 24/7, aniž by bylo nutné znovu natáčet videa nebo školit nové prezentující.
Kombinace voice cloningu a lip syncu také umožňuje překlad a lokalizaci obsahu tak, že výsledné video působí přirozeně – mluvčí „mluví“ cílovým jazykem, zachovává však mimiku i styl projevu. To je přínosné nejen pro marketing, ale i pro vzdělávací kurzy, firemní školení nebo veřejné informační kampaně.
Zdravotnictví
Voice cloning může pomoci lidem, kteří přišli o hlas v důsledku nemoci nebo úrazu. Na základě dřívějších nahrávek je možné vytvořit hlas, který zachovává jejich osobní projev a umožňuje jim opět komunikovat. Text-to-speech technologie se zase často používá při předčítání článků, což zpřístupní psaný text lidem s dyslexií či zrakovým postižením.
V kontrolovaném prostředí lze technologie využít i k nácviku sociálních situací – například u lidí se sociální úzkostí, poruchami komunikace nebo autismem. Virtuální postavy s realistickými reakcemi umožňují bezpečný trénink rozhovorů, prezentací či krizových situací.
Jaká jsou hlavní rizika
S rostoucí dostupností technologií Deep Fake, Face Swap či Voice Cloning se však výrazně zvyšuje i riziko jejich zneužití.
Krádež identity
Útočníci mohou pomocí deepfake videí nebo klonovaného hlasu napodobit konkrétní osobu a vydávat se za ni při komunikaci se zaměstnanci, obchodními partnery či zákazníky, což může vést k neoprávněnému přístupu k informacím, systémům či prostředkům (např. v rámci průmyslové špionáže).