Deepfake hudba napodobuje styl konkrétního umělce, včetně jeho hlasu. Jak je možné, že to zní tak reálně?
Po dlouhou dobu se hudba dokázala vyhýbat světu deepfakes, protože bylo jednoduše příliš komplikované syntetizovat něčí hlas. To vše se změnilo s pokrokem v technologii AI. Výsledkem jsou hlasové klony slavných umělců, které lze použít k produkci nových vokálních skladeb.
S tím, jak jsou nástroje umělé inteligence přístupnější pro průměrné lidi, je deepfake hudba stále větším problémem. Tady je, co to je a jak se to vytváří.
Evoluce Deepfake hudby
Když slyšíte svého oblíbeného umělce zpívat na Spotify nebo YouTube, stěží vás napadne, že by to mohlo být falešné, ale díky AI se to stalo skutečností. Vedle falešných obrázků a videí existuje také hluboce falešná hudba.
Nástroje umělé inteligence dokážou věrně reprodukovat zpěv člověka trénováním modelu umělé inteligence na zvukových ukázkách jeho hlasu. Vytvořeno fanoušky umělce nebo fanoušky technologie AI, více lidí se pokouší vytvořit vokální doppelgängery.
Lidé se snažili syntetizovat hlas pomocí počítače po celá léta, již v roce 1961, kdy byl IBM 7094 prvním počítačem, který zpíval. Můžete slyšet počítačově generovaný hlas zpívající Daisy Bell v klipu na YouTube a zkuste si představit, jak úžasný byl tento okamžik.
Rychlý posun vpřed do 21. století a technologie AI zlepšily kvalitu syntetizovaného hlasu a umožnil nám dělat věci, které většina z nás až dosud nepovažovala za možné, jako je klonování hlasů lidí.
Stačí se podívat na tento klip Roberta Nicksona, který proměňuje svůj hlas v umělce a rappera Kanye Westa. Sledování videa je zvláštní, opravdu to zní jako Kanye, ale je také nepříjemné se na to dívat. Bez přílišného přemýšlení o tom, jak by umělec mohl myslet nebo cítit, a bez dovolení by to mohlo být vnímáno jako přivlastňování si něčího hlasu.
Na rozdíl od počítačového ztvárnění Daisy Bell je vokální klonování AI schopno reprodukovat přesnou podobu něčí hlas, který zahrnuje všechny jemné rozdíly v zabarvení, které nám pomáhají identifikovat něčí jedinečný vokál profil. Nelicencovaná a dělaná bez povolení má však deepfake hudba několik vážných problémů, ke kterým se dostaneme později.
Jak vznikají Deepfake Songs
K vytváření deepfake skladeb se používají různé metody, ale mnoho z nich využívá technologii AI. Open-source projekty jako Projekt SoftVC VITS Singing Voice Conversion na GitHubu, například vyvinuli model umělé inteligence, který dělá to, co říká ve svém názvu: převádí zvukový vzorek na zpěv.
Tento model vezme existující zvukový soubor někoho, kdo zpívá, a převede ho na hlas někoho jiného. Věci jako texty a rytmus původního hlasu jsou zachovány, ale tón, zabarvení a osobní hlasové kvality jsou převedeny na hlas určený trénovací datovou sadou.
Mějte na paměti, že další části skladby mohou být stále vytvářeny ručně, například vytvářením beatů a melodií ve stejném stylu a žánru jako původní interpret.
Aby bylo možné vytvořit hluboký faleš hlasu Kanye Westa, musel být do modelu SoftVC VITS vložen datový soubor třetí strany, který by zahrnoval vzorky skutečného Kanyeho hlasu. Soubor obsahující datovou sadu byl mezitím odstraněn autorem, což není překvapivé vzhledem k temnému právnímu území, které může přijít s neautorizovanými datovými soubory.
I když to nebylo přeměněno na komerční aplikaci, můžete najít verzi Model SoftVC VITS na Google Collab která je uživatelsky přívětivější.
Dokud nebudou zavedeny etické a právní hranice, je možné, že bude existovat více snadno použitelných aplikací pro klonování hlasu. vyskakovací – příliš se neliší od aplikace Drayk.it, která změnila textový popis na skladby stylizované podle interpreta Kačer. Později byla vypnuta.
Některé další nástroje, které se používají k vytváření deepfake hudby, zahrnují velké jazykové modely jako ChatGPT, pomocí kterého lze psát texty ve stylu slavného umělce; a Jukebox OpenAI a MusicLM společnosti Google, což jsou generativní modely umělé inteligence, které dokážou vytvořit hudbu v surové zvukové podobě zcela od začátku.
Slyšíte ten rozdíl?
Skladba vytvořená anonymním uživatelem jménem Ghostwriter se stala virální na TikTok v dubnu 2023, v nemalé míře proto, že obsahovala texty zpívané umělci Drake a The Weeknd. Samozřejmě to nebyly skutečné hlasy umělců, ale falešné.
Kdyby vokály nebyly tak dobrou kopií originálu, možná by to nebyl hit. S trochou rýpání jste mohli docela rychle zjistit, jestli to bylo skutečné nebo ne, ale jen pomocí uší jste mohli jen hádat, zda je to autentické.
Pokud chceš identifikovat obrázek generovaný AI existuje alespoň několik vizuálních aberací, které byste mohli hledat. Pokud jde o zvuk, znaky jako zvuk s nízkou věrností nebo závady ve stopě mnoho neznamenají, protože se jedná o kreativní možnosti, které se v hudební produkci neustále používají.
Ještě zajímavější je, že mnoha lidem se píseň opravdu líbí, i když zjistili, že to nebyly skutečné hlasy Drakea nebo The Weeknda. Obdivovatelé poukázali na to, že ne všechno bylo jednoduše generováno pomocí AI a že psaní textů, skládání beatů a sestavování celé věci dohromady dalo opravdovou dovednost a práci.
Skladba se dostala na Spotify a YouTube, než byla v následujících dnech stažena, ale ne dříve, než si ji fanoušci stáhli jako mp3. Kopie písně stále můžete najít online, pokud vyhledáte „Heart On My Sleeve, Drake ft. Víkend".
Brzy bude téměř nemožné rozpoznat rozdíl mezi vokálními klony generovanými umělou inteligencí a skutečným lidským hlasem. S ohledem na to se lidé ptají, zda se jedná o dobré využití technologie AI v první řadě, nebo dokonce o její legální použití.
Problémy s Deepfake Music
Na jedné straně lidé rádi poslouchají fanouškovské mashupy svých oblíbených umělců a respektují kreativitu, která je nezbytná pro jejich realizaci. Ale schopnost mít vokální klony v první řadě závisí na souborech dat, které mohou nebo nemusí být autorizovány.
Bez povolení se vzorky hlasu osoby shromažďují do datové sady, která se pak používá k trénování modelu převodu hlasu AI. Je to podobné jako problém, kterému čelí umělci, kteří chtějí odstranit své obrázky z tréninkových datových sad které se používají k trénování generátorů obrázků AI, jako je Dall-E nebo Midjourney.
Ani autorské právo není zcela připraveno řešit deepfake hudbu. V roce 2020 se umělci Jay-Z nepodařilo donutit YouTube, aby stáhlo zvuk rapu vytvořený umělou inteligencí z monologu Williama Shakespeara „Být či nebýt“.
Když je na Spotify nebo YouTube nahrána deepfake píseň, je tu také otázka, kdo vydělává peníze. Měli byste být schopni vydělat peníze na písni, která téměř přesně kopíruje hlas někoho jiného?
Holly Herndonová je jedna umělkyně, která se pokusila vytvořit systém pro lidi, kteří by ji kompenzovali výměnou za použití jejího hlasového modelu k vytvoření originálního díla. Zatímco jiní umělci jako Nick Cave ano vystoupil proti AI, psaní:
Písně vznikají z utrpení, čímž myslím, že jsou založeny na složitém, vnitřním lidském boji o stvoření, a pokud vím, algoritmy necítí.
Někdy, Text generovaný umělou inteligencí může postrádat kreativitu přesto jsou stále zveřejňovány online. Umělá inteligence by mohla mít za následek spoustu špatné hudby, na kterou bylo vynaloženo velmi málo úsilí.
Nalezení rovnováhy mezi hudbou a umělou inteligencí
Deepfake hudba je vytvářena pomocí nástrojů AI a modelů AI, které byly trénovány na neautorizovaných souborech dat. Některé modely jsou open-source a volně přístupné, zatímco jiné byly učiněny pokusy zabalit je do uživatelsky přívětivé aplikace.
Jak stále více lidí dostává do rukou deepfake hudební modely nebo aplikace, stojí za to přemýšlet o dopadu na umělce. Získání souhlasu pro tréninkové datové sady a kompenzace pro umělce jsou jen některé z problémů, které se rýsují nad hudební technologií AI.