Nástroje umělé inteligence v hudební produkci nejsou žádnou novinkou. Ale co hudba vytvořená od nuly pomocí AI? To je nyní také realita.
Generativní umělá inteligence se pomalu rozšiřuje do stále více oborů v kreativním průmyslu. Začalo to s generátory umění AI a pak se rozšířilo na psaní s textem generovaným AI. Nyní můžeme do tohoto seznamu přidat hudbu.
V blízké budoucnosti se hudba generovaná umělou inteligencí, vytvořená od nuly, stane realitou. Ve skutečnosti je to již možné s Jukeboxem, modelem umělé inteligence OpenAI pro tvorbu hudby. Zatím to není k dispozici ve snadno použitelné aplikaci a ještě to nezní dost dobře, ale algoritmické kosti tam jsou.
Zde je to, co potřebujete vědět o OpenAI Jukebox a co s ním můžete dělat.
Jukebox: AI, která generuje hudbu jako syrový zvuk
Jukebox je neuronová síť, která dokáže generovat hudbu v surové zvukové podobě, když jí dáte vstup, jako je žánr, umělec nebo text. V dubnu 2020 jej vydala OpenAI, stejná společnost, která nám přinesla generátor umění AI s názvem Dall-E a chatbota AI s názvem ChatGPT.
Na rozdíl od Dall-E, který se rychle rozšířil po celém světě a díky němuž se umělá inteligence stala vášnivým tématem zpráv a médií, nezaznamenal Jukebox po svém vydání velký zájem. Jedním z důvodů je, že nemá uživatelsky přívětivou webovou aplikaci – alespoň zatím.
Kód najdete na Web OpenAI, spolu s hloubkovým vysvětlením toho, jak funguje proces kódování a dekódování.
Dalším pravděpodobným důvodem je, že to vyžaduje obrovské množství času a výpočetního výkonu. Pro představu, pouhá minuta zvuku může trvat vykreslení 9 hodin. Budete potřebovat ochotu prozkoumat model v jeho kódové podobě a navíc hodně trpělivosti, pokud chcete vidět, co dokáže AI model udělat pro generování hudby.
Nebo můžete přeskočit na Jukebox Sample Explorer. Toto je místo, kde OpenAI zveřejnilo své experimenty s generováním skladeb v podobě Elly Fitzgerald nebo 2Paca.
aby bylo jasno, další hudební nástroje AI existují, aby vám pomohly vytvořit skladbu, ale nevytvářejí zvuk od začátku. Místo toho buď kombinují předem nahrané samply, nebo vytvářejí MIDI informace, které jsou vloženy do digitálního syntezátoru.
Jak zní Jukebox?
Výsledky Jukeboxu jsou rozpoznatelné, ale zvláštní. Není těžké pochopit tvar písně a žánr, do kterého patří, ale kvalitu výsledků zní to, jako byste poslouchali nějakou z nejstarších nahraných skladeb: to znamená tlumené spoustou hluk.
Dá se s jistotou říci, že Jukebox neprodukuje zvuk s vysokou věrností, který byste slyšeli z páru dobrých sluchátek. Je to spíše podobné poslechu hudby z rozhlasové stanice, která není plně naladěna na správnou frekvenci. Některé písně jsou předělané, zatímco jiné jsou pokračováním stávajících písní. K dispozici je také kategorie pro nové umělce a styly a neviditelné texty.
Navzdory kvalitě zvuku první experimentátoři popisují, jak je ohromila děsivá krása a bizarní povaha hudby vytvořené Jukeboxem. „Jako soundtrack k dokumentaci o neznámé zemi s neznámou kulturou,“ píše Merzmench na médiu.
V současné době nejsou výsledky zdaleka dost dobré na to, aby zkopírovaly nebo dokonce nahradily hudbu vytvořenou lidmi, ale technologie se rychle vyvíjí a modely jako Jukebox budou brzy schopny těchto výkonů dosáhnout také.
Jak byl trénován jukebox OpenAI
Součástí toho, jak Jukebox dokáže vytvořit hudbu, která nikdy předtím neexistovala, je to, že je trénován na hudbě skutečných hudebníků. OpenAI vysvětluje, že:
"Abychom tento model trénovali, prošli jsme web a vytvořili nový datový soubor 1,2 milionu skladeb (600 000 z nich je v angličtině), spárovaných s odpovídajícími texty a metadaty z LyricWiki."
Procházení dat je postup používaný některými společnostmi s umělou inteligencí k vytvoření sady dat, ze kterých se model AI může učit a rozhodovat se při generování obrázku, textu – nebo v tomto případě – hudby. Datové sady vytvořené procházením jsou kontroverzní, protože souhlas nezískáváte především od vlastníků dat. Ačkoli vám to některé platformy umožňují odhlásit svůj obsah z datových sad.
Možná si myslíte, že 1,2 milionu skladeb je hodně, ale pro srovnání, Dall-E 2 byl natrénován na stovkách milionů párů obrázků a textu z internetu. S ohledem na to má Jukebox svá omezení.
Jeho relativně malý tréninkový bazén nedokáže zachytit bohatství a rozmanitost lidské hudby. OpenAI uvedla, že je z velké části trénována na západní hudbě, což představuje jasnou předpojatost v tom, jakou hudbu je schopna generovat.
Co můžete dělat s Jukeboxem?
S ohledem na jeho omezení, co tedy můžete s Jukeboxem dělat? Rychlý způsob, jak odpovědět na tuto otázku, je říci, co nemůžete s Jukeboxem dělat.
Protože vykreslení jedné minuty hudby trvá téměř půl dne, není to pro produkci hudby příliš užitečné. Alespoň ne v tradičním slova smyslu. Normálně se hudebníci pohybují tam a zpět mezi hraním na nástroj (improvizací) a plánováním struktury písně. Stejný druh experimentování není možný s Jukeboxem.
Vzhledem k tomu, že v této fázi není snadné vytvořit skladbu pomocí Jukeboxu, můžete to považovat spíše za nový způsob generování hudebních ukázek. Jakmile vygenerujete zvuk, který se vám líbí, můžete jej použít ve svých kreativních projektech, jak byste to normálně dělali.
Video níže je výsledkem toho, že někdo použil hudbu vytvořenou pomocí Jukeboxu k podtržení krátkého sestřihového videa.
Umělá inteligence má širokou škálu aplikací i mimo kreativní aplikace, a proto stojí za to pochopení toho, co je AI a nebezpečí, která představuje.
Jste dojati AI Music?
Hudbu generovanou Jukeboxem není snadné odmítnout a přes všechnu svou podivnost a děsivou kvalitu člověk-stroj nakonec zní jako hudba. Zatímco hudební průmysl používá nástroje AI již nějakou dobu, možnost generovat hudbu jako surový zvuk je realitou teprve nyní.
Ale zatímco modely jako Jukebox existují, musí být ještě zabaleny do komerčního nástroje a stále zaostávají za schopnostmi lidských hudebníků.