MusicLM od Googlu se zdál slibný se svou schopností generovat hudbu z textových výzev. Ale poté, co to otestoval, to úplně nefungovalo.
V lednu 2023 Google oznámil MusicLM, experimentální nástroj AI, který by mohl generovat hudbu na základě textových popisů. Spolu s těmito novinkami Google vydal úžasný výzkumný dokument pro MusicLM, který nechal mnoho lidí oslněných schopností vykouzlit hudbu ze vzduchu.
Na základě textové výzvy model slíbil, že bude produkovat vysoce věrnou hudbu, která bude obsahovat nejrůznější popisy od žánru k nástroji až po abstraktní titulky popisující slavná umělecká díla. Nyní, když je MusicLM otevřena veřejnosti, rozhodli jsme se ji otestovat.
Pokus společnosti Google o vytvoření hudebního generátoru AI
Přeměna textové výzvy jako „relaxační jazz“ na skladbu připravenou k přehrání je pravděpodobně svatým grálem experimentů v hudbě AI. Podobně jako u slavných generátorů obrázků AI, jako je Dall-E nebo Midjourney, nepotřebujete mít ani špetku hudebního know-how, abyste vytvořili skladbu, která má melodii a rytmus.
V květnu 2023 si mohli ti, kteří se zaregistrovali do Google AI Test Kitchen, poprvé vyzkoušet demo. Vítá vás uživatelsky přívětivá webová stránka a několik hlavních pravidel – elektronických a klasických nástroje fungují nejlépe a nezapomeňte specifikovat „vibe“ – vytváření hudebního úryvku je nepředstavitelně snadné.
Rychlost je jednou z mála věcí, které MusicLM skutečně poskytuje, spolu s relativně vysoce věrnými vzorky. Skutečný test však neměl být měřen pouze stopkami. Dokáže MusicLM produkovat skutečnou, poslouchatelnou hudbu na základě několika slov? Ne tak docela (k tomu se dostaneme brzy).
Jak používat MusicLM v AI Test Kitchen společnosti Google
Používání MusicLM je snadné, můžete se přihlásit do pořadníku AI Test Kitchen společnosti Google jestli to chceš zkusit.
Ve webové aplikaci uvidíte textové pole, ve kterém můžete sestavit výzvu z několika slov do několika vět popisujících druh hudby, kterou chcete slyšet. Chcete-li dosáhnout nejlepších výsledků, Google vám doporučuje „buďte velmi popisní“ a dodává, že byste se měli snažit zahrnout náladu a emoce hudby.
Až budete připraveni, zahajte zpracování stisknutím klávesy Enter. Přibližně do 30 sekund vám budou k dispozici dva zvukové úryvky. Z těchto dvou máte možnost udělit trofej nejlepšímu vzorku, který odpovídá vaší výzvě, což Googlu zase pomáhá trénovat model a zlepšovat jeho výstup.
Jak zní MusicLM
Lidé dělali hudbu nejméně před 40 000 lety bez definitivní představy, zda hudba přišla před, po nebo ve stejné době jako vývoj jazyka. V některých ohledech tedy není překvapivé, že MusicLM tak úplně nerozluštila kód tohoto prastarého univerzálního umění.
Výzkumný dokument MusicLM společnosti Google navrhl, že MusicLM by mohl generovat hudbu z titulků patřících ke slavným uměleckým dílům a následovat pokyny, jako je plynulá změna žánru nebo nálady po řadě různých vyzve.
Než jsme se dostali k tak vysokým zakázkám, zjistili jsme, že MusicLM musí nejprve překonat několik zásadních problémů.
Obtížnost držet se tempa
Nejzákladnějším úkolem každého hudebníka je jednoduše hrát včas. Jinými slovy, držte se tempa. Překvapivě to není něco, co MusicLM dokáže 100% času.
Ve skutečnosti, při použití stejné výzvy 10krát, což produkuje 20 hudebních skladeb, byly včas pouze tři. Zbývajících 17 vzorků bylo rychlejších nebo pomalejších než specifikované tempo, které bylo napsáno v „úderech za minutu“, což je široce používaný termín pro popis hudby.
V tomto příkladu jsme použili výzvu „sólové klasické piano hrané rychlostí 80 úderů za minutu, klidné a meditativní“. Při bližším poslechu se hudba v rámci malé délky ukázky často zrychlila nebo zpomalila.
Hudbě také chyběl silný rytmus a zněla, jako by někdo v polovině skladby praštil do hry. Ať už to bylo úmyslné nebo ne, je těžké posoudit, zda MusicLM skutečně dokáže skládat správný začátek nebo konec hudebního díla a držet se rytmu.
Náhodný výběr nástroje
MusicLM se možná ještě nenaučili hrát v přísném načasování, takže jsme přešli k dalšímu běžnému hudebnímu parametru. Chtěli jsme zjistit, zda vyhoví naší žádosti o určité nástroje.
Napsali jsme několik různých výzev, které obsahovaly popisy jako "Sólový syntezátor" a "Sólová basová kytara". Jiné byly větší soubory jako „String quartet“ nebo „Jazz band“. Celkově to vypadalo jako šance 50:50, že dostanete to, o co jste požádali.
Jedna z teorií je, že model spojuje některé nástroje s populárními hudebními žánry. Vezměte si například výzvu „Sólový syntezátor, progrese akordů. Živý a optimistický“. Namísto vlastního syntezátorového zvuku vytvořil MusicLM elektronickou skladbu s bicími a basou.
Je možné, že model prostě nemá dostatek dat a dostatek školení, aby porozuměl konkrétnímu požadavku na nástroj.
Vokály jsou mimo rovnici
Podle tehdejších omezení by modelka neprodukovala hudbu obsahující vokály. Ožehavé problémy s autorskými právy MusicLM a buggy vokály je pravděpodobným faktorem, proč se Google rozhodl hrát na jistotu nastavením tohoto omezení.
Po nějaké době experimentování s MusicLM jsme si ale uvědomili, že kontrola Googlu nad výstupem modelu nebyla zrovna železná. Kupodivu by výzva jako „akustická kytara“ vytvořila skladbu, která v pozadí obsahovala přízračné vokály, které zněly tlumeně a vzdáleně.
I když to není běžný jev, necháte vás přemýšlet o schopnosti MusicLM vytvářet přesvědčivé vokály na prvním místě.
Se softwarem jako VOCALOID a Synthesizer V, který vede cestu dovnitř Technologie vokální syntézy za pomoci umělé inteligence, vynechání vokálů ze současného modelu nás nutí přemýšlet, zda ještě není dost dobrý, aby mohl konkurovat stávající technologii. MusicLM může mít před sebou ještě dlouhou cestu, než budou hudebníci zpívat chválu.
Budoucnost hudebních generátorů AI
I když MusicLM posunula generativní hudební technologii AI kupředu, musí se vrátit do školy a naučit se pár dalších věcí, než se bude moci věnovat praktické práci v hudebním průmyslu.
Doposud byl nejlepším pokusem o generativní hudbu AI model nazvaný JukeboxAI od OpenAI. Nebyl zrovna ve stavu připraveném k použití a vykreslení pouhé jedné minuty hudby trvalo neuvěřitelných devět hodin.
Za své úsilí se vám pravděpodobně vrátí skutečně mimozemsky znějící skladba plná zkreslení zvuku a artefaktů. Na druhou stranu, nebudete se nudit poslouchat bizarní výtvory, které Jukebox kouzlí.
Ve světle toho MusicLM učinila několik významných pokroků směrem k uživatelsky přívětivému hudebnímu generátoru AI. Mohli bychom modelu téměř odpustit jeho náhodné výstupy, když se zamyslíte nad tím, jak nesmírně komplikované je generovat hudbu v surové audio podobě.
Po uvedení modelu do provozu se však MusicLM cítí nedodělaný ve srovnání s tím, co Google zveřejnil ve svém prvním výzkumu. Zřídkakdy se generátoru AI obrázků špatně zobrazuje obrázek Applu, stejně tak hudební generátor AI by měl mít v pořádku několik základních věcí, jako je tempo a nástroje.
Google MusicLM nesplňuje očekávání
S technologickými společnostmi, které se předhánějí ve vzájemné konkurenci na frontě umělé inteligence, má MusicLM pocit, jako by vstoupila do veřejných zkoušek dříve, než byla připravena. Namísto toho, aby byly základy správné, se zdá, že model zaujímá mnohem vágnější a subjektivnější přístup k produkci hudby.
Google vás může povzbudit, abyste byli ve výzvě konkrétní, ale nezvládá dobře tempo a není zaručeno, že pokaždé dostanete nástroje, o které jste žádali. MusicLM může být zajímavé a dobrá ukázka výkonných pokroků AI, ale pokud je hudba konečným cílem, má před sebou ještě dlouhou cestu.