Google vytvořil umělou inteligenci, která umí generovat hudbu z textových vstupů

OnlyForMen

3 roky ago

Nový působivý systém umělé inteligence společnosti Google dokáže na základě textového popisu vygenerovat hudbu libovolného žánru. Společnost však z obav před riziky neplánuje jeho okamžité zveřejnění. Informoval o tom server TechCrunch a Ars Technica.

Systém umělé inteligence společnosti Google se nazývá MusicLM a není prvním takovým nástrojem pro generování skladeb. Existují i další pokusy, včetně Riffusion, Dance Diffusion, AudioML také společnosti Google a Jukebox společnosti OpenAI. Kvůli technickým omezením a omezeným tréninkovým datům však žádná z nich nedokázala vytvořit skladby s obzvláště složitou kompozicí nebo vysokou věrností. A to se možná příchodem MusicLM změní.

Google created an AI that can generate music from text descriptions, but won’t release it https://t.co/v67rKIxpVa by @kyle_l_wiggers

— TechCrunch (@TechCrunch) January 27, 2023

Jak je podrobně popsáno ve vědeckém článku, MusicLM používá model umělé inteligence vycvičený na základě toho, co Google nazývá „velkou sadou neoznačené hudby“, spolu s popisky z MusicCaps. MusicCaps získává textové popisy od lidských expertů a odpovídající zvukové klipy ze sady AudioSet společnosti Google. Jedná se o kolekci více než 2 milionů označených 10sekundových zvukových klipů získaných z videí na YouTube.

AI Systém se naučil generovat souvislé skladby na základě textových vstupů, které jsou podle tvůrců „značně složité“. Jako příklad uvedli „okouzlující jazzová píseň s nezapomenutelným saxofonovým sólem a sólovým zpěvákem“ nebo „berlínské techno 90. let s nízkou basou a silným kopákem“. Vygenerované písně pozoruhodně znějí realisticky. Jsou podobné tomu, co by mohl složit lidský umělec, i když ne nutně tak vynalézavě a hudebně soudržně.

Jak uvedl server Ars Technica, MusicLM pracuje ve dvou hlavních částech. Nejprve v tréninku vezme posloupnost zvukových tokenů a přiřadí je k sémantickým tokenům (slovům, která představují význam). Druhá část přijímá uživatelský vstup a/nebo zvuk a generuje akustické tokeny (kousky zvuku, které tvoří výsledný výstup písně). Systém se opírá o starší model umělé inteligence nazvaný AudioLM (představený společností Google v září) spolu s dalšími komponentami, jako jsou SoundStream a MuLan.

Schéma generování hudby. Foto: Google

Zatím nejlepší generátor hudby

Společnost Google tvrdí, že MusicLM překonává předchozí generátory hudby s umělou inteligencí v kvalitě zvuku a dodržování textových popisů. Na své stránce uvádí Google řadu příkladů AI v akci, který vytváří zvuk z „bohatých popisků“ popisujících pocit z hudby. Umělá inteligence dokonce umí generovat i vokály, které jsou zatím ale jen bláboly.

MusicLM má tendenci zahrnovat do generovaných skladeb materiál chráněný autorskými právy z tréninkových dat. Během experimentu se zjistilo, že přibližně 1 % hudby, kterou systém vygeneroval, bylo přímo replikováno ze skladeb, na kterých byl systém vycvičen. Jedná se o jeden z důvodů, proč Google tento AI systém zatím nezveřejní.