Výzkumný tým Audiocraft společnosti Meta právě vydal MusicGen, open source jazykový model, který dokáže generovat novou hudbu na základě textových podnětů. Informoval o tom server Engadget a The Decoder.
Jako většina dnešních jazykových modelů je i MusicGen založen na modelu Transformer. Stejně jako jazykové modely předpovídají další znak ve větě, MusicGen předpovídá další část hudební skladby. MusicGen funguje jako ChatGPT pro zvuk, umožňuje popsat požadovaný styl hudby a také volitelně vložit existující melodii, kterou má napodobit. Po pár minutách generování vyplivne krátkou skladbu zcela nové hudby na základě vašich textových pokynů a melodie. V ukázce na webu je uvedeno několik příkladů jako „veselá country píseň s akustickými kytarami“ nebo „rocková píseň z 90. let s elektrickou kytarou a těžkými bicími“.
We present MusicGen: A simple and controllable music generation model. MusicGen can be prompted by both text and melody.
We release code (MIT) and models (CC-BY NC) for open research, reproducibility, and for the music community: https://t.co/OkYjL4xDN7 pic.twitter.com/h1l4LGzYgf— Felix Kreuk (@FelixKreuk) June 9, 2023
Zvuková data jsou rozložena na menší složky pomocí tokenizéru zvuku EnCodec společnosti Meta. Jedná se o tzv. „single-stage model“, který zpracovává tokeny paralelně. MusicGen je tedy rychlý a efektivní. Tým použil k tréninku 20 000 hodin licencované hudby. Konkrétně se opírali o interní datovou sadu 10 000 vysoce kvalitních hudebních skladeb a také o hudební data od společností Shutterstock a Pond5.
Lepší než konkurence
Nedávno vydala společnost Google podobný generátor hudby s názvem MusicLM. Zdá se ale, že MusicGen generuje o něco lepší výsledky. Výzkumníci porovnali výstupy MusicGen s MusicLM a dvěma dalšími modely, Riffusion a Musai. „MusicGen dosahuje lepších výsledků v objektivních i subjektivních ukazatelích, které testují, jak dobře hudba odpovídá textu a jak věrohodná je skladba.“ uvedl server The Decoder.
Uživatelé si mohou MusicGen vyzkoušet prostřednictvím webové aplikace Hugging Face. Generování hudby může trvat nějakou dobu v závislosti na tom, kolik uživatelů používá stránku najednou. Pro mnohem rychlejší výstupy si můžete vytvořit vlastní instanci modelu. V opačném případě si můžete stáhnout kód a spustit jej lokálně, pokud máte know-how a platformu, která to podporuje. Doporučuje se grafický procesor s alespoň 16 GB VRAM. Model je k dispozici ve čtyřech velikostech, od malého (300 milionů parametrů) po velký (3,3 miliardy parametrů) – přičemž poslední jmenovaný má největší potenciál pro tvorbu složité hudby.