AudiocraftのインストールとMusicGenを使ったオーディオ生成を紹介します。
AudioCraftとは
AudioCraftでは、高品質なオーディオを生成することができる複数のAI生成モデルを利用できます。グラフィックボードはVRAM16GBが推奨していますがより小さいVRAMでも生成できるようです。今回の実行環境はWindows11、NVIDIAグラフィックボード VRAM8GBになります。
ソフトウェア要件
インストール前に必要なソフトがあります。
Git
Gitは分散型バージョン管理システムで、GitHubのリポジトリ管理に使用されます。
Miniconda
condaを使用して、仮想環境を作成します。
FFmpeg
音声・動画の処理を行うツールです。
インストール
Anaconda Prompt (miniconda3)を開きます。
リポジトリをクローン
git clone https://github.com/facebookresearch/audiocraft.git
ディレクトリ移動
cd audiocraft
仮想環境を作成(Python 3.9 仮想環境の名前はacとした)
conda create -n ac python=3.9
仮想環境をアクティブ化
conda activate ac
PyTorchをインストール(PyTorch2.1.0 CUDA対応バージョン12.1)
pip install torch==2.1.0 torchvision==0.16.0 torchaudio==2.1.0 --index-url https://download.pytorch.org/whl/cu121
AudioCraftをインストール
pip install audiocraft
Gradio Web UIの起動
Colabやjupyter notebookでも利用できますがGradio Web UIの方法を紹介します。
MusicGen起動
コマンドプロンプトを起動してください。
インストールディレクトリへ移動(自身のインストール先フォルダのパス)
cd C:\audiocraft
仮想環境をアクティブ化
conda activate ac
MusicGen起動
python -m demos.musicgen_app --share
Webブラウザでhttp://127.0.0.1:7860を開く
MAGNeT起動
インストールディレクトリへ移動(自身のインストール先フォルダのパス)
cd C:\audiocraft
仮想環境をアクティブ化
conda activate ac
MAGNeT起動
python -m demos.magnet_app --share
Webブラウザでhttp://127.0.0.1:7860を開く
MusicGenの使い方
MusicGenはテキストの説明やメロディーの特徴を条件付けし高品質な音楽生成ができます。

- Input Text(生成したい曲のジャンルや楽器などを英語で入力。ChatGPTに考てもらうのもおすすめ)
- Model(モノラルとステレオ、small, medium, largeは大きいほど品質が上がるがVRAMを使う、melodyはファイルをアップロードして条件付けできる。初めて使うモデルはC:\ユーザー\ユーザーネーム\.cache\huggingface\hubにダウンロードされます)
- Decoder(デコード方法でMultiBand_Diffusionは余分な計算コストがかかるが音質は向上するようです。MultiBand_Diffusionを選択するとデフォルトと両方出力します)
- Duration(生成曲の時間。比例して生成時間も長くなる)
- Submit(曲の生成を開始する)
MAGNeTの使い方
MAGNeTはテキストから音楽へ、テキストから音へ変換するモデルであり、テキストの説明を条件として高品質のオーディオサンプルを生成することができます。

MusicGenとほとんど同じUIです。モデルには音楽生成と効果音生成があります。下にテキストサンプルもあるのでいろいろ試してみてください。