AudioCraftをインストールしてAIモデルによるオーディオ生成を試す

AudiocraftのインストールとMusicGenを使ったオーディオ生成を紹介します。

AudioCraftとは

AudioCraftでは、高品質なオーディオを生成することができる複数のAI生成モデルを利用できます。グラフィックボードはVRAM16GBが推奨していますがより小さいVRAMでも生成できるようです。今回の実行環境はWindows11、NVIDIAグラフィックボード VRAM8GBになります。

インストール前に必要なソフトがあります。

Gitは分散型バージョン管理システムで、GitHubのリポジトリ管理に使用されます。

condaを使用して、仮想環境を作成します。

音声・動画の処理を行うツールです。

Anaconda Prompt (miniconda3)を開きます。

リポジトリをクローン

git clone https://github.com/facebookresearch/audiocraft.git

ディレクトリ移動

cd audiocraft

仮想環境を作成（Python 3.9 仮想環境の名前はacとした）

conda create -n ac python=3.9

仮想環境をアクティブ化

conda activate ac

PyTorchをインストール（PyTorch2.1.0 CUDA対応バージョン12.1）

pip install torch==2.1.0 torchvision==0.16.0 torchaudio==2.1.0 --index-url https://download.pytorch.org/whl/cu121

AudioCraftをインストール

pip install audiocraft

Colabやjupyter notebookでも利用できますがGradio Web UIの方法を紹介します。

コマンドプロンプトを起動してください。

インストールディレクトリへ移動（自身のインストール先フォルダのパス）

cd C:\audiocraft

仮想環境をアクティブ化

conda activate ac

MusicGen起動

python -m demos.musicgen_app --share

Webブラウザでhttp://127.0.0.1:7860を開く

インストールディレクトリへ移動（自身のインストール先フォルダのパス）

cd C:\audiocraft

仮想環境をアクティブ化

conda activate ac

MAGNeT起動

python -m demos.magnet_app --share

Webブラウザでhttp://127.0.0.1:7860を開く

MusicGenはテキストの説明やメロディーの特徴を条件付けし高品質な音楽生成ができます。

Input Text（生成したい曲のジャンルや楽器などを英語で入力。ChatGPTに考てもらうのもおすすめ）
Model（モノラルとステレオ、small, medium, largeは大きいほど品質が上がるがVRAMを使う、melodyはファイルをアップロードして条件付けできる。初めて使うモデルはC:\ユーザー\ユーザーネーム\.cache\huggingface\hubにダウンロードされます）
Decoder（デコード方法でMultiBand_Diffusionは余分な計算コストがかかるが音質は向上するようです。MultiBand_Diffusionを選択するとデフォルトと両方出力します）
Duration（生成曲の時間。比例して生成時間も長くなる）
Submit（曲の生成を開始する）