AudioCraftをインストールしてAIモデルによるオーディオ生成を試す

音声機器 音声合成

AudiocraftのインストールとMusicGenを使ったオーディオ生成を紹介します。

AudioCraftとは

AudioCraftでは、高品質なオーディオを生成することができる複数のAI生成モデルを利用できます。グラフィックボードはVRAM16GBが推奨していますがより小さいVRAMでも生成できるようです。今回の実行環境はWindows11、NVIDIAグラフィックボード VRAM8GBになります。

ソフトウェア要件

インストールする前に必要なソフトがあります。

Git

GitHubからリポジトリをクローンするのに使います。

Git

Git ダウンロード

64-bit Git for Windows Setup.をダウンロードしてインストールしてください。

Miniconda

conda(パッケージ管理ツール)を使いたいのでMinicondaをインストールします。こちらにはPythonも含まれています。

Latest Miniconda Windows installers

Miniconda3 Windows 64-bitをダウンロードしてください。

Miniconda Insatllation Options

installersを起動してインストールを進めていくのですが、途中のオプションでAdd Miniconda3 to my PATH environment variableにチェックを入れてください。

インストール

ここからはコマンドプロンプトを使ってのインストール作業になります。コマンドプロンプトを開いたら次のコマンドを順番に実行していってください。インストール途中にProceed ([y]/n)?と続行するか聞かれる場合があります。そのままenterを押して進めてください。

インストールしたいフォルダに移動する(今回はCドライブ直下)

cd C:\

GitHubのリポジトリをクローンする

git clone https://github.com/facebookresearch/audiocraft.git

フォルダ移動

cd audiocraft

仮想環境を作成(Python 3.9 仮想環境の名前はacとした)

conda create -n ac python=3.9

仮想環境をアクティブ化

conda activate ac

PyTorchをインストール(PyTorch2.1.0 CUDA対応バージョン12.1)

conda install pytorch==2.1.0 torchvision==0.16.0 torchaudio==2.1.0 pytorch-cuda=12.1 -c pytorch -c nvidia

ffmpegをインストール

conda install -c conda-forge ffmpeg

AudioCraftをインストール

pip install audiocraft

Gradio Web UIの起動

Colabやjupyter notebookでも利用できますがGradio Web UIの方法を紹介します。

MusicGen起動

コマンドプロンプトを起動してください。

インストールディレクトリへ移動(自身のインストール先フォルダのパス)

cd C:\audiocraft

仮想環境をアクティブ化

conda activate ac

MusicGen起動

python -m demos.musicgen_app --share

Webブラウザでhttp://127.0.0.1:7860を開く

MAGNeT起動

インストールディレクトリへ移動(自身のインストール先フォルダのパス)

cd C:\audiocraft

仮想環境をアクティブ化

conda activate ac

MAGNeT起動

python -m demos.magnet_app --share

Webブラウザでhttp://127.0.0.1:7860を開く

MusicGenの使い方

MusicGenはテキストの説明やメロディーの特徴を条件付けし高品質な音楽生成ができます。

AudioCraft 使い方
  • Input Text(生成したい曲のジャンルや楽器などを英語で入力。ChatGPTに考てもらうのもおすすめ)
  • Model(モノラルとステレオ、small, medium, largeは大きいほど品質が上がるがVRAMを使う、melodyはファイルをアップロードして条件付けできる。初めて使うモデルはC:\ユーザー\ユーザーネーム\.cache\huggingface\hubにダウンロードされます)
  • Decoder(デコード方法でMultiBand_Diffusionは余分な計算コストがかかるが音質は向上するようです。MultiBand_Diffusionを選択するとデフォルトと両方出力します)
  • Duration(生成曲の時間。比例して生成時間も長くなる)
  • Submit(曲の生成を開始する)

MAGNeTの使い方

MAGNeTはテキストから音楽へ、テキストから音へ変換するモデルであり、テキストの説明を条件として高品質のオーディオサンプルを生成することができます。

MAGNeT 使い方

MusicGenとほとんど同じUIです。モデルには音楽生成と効果音生成があります。下にテキストサンプルもあるのでいろいろ試してみてください。

タイトルとURLをコピーしました