テキストプロンプトから音楽を生成できるモデル (Stable Audio Open)

Stable Audio Open 1.0は、リアルなボーカルは生成できませんが最大47秒間の可変長ステレオオーディオを44.1kHzで生成できます。ローカル環境でのインストールと生成を試してみてください。

実行環境

OS	Windows11 23H2
stable-audio-tools	7311840dc3ffb69c9134f83483daa1402ec452e3

インストール前に必要なソフトがあります。

Gitは分散型バージョン管理システムで、GitHubのリポジトリ管理に使用されます。

condaを使用して、仮想環境を作成します。

Stable Audio Toolsをインストールします。Anaconda Prompt (miniconda3)を開いてください。

リポジトリ

リポジトリをクローン

git clone https://github.com/Stability-AI/stable-audio-tools.git

ディレクトリ移動

cd stable-audio-tools

仮想環境を作成

conda create -n stable-audio-tools python=3.10

仮想環境をアクティブ化

conda activate stable-audio-tools

PyTorchをインストール

pip install torch==2.3.0 torchvision==0.18.0 torchaudio==2.3.0 --index-url https://download.pytorch.org/whl/cu118

パッケージをインストール

pip install .

Stable Audio Openのモデルをダウンロードします。

Hugging Faceにログイン後、ライセンス規約に同意し連絡先情報を共有することでモデルにアクセスすることができます。

model.safetensorsとmodel_config.jsonをダウンロードします。ダウンロードした2つのファイルは、リポジトリにckptというフォルダを作成してその中に置いてください。

WebUIの起動

python .\run_gradio.py --ckpt-path .\ckpt\model.safetensors --model-config .\ckpt\model_config.json

このモデルは、音楽よりも効果音やフィールドレコーディングを生成する方が得意だそうです。以下はChatGPTに考えてもらったプロンプトで生成したサンプルになります。

クラシック音楽

波の音