テキストプロンプトから音楽を生成できるモデル (Stable Audio Open)

Stable Audio Open AIツール

Stable Audio Open 1.0は、リアルなボーカルは生成できませんが最大47秒間の可変長ステレオオーディオを44.1kHzで生成できます。ローカル環境でのインストールと生成を試してみてください。

実行環境

OSWindows11 23H2
stable-audio-tools7311840dc3ffb69c9134f83483daa1402ec452e3

ソフトウェア要件

インストールする前に必要なソフトがあります。

Git

Gitは分散型バージョン管理システムです。GitHubのリポジトリ管理に使用します。

Miniconda

conda(パッケージ管理ツール)を使用するのでMinicondaをインストールします。こちらにはPythonも含まれています。

インストール

Stable Audio Toolsをインストールします。Anaconda Prompt (miniconda3)を開いてください。

リポジトリをクローン

git clone https://github.com/Stability-AI/stable-audio-tools.git

ディレクトリ移動

cd stable-audio-tools

仮想環境を作成

conda create -n stable-audio-tools python=3.10

仮想環境をアクティブ化

conda activate stable-audio-tools

PyTorchをインストール

pip install torch==2.3.0 torchvision==0.18.0 torchaudio==2.3.0 --index-url https://download.pytorch.org/whl/cu118

パッケージをインストール

pip install .

モデルのダウンロード

Stable Audio Openのモデルをダウンロードします。

Hugging Face ログイン
Hugging Face ライセンス規約

Hugging Faceにログイン後、ライセンス規約に同意し連絡先情報を共有することでモデルにアクセスすることができます。

Hugging Face stable audio open ダウンロード

model.safetensorsmodel_config.jsonをダウンロードします。ダウンロードした2つのファイルは、リポジトリにckptというフォルダを作成してその中に置いてください。

推論

WebUIの起動

python .\run_gradio.py --ckpt-path .\ckpt\model.safetensors --model-config .\ckpt\model_config.json

http://127.0.0.1:7860/を開く

Stable Audio Tools Gradio

このモデルは、音楽よりも効果音やフィールドレコーディングを生成する方が得意だそうです。以下はChatGPTに考えてもらったプロンプトで生成したサンプルになります。

クラシック音楽
波の音
タイトルとURLをコピーしました