Stable Audio Open 1.0は、リアルなボーカルは生成できませんが最大47秒間の可変長ステレオオーディオを44.1kHzで生成できます。ローカル環境でのインストールと生成を試してみてください。
実行環境
OS | Windows11 23H2 |
stable-audio-tools | 7311840dc3ffb69c9134f83483daa1402ec452e3 |
ソフトウェア要件
インストールする前に必要なソフトがあります。
Git
Gitは分散型バージョン管理システムです。GitHubのリポジトリ管理に使用します。
Miniconda
conda(パッケージ管理ツール)を使用するのでMinicondaをインストールします。こちらにはPythonも含まれています。
インストール
Stable Audio Toolsをインストールします。Anaconda Prompt (miniconda3)を開いてください。
リポジトリをクローン
git clone https://github.com/Stability-AI/stable-audio-tools.git
ディレクトリ移動
cd stable-audio-tools
仮想環境を作成
conda create -n stable-audio-tools python=3.10
仮想環境をアクティブ化
conda activate stable-audio-tools
PyTorchをインストール
pip install torch==2.3.0 torchvision==0.18.0 torchaudio==2.3.0 --index-url https://download.pytorch.org/whl/cu118
パッケージをインストール
pip install .
モデルのダウンロード
Stable Audio Openのモデルをダウンロードします。
Hugging Faceにログイン後、ライセンス規約に同意し連絡先情報を共有することでモデルにアクセスすることができます。
model.safetensorsとmodel_config.jsonをダウンロードします。ダウンロードした2つのファイルは、リポジトリにckptというフォルダを作成してその中に置いてください。
推論
WebUIの起動
python .\run_gradio.py --ckpt-path .\ckpt\model.safetensors --model-config .\ckpt\model_config.json
このモデルは、音楽よりも効果音やフィールドレコーディングを生成する方が得意だそうです。以下はChatGPTに考えてもらったプロンプトで生成したサンプルになります。