YuEのインストール方法と基本的な使い方

音声合成

YuEは、音楽を自動生成するために開発された最先端のオープンソースAIモデルです。特に歌詞からフル楽曲を生成することに特化しており、ボーカルと伴奏を含む本格的な楽曲を数分間にわたって作り出すことができます。

実行環境

YuEは、長い楽曲を生成するために大量のGPUメモリを必要とします。そこで今回は、少ないVRAMでも動作可能なYuEGPをインストールします。ただし、2セッション(約1分)のオーディオ生成でも、RTX 3060 (12GB) で約20分かかりました。そのため、VRAM16GB以上のグラフィックボードの使用を推奨します。

OSWindows11 24H2
YuEGP56aed25999c76198c926c55866c1fa329bcef840
グラフィックボードNVIDIA GeForce RTX 3060 12GB
メモリDDR4 48GB

Pinokioからインストールを行うことも可能です。

ソフトウェア要件

インストール前に必要なソフトがあります。

CUDA Toolkit 12.4

NVIDIAのGPUを活用した高速計算を行うための開発ツールです。

Git

Gitは分散型バージョン管理システムで、GitHubのリポジトリ管理に使用されます。

Miniconda

condaを使用して、仮想環境を作成します。

インストール

Anaconda Prompt (miniconda3)を開きます。

Git LFSのインストール

git lfs install

リポジトリをクローン

git clone https://github.com/deepbeepmeep/YuEGP/

ディレクトリの移動

cd YuEGP/inference/

リポジトリをクローン

git clone https://huggingface.co/m-a-p/xcodec_mini_infer

仮想環境を作成 (Python 3.10)

conda create -n yuegp python=3.10

仮想環境をアクティブ化

conda activate yuegp

Pytorchインストール (v2.5.1 CUDA 12.4)

pip install torch==2.5.1 torchvision==0.20.1 torchaudio==2.5.1 --index-url https://download.pytorch.org/whl/cu124

ディレクトリの移動

cd ..

依存関係をインストール

pip install -r requirements.txt

FlashAttentionインストール

pip install https://github.com/bdashore3/flash-attention/releases/download/v2.7.1.post1/flash_attn-2.7.1.post1+cu124torch2.5.1cxx11abiFALSE-cp310-cp310-win_amd64.whl

transformersライブラリを高速化パッチ適用(ユーザー名を変更)

robocopy transformers C:\Users\pcniki\miniconda3\envs\yuegp\lib\site-packages\transformers /E

推論

ディレクトリの移動

cd inference

GradioのWebUIを起動(VRAM容量に応じたオプション設定)

python gradio_server.py --profile 3
パフォーマンスプロファイルVRAM速度
–profile 116GB最も高速
–profile 312GB少し遅い
–profile 410GB未満非常に遅い

表示されたローカルホストのアドレスにアクセスしてください。

Genres: ジャンルタグは、5つの要素 (genre, instrument, mood, gender, timbre) で構成されるのが理想的です。可能であれば、この5つをすべて含めてスペースで区切って記述してください。タグは自由に設定できますが、より安定した結果を得るためにこちらのタグリストから選択することをお勧めします。

Lyrics: 歌詞は、セクションごとに分け、構造ラベル([verse]、[chorus]、[bridge]、[outro]など)を前置きしてください。各セクションは、デフォルト設定 (Number of tokens per sequence = 3000) で約30秒となるため、歌詞がこの時間枠に収まるように調整してください。

Number of Sequenses: セクション数を入力してください。

オプションとして、オーディオを入力をすることが可能です。

python gradio_server.py --profile 3 --icl

オーディオプロンプトとして推奨される音声の長さは約30秒です。シングルトラックICLよりも、ボーカルと伴奏を分離し、デュアルトラックICLを使用する方が、より良い結果が得られる傾向があります。

日本語歌詞の生成テスト

Pop Rock Piano Uplifting Female Bright
タイトルとURLをコピーしました