YuEは、音楽を自動生成するために開発された最先端のオープンソースAIモデルです。特に歌詞からフル楽曲を生成することに特化しており、ボーカルと伴奏を含む本格的な楽曲を数分間にわたって作り出すことができます。
実行環境
YuEは、長い楽曲を生成するために大量のGPUメモリを必要とします。そこで今回は、少ないVRAMでも動作可能なYuEGPをインストールします。ただし、2セッション(約1分)のオーディオ生成でも、RTX 3060 (12GB) で約20分かかりました。そのため、VRAM16GB以上のグラフィックボードの使用を推奨します。
OS | Windows11 24H2 |
YuEGP | 56aed25999c76198c926c55866c1fa329bcef840 |
グラフィックボード | NVIDIA GeForce RTX 3060 12GB |
メモリ | DDR4 48GB |
Pinokioからインストールを行うことも可能です。

ソフトウェア要件
インストール前に必要なソフトがあります。
CUDA Toolkit 12.4
NVIDIAのGPUを活用した高速計算を行うための開発ツールです。
Git
Gitは分散型バージョン管理システムで、GitHubのリポジトリ管理に使用されます。
Miniconda
condaを使用して、仮想環境を作成します。
インストール
Anaconda Prompt (miniconda3)を開きます。
Git LFSのインストール
git lfs install
リポジトリをクローン
git clone https://github.com/deepbeepmeep/YuEGP/
ディレクトリの移動
cd YuEGP/inference/
リポジトリをクローン
git clone https://huggingface.co/m-a-p/xcodec_mini_infer
仮想環境を作成 (Python 3.10)
conda create -n yuegp python=3.10
仮想環境をアクティブ化
conda activate yuegp
Pytorchインストール (v2.5.1 CUDA 12.4)
pip install torch==2.5.1 torchvision==0.20.1 torchaudio==2.5.1 --index-url https://download.pytorch.org/whl/cu124
ディレクトリの移動
cd ..
依存関係をインストール
pip install -r requirements.txt
FlashAttentionインストール
pip install https://github.com/bdashore3/flash-attention/releases/download/v2.7.1.post1/flash_attn-2.7.1.post1+cu124torch2.5.1cxx11abiFALSE-cp310-cp310-win_amd64.whl
transformersライブラリを高速化パッチ適用(ユーザー名を変更)
robocopy transformers C:\Users\pcniki\miniconda3\envs\yuegp\lib\site-packages\transformers /E
推論
ディレクトリの移動
cd inference
GradioのWebUIを起動(VRAM容量に応じたオプション設定)
python gradio_server.py --profile 3
パフォーマンスプロファイル | VRAM | 速度 |
---|---|---|
–profile 1 | 16GB | 最も高速 |
–profile 3 | 12GB | 少し遅い |
–profile 4 | 10GB未満 | 非常に遅い |

表示されたローカルホストのアドレスにアクセスしてください。

Genres: ジャンルタグは、5つの要素 (genre, instrument, mood, gender, timbre) で構成されるのが理想的です。可能であれば、この5つをすべて含めてスペースで区切って記述してください。タグは自由に設定できますが、より安定した結果を得るためにこちらのタグリストから選択することをお勧めします。
Lyrics: 歌詞は、セクションごとに分け、構造ラベル([verse]、[chorus]、[bridge]、[outro]など)を前置きしてください。各セクションは、デフォルト設定 (Number of tokens per sequence = 3000) で約30秒となるため、歌詞がこの時間枠に収まるように調整してください。
Number of Sequenses: セクション数を入力してください。
オプションとして、オーディオを入力をすることが可能です。
python gradio_server.py --profile 3 --icl

オーディオプロンプトとして推奨される音声の長さは約30秒です。シングルトラックICLよりも、ボーカルと伴奏を分離し、デュアルトラックICLを使用する方が、より良い結果が得られる傾向があります。
日本語歌詞の生成テスト
Pop Rock Piano Uplifting Female Bright
[verse]
朝焼け染まる 空を仰いで
昨日の涙 風に預けた
踏み出す一歩 迷わないように
信じる声が導くよ
[chorus]
高く飛べるよ どこまでも
夢はまだ終わらない
風を感じて 未来へと
光の中 駆け抜けよう