YuEのインストール方法と基本的な使い方

YuEは、音楽を自動生成するために開発された最先端のオープンソースAIモデルです。特に歌詞からフル楽曲を生成することに特化しており、ボーカルと伴奏を含む本格的な楽曲を数分間にわたって作り出すことができます。

実行環境
ソフトウェア要件
インストール
推論

実行環境

YuEは、長い楽曲を生成するために大量のGPUメモリを必要とします。そこで今回は、少ないVRAMでも動作可能なYuEGPをインストールします。ただし、2セッション（約1分）のオーディオ生成でも、RTX 3060 (12GB) で約20分かかりました。そのため、VRAM16GB以上のグラフィックボードの使用を推奨します。

OS	Windows11 24H2
YuEGP	56aed25999c76198c926c55866c1fa329bcef840
グラフィックボード	NVIDIA GeForce RTX 3060 12GB
メモリ	DDR4 48GB

Pinokioからインストールを行うことも可能です。

AIツールをローカルに簡単にインストールできるPinokioの使い方

AIツールのインストールで面倒な環境構築やインストール作業をワンクリックで行うことができるソフト (Pinokio) を紹介します。

ソフトウェア要件

インストール前に必要なソフトがあります。

CUDA Toolkit 12.4

NVIDIAのGPUを活用した高速計算を行うための開発ツールです。

PyTorchとCUDA Toolkitをインストールする

PyTorchとCUDA Toolkitの依存関係とインストール方法、CUDA ToolkitとCompute Capabilityの対応などを紹介します。

Git

Gitは分散型バージョン管理システムで、GitHubのリポジトリ管理に使用されます。

Git – Downloading Package

Miniconda

condaを使用して、仮想環境を作成します。

Download Now | Anaconda

インストール

Anaconda Prompt (miniconda3)を開きます。

Git LFSのインストール

git lfs install

リポジトリをクローン

git clone https://github.com/deepbeepmeep/YuEGP/

ディレクトリの移動

cd YuEGP/inference/

リポジトリをクローン

git clone https://huggingface.co/m-a-p/xcodec_mini_infer

仮想環境を作成 (Python 3.10)

conda create -n yuegp python=3.10

仮想環境をアクティブ化

conda activate yuegp

Pytorchインストール (v2.5.1 CUDA 12.4)

pip install torch==2.5.1 torchvision==0.20.1 torchaudio==2.5.1 --index-url https://download.pytorch.org/whl/cu124

ディレクトリの移動

cd ..

依存関係をインストール

pip install -r requirements.txt

FlashAttentionインストール

pip install https://github.com/bdashore3/flash-attention/releases/download/v2.7.1.post1/flash_attn-2.7.1.post1+cu124torch2.5.1cxx11abiFALSE-cp310-cp310-win_amd64.whl

transformersライブラリを高速化パッチ適用（ユーザー名を変更）

robocopy transformers C:\Users\pcniki\miniconda3\envs\yuegp\lib\site-packages\transformers /E

推論

ディレクトリの移動

cd inference

GradioのWebUIを起動（VRAM容量に応じたオプション設定）

python gradio_server.py --profile 3

パフォーマンスプロファイル	VRAM	速度
–profile 1	16GB	最も高速
–profile 3	12GB	少し遅い
–profile 4	10GB未満	非常に遅い

表示されたローカルホストのアドレスにアクセスしてください。

Genres: ジャンルタグは、5つの要素 (genre, instrument, mood, gender, timbre) で構成されるのが理想的です。可能であれば、この5つをすべて含めてスペースで区切って記述してください。タグは自由に設定できますが、より安定した結果を得るためにこちらのタグリストから選択することをお勧めします。

Lyrics: 歌詞は、セクションごとに分け、構造ラベル（[verse]、[chorus]、[bridge]、[outro]など）を前置きしてください。各セクションは、デフォルト設定 (Number of tokens per sequence = 3000) で約30秒となるため、歌詞がこの時間枠に収まるように調整してください。

Number of Sequenses: セクション数を入力してください。

オプションとして、オーディオを入力をすることが可能です。

python gradio_server.py --profile 3 --icl

オーディオプロンプトとして推奨される音声の長さは約30秒です。シングルトラックICLよりも、ボーカルと伴奏を分離し、デュアルトラックICLを使用する方が、より良い結果が得られる傾向があります。

日本語歌詞の生成テスト

Pop Rock Piano Uplifting Female Bright

[verse]
朝焼け染まる 空を仰いで
昨日の涙 風に預けた
踏み出す一歩 迷わないように
信じる声が導くよ

[chorus]
高く飛べるよ どこまでも
夢はまだ終わらない
風を感じて 未来へと
光の中 駆け抜けよう