Stable Diffusion WebUI ForgeとAUTOMATIC1111での画像生成の比較と拡張機能について

Stable Diffusion WebUI AUTOMATIC1111をベースに最適化したForgeをインストールしてリソースや推論速度の比較をしました。拡張機能についても少し触れているのでご覧ください。

Forgeの今後について
SD Forgeのインストール
画像生成の比較
Forgeで利用できる拡張機能
1. Stable Video Diffusion
2. Stable Zero123
まとめ

Forgeの今後について

6月9日にアナウンスがありsd-webuiのdevブランチでは、パフォーマンスに関する多くの進捗が更新され以前のボトルネックの多くは解決されているようです。

今後Forgeは、主に統合にコストのかかる機能をテストするための実験的なレポになるようです。これらのアップデートは、ほとんどすべての拡張機能を破壊する可能性が高いため、本番環境で日常的に使用するすべてのユーザーには、sd-webuiに戻すことを推奨しています。

Forgeを更新してしまった場合、このアナウンス前の最後のコミットは29be1daです。

リポジトリを特定のバージョンに戻す、最新に更新する

リポジトリの利用者側として、不具合などが起きた場合のバージョンの戻し方と修正された新しいバージョンへの更新方法を簡潔にわかりやすく紹介します。

SD Forgeのインストール

パッケージ版での利用がインストールも簡単です。以下のリンクからファイルをダウンロードしてください。

lllyasviel/stable-diffusion-webui-forge

Click Here to Download One-Click Packageをクリックまたは、

以前のバージョンをダウンロード

ダウンロードしたファイルは7z形式になります。Windows11でも解凍することができるようになりましたが速度が遅いため7Zipの利用をおすすめします。

圧縮・解凍ソフト 7-Zip

解凍したファイルからupdate.batを実行して更新後にrun.batを実行してください（以前のバージョンをダウンロードした場合はupdateはしないでください）また、AUTOMATIC1111で使用していたコマンドライン引数は使用できません。

画像生成の比較

ForgeとAUTOMATIC1111での画像生成時 (SD 1.5, SDXL) のVRAM使用量およびサンプリング速度を比較しました。これらはVAEデコード時を除いたおおよその数値になります。

実行環境

ForgeとAUTOMATIC1111は新しくインストール後に比較しました。それぞれのバージョンと実行環境は以下の通りになります。

OS	Windows11 23H2
グラフィックボード	NVIDIA GeForce RTX3060 12GB
Forge	29be1da7cf2b5dccfc70fbdd33eb35c56a31ffb7（ハッシュ）
AUTOMATIC1111	v1.8.0（タグ）

SD 1.5 (512×512)

SD 1.5	比較項目	A1111	A1111 (xformers)	Forge
txt2Img	VRAM使用量	4.0GB	3.1GB	3.1GB
txt2Img	サンプリング速度	5.00it/s	6.70it/s	7.80it/s
txt2Img+ControlNet	VRAM使用量	4.9GB	3.8GB	3.8GB
txt2Img+ControlNet	サンプリング速度	3.70it/s	4.50it/s	5.70t/s
txt2Img (Batch size8)	VRAM使用量	9.2GB	4.1GB	4.0GB
txt2Img (Batch size8)	サンプリング速度	1.17it/s	1.23it/s	1.30it/s

SDXL (1024×1024)

SDXL	比較項目	A1111	A1111 (xformers)	Forge
txt2Img	VRAM使用量	9.4GB	8.3GB	6.4GB
txt2Img	サンプリング速度	1.12it/s	1.34it/s	1.47it/s
txt2Img+ControlNet	VRAM使用量	10.3GB	9.4GB	7.2GB
txt2Img+ControlNet	サンプリング速度	1.00it/s	1.18it/s	1.30it/s

比較結果

AUTOMATIC1111でもxformersを有効にすることで通常よりVRAM使用量を抑えることができますがForgeはそれ以上の効果がありました。生成結果が変わらずサンプリング速度も上がるのでVRAMが少ないローエンドグラボでは特におすすめです。公式によるとForgeはSDXLを4GBvramで、SD1.5を2GBvramで実行できるようです。

Forgeで利用できる拡張機能

ForgeではControlNetやFreeUなど複数の機能が最初からビルドインされています。

また、Unet PatcherのおかげでAUTOMATIC1111では利用できなかった多くの機能がForgeでサポートされるようになりました。

Stable Video Diffusion

Stable Video Diffusionは入力画像から数秒の高品質な動画を生成します。ライセンスは研究およびその他の非商業的な目的のためなら自由に利用できるようです。

以下の2つのモデルが用意されており、SVDは14フレーム・SVD XTは25フレームを生成するようにトレーニングされています。

svd.safetensors · stabilityai

svd_xt.safetensors · stabilityai

SVDは14フレーム、SVD XTは25フレームに設定してFpsで動画時間をカスタマイズできます。

Stable Zero123

単一画像から様々な角度の新しいビューを生成します。このモデルはSD 1.5に基づいており、以下の2つのチェックポイントが用意されています。

Stable Zero123 CC-BY-NCの3Dオブジェクトが含まれているため、商用利用はできませんが、研究目的での利用は可能です。
Stable Zero123C CC-BYおよびCC0 3Dオブジェクトに対してのみトレーニングされました。Stability AIのメンバーシップをお持ちの場合に限り、商用利用が可能です。Stability AIのメンバーでない場合は、そのモデルを商業的に使用することはできません。

stabilityai/stable-zero123

Azimuthで角度を指定して生成することができます。生成結果ですが入力画像次第ではまずまずといった感じでしょうか。

まとめ

ForgeはAUTOMATIC1111に比べてさまざまなメリットがありました。ローエンドのグラフィックボードでは特に利用する選択肢に入りそうです。しかし、AUTOMATIC1111の拡張機能は問題が起きたりしているので既存ユーザーがいますぐForgeへ完全移行するのは難しいかなと思います。今後の拡張機能の対応次第かなという感じです。