Stable Diffusion WebUI ForgeとAUTOMATIC1111での画像生成の比較と拡張機能について

WebUI Forge AIツール

Stable Diffusion WebUI AUTOMATIC1111をベースに最適化したForgeをインストールしてリソースや推論速度の比較をしました。拡張機能についても少し触れているのでご覧ください。

Forgeの今後について

6月9日にアナウンスがありsd-webuiのdevブランチでは、パフォーマンスに関する多くの進捗が更新され以前のボトルネックの多くは解決されているようです。

今後Forgeは、主に統合にコストのかかる機能をテストするための実験的なレポになるようです。これらのアップデートは、ほとんどすべての拡張機能を破壊する可能性が高いため、本番環境で日常的に使用するすべてのユーザーには、sd-webuiに戻すことを推奨しています。

Forgeを更新してしまった場合、このアナウンス前の最後のコミットは29be1daです。

SD Forgeのインストール

パッケージ版での利用がインストールも簡単です。以下のリンクからファイルをダウンロードしてください。

Forge ダウンロード

Click Here to Download One-Click Packageをクリックまたは、

Forge 以前のバージョンをダウンロード

以前のバージョンをダウンロード

ダウンロードしたファイルは7z形式になります。Windows11でも解凍することができるようになりましたが速度が遅いため7Zipの利用をおすすめします。

Forge フォルダ

解凍したファイルからupdate.batを実行して更新後にrun.batを実行してください(以前のバージョンをダウンロードした場合はupdateはしないでください)また、AUTOMATIC1111で使用していたコマンドライン引数は使用できません。

画像生成の比較

ForgeとAUTOMATIC1111での画像生成時 (SD 1.5, SDXL) のVRAM使用量およびサンプリング速度を比較しました。これらはVAEデコード時を除いたおおよその数値になります。

実行環境

ForgeとAUTOMATIC1111は新しくインストール後に比較しました。それぞれのバージョンと実行環境は以下の通りになります。

OSWindows11 23H2
グラフィックボードNVIDIA GeForce RTX3060 12GB
Forge29be1da7cf2b5dccfc70fbdd33eb35c56a31ffb7(ハッシュ)
AUTOMATIC1111v1.8.0(タグ)

SD 1.5 (512×512)

SD 1.5比較項目A1111A1111
(xformers)
Forge
txt2ImgVRAM使用量4.0GB3.1GB3.1GB
サンプリング速度5.00it/s6.70it/s7.80it/s
txt2Img+ControlNetVRAM使用量4.9GB3.8GB3.8GB
サンプリング速度3.70it/s4.50it/s5.70t/s
txt2Img (Batch size8)VRAM使用量9.2GB4.1GB4.0GB
サンプリング速度1.17it/s1.23it/s1.30it/s

SDXL (1024×1024)

SDXL比較項目A1111A1111
(xformers)
Forge
txt2ImgVRAM使用量9.4GB8.3GB6.4GB
サンプリング速度1.12it/s1.34it/s1.47it/s
txt2Img+ControlNetVRAM使用量10.3GB9.4GB7.2GB
サンプリング速度1.00it/s1.18it/s1.30it/s

比較結果

AUTOMATIC1111でもxformersを有効にすることで通常よりVRAM使用量を抑えることができますがForgeはそれ以上の効果がありました。生成結果が変わらずサンプリング速度も上がるのでVRAMが少ないローエンドグラボでは特におすすめです。公式によるとForgeはSDXLを4GBvramで、SD1.5を2GBvramで実行できるようです。

Forgeで利用できる拡張機能

ForgeではControlNetやFreeUなど複数の機能が最初からビルドインされています。

Forge 拡張機能

また、Unet PatcherのおかげでAUTOMATIC1111では利用できなかった多くの機能がForgeでサポートされるようになりました。

Stable Video Diffusion

Stable Video Diffusionは入力画像から数秒の高品質な動画を生成します。ライセンスは研究およびその他の非商業的な目的のためなら自由に利用できるようです。

以下の2つのモデルが用意されており、SVDは14フレーム・SVD XTは25フレームを生成するようにトレーニングされています。

Forge SVD

SVDは14フレーム、SVD XTは25フレームに設定してFpsで動画時間をカスタマイズできます。

Stable Zero123

単一画像から様々な角度の新しいビューを生成します。このモデルはSD 1.5に基づいており、以下の2つのチェックポイントが用意されています。

  • Stable Zero123 CC-BY-NCの3Dオブジェクトが含まれているため、商用利用はできませんが、研究目的での利用は可能です。
  • Stable Zero123C CC-BYおよびCC0 3Dオブジェクトに対してのみトレーニングされました。Stability AIのメンバーシップをお持ちの場合に限り、商用利用が可能です。Stability AIのメンバーでない場合は、そのモデルを商業的に使用することはできません。
Forge Z123

Azimuthで角度を指定して生成することができます。生成結果ですが入力画像次第ではまずまずといった感じでしょうか。

まとめ

ForgeはAUTOMATIC1111に比べてさまざまなメリットがありました。ローエンドのグラフィックボードでは特に利用する選択肢に入りそうです。しかし、AUTOMATIC1111の拡張機能は問題が起きたりしているので既存ユーザーがいますぐForgeへ完全移行するのは難しいかなと思います。今後の拡張機能の対応次第かなという感じです。

タイトルとURLをコピーしました