Stable Diffusion WebUI AUTOMATIC1111をベースに最適化したForgeをインストールしてリソースや推論速度の比較をしました。拡張機能についても少し触れているのでご覧ください。
Forgeの今後について
6月9日にアナウンスがありsd-webuiのdevブランチでは、パフォーマンスに関する多くの進捗が更新され以前のボトルネックの多くは解決されているようです。
今後Forgeは、主に統合にコストのかかる機能をテストするための実験的なレポになるようです。これらのアップデートは、ほとんどすべての拡張機能を破壊する可能性が高いため、本番環境で日常的に使用するすべてのユーザーには、sd-webuiに戻すことを推奨しています。
Forgeを更新してしまった場合、このアナウンス前の最後のコミットは29be1daです。
SD Forgeのインストール
パッケージ版での利用がインストールも簡単です。以下のリンクからファイルをダウンロードしてください。
Click Here to Download One-Click Packageをクリックまたは、
以前のバージョンをダウンロード
ダウンロードしたファイルは7z形式になります。Windows11でも解凍することができるようになりましたが速度が遅いため7Zipの利用をおすすめします。
解凍したファイルからupdate.batを実行して更新後にrun.batを実行してください(以前のバージョンをダウンロードした場合はupdateはしないでください)また、AUTOMATIC1111で使用していたコマンドライン引数は使用できません。
画像生成の比較
ForgeとAUTOMATIC1111での画像生成時 (SD 1.5, SDXL) のVRAM使用量およびサンプリング速度を比較しました。これらはVAEデコード時を除いたおおよその数値になります。
実行環境
ForgeとAUTOMATIC1111は新しくインストール後に比較しました。それぞれのバージョンと実行環境は以下の通りになります。
OS | Windows11 23H2 |
グラフィックボード | NVIDIA GeForce RTX3060 12GB |
Forge | 29be1da7cf2b5dccfc70fbdd33eb35c56a31ffb7(ハッシュ) |
AUTOMATIC1111 | v1.8.0(タグ) |
SD 1.5 (512×512)
SD 1.5 | 比較項目 | A1111 | A1111 (xformers) | Forge |
---|---|---|---|---|
txt2Img | VRAM使用量 | 4.0GB | 3.1GB | 3.1GB |
サンプリング速度 | 5.00it/s | 6.70it/s | 7.80it/s | |
txt2Img+ControlNet | VRAM使用量 | 4.9GB | 3.8GB | 3.8GB |
サンプリング速度 | 3.70it/s | 4.50it/s | 5.70t/s | |
txt2Img (Batch size8) | VRAM使用量 | 9.2GB | 4.1GB | 4.0GB |
サンプリング速度 | 1.17it/s | 1.23it/s | 1.30it/s |
SDXL (1024×1024)
SDXL | 比較項目 | A1111 | A1111 (xformers) | Forge |
---|---|---|---|---|
txt2Img | VRAM使用量 | 9.4GB | 8.3GB | 6.4GB |
サンプリング速度 | 1.12it/s | 1.34it/s | 1.47it/s | |
txt2Img+ControlNet | VRAM使用量 | 10.3GB | 9.4GB | 7.2GB |
サンプリング速度 | 1.00it/s | 1.18it/s | 1.30it/s |
比較結果
AUTOMATIC1111でもxformersを有効にすることで通常よりVRAM使用量を抑えることができますがForgeはそれ以上の効果がありました。生成結果が変わらずサンプリング速度も上がるのでVRAMが少ないローエンドグラボでは特におすすめです。公式によるとForgeはSDXLを4GBvramで、SD1.5を2GBvramで実行できるようです。
Forgeで利用できる拡張機能
ForgeではControlNetやFreeUなど複数の機能が最初からビルドインされています。
また、Unet PatcherのおかげでAUTOMATIC1111では利用できなかった多くの機能がForgeでサポートされるようになりました。
Stable Video Diffusion
Stable Video Diffusionは入力画像から数秒の高品質な動画を生成します。ライセンスは研究およびその他の非商業的な目的のためなら自由に利用できるようです。
以下の2つのモデルが用意されており、SVDは14フレーム・SVD XTは25フレームを生成するようにトレーニングされています。
SVDは14フレーム、SVD XTは25フレームに設定してFpsで動画時間をカスタマイズできます。
Stable Zero123
単一画像から様々な角度の新しいビューを生成します。このモデルはSD 1.5に基づいており、以下の2つのチェックポイントが用意されています。
- Stable Zero123 CC-BY-NCの3Dオブジェクトが含まれているため、商用利用はできませんが、研究目的での利用は可能です。
- Stable Zero123C CC-BYおよびCC0 3Dオブジェクトに対してのみトレーニングされました。Stability AIのメンバーシップをお持ちの場合に限り、商用利用が可能です。Stability AIのメンバーでない場合は、そのモデルを商業的に使用することはできません。
Azimuthで角度を指定して生成することができます。生成結果ですが入力画像次第ではまずまずといった感じでしょうか。
まとめ
ForgeはAUTOMATIC1111に比べてさまざまなメリットがありました。ローエンドのグラフィックボードでは特に利用する選択肢に入りそうです。しかし、AUTOMATIC1111の拡張機能は問題が起きたりしているので既存ユーザーがいますぐForgeへ完全移行するのは難しいかなと思います。今後の拡張機能の対応次第かなという感じです。