Stable Diffusion Web UI (AUTOMATIC1111) の画像生成設定 (txt2img)

Stable Diffusion Web UIで画像生成する場合の各項目の設定について簡単に説明しています。モデルごとで設定の受ける影響が違うので、モデルごとに設定値を決めるのがおすすめです。

モデルによっては、推奨設定を記述している場合があるのでダウンロードページを確認してください。

checkpoint（モデル）
プロンプト (Prompt, Negative Prompt)
SD VAE
Clip skip
サイズ (Width Height)
Sampling method
Sampling steps
Seed
Batch count
Batch size
CFG Scale

checkpoint（モデル）

どのような画像を学習したモデルかで生成される画像の特徴が大きく変わります。また、チェックポイントのベースはおもにSD 1.5とSDXLがあります。SDXLの方が高品質の画像が生成しやすいですがPCの要求スペックが高くなります。環境スペックが低くSDXLが重い方はFooocusがおすすめです。

Fooocusのインストールと機能の使い方

Stable diffusionのSDXLモデルを低いスペックのPCでも扱えるFooocusを紹介します。AUTOMATIC1111などと比べると設定項目は少なくシンプルで、Midjourneyを意識したような設計を取り入れています。またア...

以下のサイトからイメージするモデルを探してください。Civitaiの方がサムネイル表示やフィルター機能があり検索しやすいです。

Civitai Models | Discover Free Stable Diffusion Models

Models – Hugging Face

モデルごとのライセンスの内容は、ダウンロードページで必ず確認してください。

拡張子は、ckptとsafetensorsがあります。どちらも利用できますがSafetensorsの方が安全なようです。

ダウンロードしたモデルはこちらの階層に保存してください。

📁webui\models\Stable-diffusion

プロンプト (Prompt, Negative Prompt)

指示を出す一種のコマンドです。生成したい画像の内容を文章やキーワードにしてカンマで区切って記述します。プロンプト（ポジティブプロンプト）には描いてほしい要素を、ネガティブプロンプトには描いてほしくない要素を記述します。

Stable Diffusion Web UIのプロンプト一覧

Stable Diffusionでよく使用される定番のプロンプトやネガティブプロンプトを一部まとめました。どのようなプロンプトを入れてよいかわからない方へおおまかにジャンル分けしてあります。いろいろなワードや言い回しを試しながら生成してみて...

SD VAE

ピクセル空間（画像）と潜在空間の変換をおこないます。VAEの違いで色見などが若干変化します。

初期の生成画面には設定項目が表示されてないので以下の手順で表示します。

SettingsタブのUser interfaceをクリックしてください。

Quicksettings listに追加した設定項目をページの上部に表示できます。

Stable diffusion Web UI Quicksettings list

SD_VAEをクリックして追加してください。

Apply settingsで保存してReload UIで再起動してください。

おすすめのVAEは、Stability AI社が公開しているvae-ft-mse-840000-ema-prunedです。

stabilityai/sd-vae-ft-mse-original at main

SDXLモデルは、VAEもSDXL用になります。

stabilityai/sdxl-vae at main

モデルによっては専用のVAEやcheckpointに含まれている場合もあるのでダウンロードページ確認してください。

ダウンロードしたVAEはこちらの階層に保存してください。

📁webui\models\VAE

Clip skip

Stable Diffusionでは、CLIPのテキストエンコーダーを利用してプロンプトの指示をいくつものレイヤーに分けて処理します。Clip skipは、最後のレイヤーから何層で止めるかの値で小さいほどプロンプトの情報を細かく反映します。基本的には１か２を試してください。

初期の生成画面に設定項目がないのでVAEと同じ手順で表示してください。追加する設定項目はCLIP_stop_at_last_layersになります。

サイズ (Width Height)

モデルが学習したサイズと大きく違う設定だと破綻した画像が生成されやすいです。以下を目安に生成するといい結果が得られやすいです。その後、アップスケーリングするのがおすすめです。

Base Model	サイズ
SD 1.x	512×512
SD 2.x	768×768
SDXL	1024×1024

Stable Diffusion Web UI (AUTOMATIC1111) でのアップスケーリング方法

Stable Diffusion Web UIで利用できるアップスケール機能をいくつか紹介します。

Sampling method

Stable Diffusionはノイズだらけの画像からノイズを除去しながら画像を生成していきます（データからノイズへの変換の逆プロセス）

サンプリングメゾットはこのプロセスの方式になります。いろいろな種類があり品質や速度に変化があります。

Sampling steps

Sampling stepsは、サンプリングの回数になります。Sampling stepsの数が多いほど質の高い画像を生成することができますが、step数に応じて作業時間がかかります。

イラスト系モデルは20あたり、写真系モデルは30～40がおすすめです。

Seed

生成で割り当てられる固有番号のようなものでSeed値で画像出力結果を制御することができます。Seed値とその他の設定も同じ場合は毎回同じ生成画像になります。

サイコロのアイコンでランダム (-1)

リサイクルマークのアイコンでSeed値を固定

Batch count

連続して生成する枚数になります。

Batch size

最大8枚まで同時（並列）に生成できます。通常生成よりも早く生成することができますが、VRAM容量の少ないグラフィックボードなどでは逆に遅くなることもあります。タスクマネージャーでVRAMの使用量を確認しながら設定するといいでしょう。

CFG Scale

ノイズ除去時に影響するものでその割合を決めるパラメーターです。プロンプトの効きを調整するときに設定を変更するとよいですが特に指定がなければデフォルトの7でよいかと思います。