Black Forest LabsがリリースしたText to ImageのFLUX.1は、ベンチマーク(ELOスコア)で他の主要モデルよりも上回っています。今回ComfyUIのアップデートでFLUXがサポートされローカルでも簡単に試すことができるようになりました。
実行環境
FP8の量子化モデルでもVRAM12GB以上とメモリ32GBが必要な感じがします。チェックポイントのファイル容量も20GB程度あるのでストレージの空きも注意してください。
OS | Windows11 23H2 |
ComfyUI | v0.2.2 (5f9d5a244b0c753e8d1dd0975ad3982ffcb16e0f) |
グラフィックボード | NVIDIA GeForce RTX 3060 12GB |
メモリ | DDR4 48GB |
まずComfyUIがv0.2.0より前の場合はアップデートしてください。
モデルのダウンロードとワークフロー
これから紹介する2つのモデルはそれぞれライセンスが違うので気を付けてください。
FLUX.1 dev
モデル自体は非商用ライセンスで提供されますが、モデルを使用して生成されたコンテンツについては商用利用が許可されています。こちらからダウンロードしてください。(FP8, VAEとText Encoderはモデルに含まれている)

上の画像をドロップしてワークフローを使ってください。ネガティブプロンプトは不要

今回の私の実行環境では、1枚生成するのに1分ちょっとかかりました。
FLUX.1 schnell
Apache License 2.0になります。こちらからダウンロードしてください。4stepの高速なモデルになります。(FP8, VAEとText Encoderはモデルに含まれている)

上の画像をドロップしてワークフローを使ってください。ネガティブプロンプトは不要


4ステップでもかなり高品質な画像を生成することができました。また、指の数や文字の表現など破綻の多いプロンプトを試しましたがそこまで失敗することなく生成できました。