HiDream-I1/E1の画像生成と品質の比較

HiDream-I1/E1は、HiDream.aiが開発したオープンソースの画像生成AIで、170億パラメータを誇り、高品質な画像を生成します。

実行環境
ComfyUIのアップデート
モデルのダウンロード
HiDream-I1
1. ワークフローと生成設定
2. ベンチマークと画像の比較
HiDream-E1
1. Emu Editベンチマーク
2. ワークフロー

実行環境

OS	Windows11 24H2
ComfyUI	7689917113fe521adfaba2a4fff952ef1805ad2b (v0.3.31)
HiDream-I1	–
HiDream-E1	–

ComfyUIのアップデート

ComfyUIがHiDreamモデルをサポートしたので、ComfyUI_windows_portable\update\update_comfyui.batを実行して最新にアップデートしてください。

モデルのダウンロード

以下のリンクからモデルをダウンロードし、指定されたディレクトリに配置してください。

テキストエンコーダ

ComfyUI\models\text_encoders\clip_g_hidream.safetensors
ComfyUI\models\text_encoders\clip_l_hidream.safetensors
ComfyUI\models\text_encoders\llama_3.1_8b_instruct_fp8_scaled.safetensors
ComfyUI\models\text_encoders\t5xxl_fp8_e4m3fn_scaled.safetensors

VAE

ComfyUI\models\vae\ae.safetensors

拡散モデル

ComfyUI\models\diffusion_models\hidream_i1

Full (50ステップ)、Dev (28ステップ)、 Fast (16ステップ)の3種類あり、各モデルにはFP8に量子化したバージョンもあります。今回は、hidream_i1_dev_fp8.safetensorsを使用しました。

HiDream-I1

HiDream-I1は、Text to Imageモデルになります。

ワークフローと生成設定

こちらの画像にワークフローが埋め込まれているので、ComfyUIにドラッグ&ドロップして使用してください。

サンプリングの推奨設定

ModelSamplingSD3	Full	Dev	Fast
Shift	3.0	6.0	3.0

KSampler	Full	Dev	Fast
steps	50	28	16
sampler_name	uni_pc	lcm	lcm
scheduler	simple	normal	normal
cfg	5.0	1.0	1.0

FP8モデルを使用した場合、生成速度はFLUX.1と同程度でした。

ベンチマークと画像の比較

HiDreamが公開しているベンチマークをもとに、FLUX.1との画像比較を行いました。

DPG-Bench

DPG-Benchは、複数のオブジェクトや複雑な属性・関係を含む長文プロンプトに対して、生成モデルがどれだけ正確に画像を作れるかを評価するベンチマークです。

Model	Overall	Global	Entity	Attribute	Relation	Other
SDXL	74.65	83.27	82.43	80.91	86.76	80.41
DALL-E 3	83.50	90.97	89.61	88.39	90.58	89.83
Flux.1-dev	83.79	85.80	86.79	89.98	90.04	89.90
SD3-Medium	84.08	87.90	91.01	88.83	80.70	88.68
Janus-Pro-7B	84.19	86.90	88.90	89.40	89.32	89.48
CogView4-6B	85.13	83.85	90.35	91.17	91.14	87.29
HiDream-I1	85.89	76.44	90.22	89.48	93.74	91.83

Prompt: A bustling market street with a blue cart filled with ripe oranges parked next to a wooden stall, a woman in a green dress buying bread from a vendor, and a gray pigeon pecking at crumbs on the cobblestone ground under a cloudy sky.

「曇り空の下、石畳の上で灰色のハトがパンくずをついばみ、青い荷車に熟したオレンジがいっぱい積まれて木製の屋台の横に停まっているにぎやかな市場通りで、緑のドレスを着た女性が売り手からパンを買っている。」

GenEval

GenEvalは、テキスト指示に基づき、生成画像がオブジェクトの種類、配置、色などをどれだけ正確に反映しているかを評価するベンチマークです。

Model	Overall	Single Obj.	Two Obj.	Counting	Colors	Position	Color attribution
SDXL	0.55	0.98	0.74	0.39	0.85	0.15	0.23
Flux.1-dev	0.66	0.98	0.79	0.73	0.77	0.22	0.45
DALL-E 3	0.67	0.96	0.87	0.47	0.83	0.43	0.45
CogView4-6B	0.73	0.99	0.86	0.66	0.79	0.48	0.58
SD3-Medium	0.74	0.99	0.94	0.72	0.89	0.33	0.60
Janus-Pro-7B	0.80	0.99	0.89	0.59	0.90	0.79	0.66
HiDream-I1	0.83	1.00	0.98	0.79	0.91	0.60	0.72

Prompt: a photo of a cafe with a black counter on the left, a blue table on the right, a wooden chair in the center with two yellow cups, and a chalkboard menu in the back center

「左に黒いカウンター、右に青いテーブル、中央に木製の椅子と2つの黄色いカップ、奥の中央に黒板メニューがあるカフェの写真。」

HPSv2.1

HPSv2.1は、アニメ、コンセプトアート、絵画、写真など異なるアートスタイルにおける生成画像の質を評価し、モデルがテキスト指示にどれだけ適応できるかを測定するベンチマークです。

Model	Averaged	Animation	Concept-art	Painting	Photo
Midjourney V6	30.29	32.02	30.29	29.74	29.10
SDXL	30.64	32.84	31.36	30.86	27.48
Dall-E3	31.44	32.39	31.09	31.18	31.09
SD3	31.53	32.60	31.82	32.06	29.62
CogView4-6B	32.31	33.23	32.60	32.89	30.52
Midjourney V5	32.33	34.05	32.47	32.24	30.56
Flux.1-dev	32.47	33.87	32.27	32.62	31.11
stable cascade	32.95	34.58	33.13	33.29	30.78
HiDream-I1	33.82	35.05	33.74	33.88	32.61

Prompt: A watercolor painting of a quiet seaside village at dusk, with small boats bobbing on the calm water, golden light reflecting off the waves, and pastel-colored houses lining the shore.

「夕暮れ時の静かな海辺の村の水彩画、小さなボートが穏やかな水面に揺れ、波に黄金の光が反射し、岸辺に並ぶパステルカラーの家々。」

HiDream-E1

HiDream-E1は、HiDream-I1をベースにした画像編集モデルです。

Emu Editベンチマーク

EmuEditは、指示に基づく画像編集モデルの性能を評価するためのベンチマークです。公開されている評価結果によると、スタイル変更・テキスト編集・オブジェクトの追加や削除などのタスクにおいて、いずれも高いスコアを記録しています。

Model	Global	Add	Text	BG	Color	Style	Remove	Local	Average
MagicBrush	4.06	3.54	0.55	3.26	3.83	2.07	2.70	3.28	2.81
UltraEdit	5.31	5.19	1.50	4.33	4.50	5.71	2.63	4.58	4.07
Gemini-2.0-Flash	4.87	7.71	6.30	5.10	7.30	3.33	5.94	6.29	5.99
HiDream-E1	5.32	6.98	6.45	5.01	7.57	6.49	5.99	6.35	6.40