HiDream-I1の画像生成と品質の比較

画像生成

HiDream-I1は、HiDream.aiが開発したオープンソースの画像生成AIで、170億パラメータを誇り、高品質な画像を生成します。

実行環境

OSWindows11 24H2
ComfyUIa97f2f850abd7dd330e6363c8d8074bb243eb413 (v0.3.30)
HiDream-I1
グラフィックボードNVIDIA GeForce RTX 3060 12GB

ComfyUIのアップデート

ComfyUIがHiDreamモデルをサポートしたので、ComfyUI_windows_portable\update\update_comfyui.batを実行して最新にアップデートしてください。

モデルのダウンロード

以下のリンクからモデルをダウンロードし、指定されたディレクトリに配置してください。

テキストエンコーダ

VAE

拡散モデル

Full (50ステップ)、Dev (28ステップ)、 Fast (16ステップ)の3種類あり、各モデルにはFP8に量子化したバージョンもあります。今回は、hidream_i1_dev_fp8.safetensorsを使用しました。

ワークフローと生成設定

こちらの画像にワークフローが埋め込まれているので、ComfyUIにドラッグ&ドロップして使用してください。

サンプリングの推奨設定

ModelSamplingSD3FullDevFast
Shift3.06.03.0
KSamplerFullDevFast
steps502816
sampler_nameuni_pclcmlcm
schedulersimplenormalnormal
cfg5.01.01.0

FP8モデルを使用した場合、生成速度はFLUX.1と同程度でした。

ベンチマークと画像の比較

HiDreamが公開したベンチマークをもとに、FLUX.1との画像比較を行いました。

DPG-Bench

DPG-Benchは、複数のオブジェクトや複雑な属性・関係を含む長文プロンプトに対して、生成モデルがどれだけ正確に画像を作れるかを評価するベンチマークです。

ModelOverallGlobalEntityAttributeRelationOther
SDXL74.6583.2782.4380.9186.7680.41
DALL-E 383.5090.9789.6188.3990.5889.83
Flux.1-dev83.7985.8086.7989.9890.0489.90
SD3-Medium84.0887.9091.0188.8380.7088.68
Janus-Pro-7B84.1986.9088.9089.4089.3289.48
CogView4-6B85.1383.8590.3591.1791.1487.29
HiDream-I185.8976.4490.2289.4893.7491.83

Prompt: A bustling market street with a blue cart filled with ripe oranges parked next to a wooden stall, a woman in a green dress buying bread from a vendor, and a gray pigeon pecking at crumbs on the cobblestone ground under a cloudy sky.

「曇り空の下、石畳の上で灰色のハトがパンくずをついばみ、青い荷車に熟したオレンジがいっぱい積まれて木製の屋台の横に停まっているにぎやかな市場通りで、緑のドレスを着た女性が売り手からパンを買っている。」

HiDream-I1 Dev
FLUX.1 dev

GenEval

GenEvalは、テキスト指示に基づき、生成画像がオブジェクトの種類、配置、色などをどれだけ正確に反映しているかを評価するベンチマークです。

ModelOverallSingle Obj.Two Obj.CountingColorsPositionColor attribution
SDXL0.550.980.740.390.850.150.23
Flux.1-dev0.660.980.790.730.770.220.45
DALL-E 30.670.960.870.470.830.430.45
CogView4-6B0.730.990.860.660.790.480.58
SD3-Medium0.740.990.940.720.890.330.60
Janus-Pro-7B0.800.990.890.590.900.790.66
HiDream-I10.831.000.980.790.910.600.72

Prompt: a photo of a cafe with a black counter on the left, a blue table on the right, a wooden chair in the center with two yellow cups, and a chalkboard menu in the back center

「左に黒いカウンター、右に青いテーブル、中央に木製の椅子と2つの黄色いカップ、奥の中央に黒板メニューがあるカフェの写真。」

HiDream-I1 Dev
FLUX.1 dev

HPSv2.1

HPSv2.1は、アニメ、コンセプトアート、絵画、写真など異なるアートスタイルにおける生成画像の質を評価し、モデルがテキスト指示にどれだけ適応できるかを測定するベンチマークです。

ModelAveragedAnimationConcept-artPaintingPhoto
Midjourney V630.2932.0230.2929.7429.10
SDXL30.6432.8431.3630.8627.48
Dall-E331.4432.3931.0931.1831.09
SD331.5332.6031.8232.0629.62
CogView4-6B32.3133.2332.6032.8930.52
Midjourney V532.3334.0532.4732.2430.56
Flux.1-dev32.4733.8732.2732.6231.11
stable cascade32.9534.5833.1333.2930.78
HiDream-I133.8235.0533.7433.8832.61

Prompt: A watercolor painting of a quiet seaside village at dusk, with small boats bobbing on the calm water, golden light reflecting off the waves, and pastel-colored houses lining the shore.

「夕暮れ時の静かな海辺の村の水彩画、小さなボートが穏やかな水面に揺れ、波に黄金の光が反射し、岸辺に並ぶパステルカラーの家々。」

HiDream-I1 Dev
FLUX.1 dev
タイトルとURLをコピーしました