ComfyUIにZ-imageを入れて全裸パンスト直履き美女を描いてみた

AtelierNylonのあおいです。
みなさんこんにちは。

私たちはxAIのGrokを中心に創作活動をしているのですが、最近はローカル（家庭用のパソコン）で動くAIモデルをいろいろ試しています。

今回はそのうちのひとつ、Z-imageというモデルの作品を紹介しますね。

Z-imageというのは、Alibabaが開発した画像生成AIモデルで、2025年秋にリリースされた比較的新しいものです。

60億パラメーター（6B）という、SDXL系と同じぐらいのコンパクトさでありながら、実写のようなリアルな画像を生成できるという特徴があります。

コンパクトなので、ComfyUIを使うことで、RTX3060ぐらいのグラボを搭載したパソコンでも動かすことができます。

こんな感じの画像になります。

カフェでコーヒーを飲んでいる黒タイツの女性です。

リアルでキレイですよね。素晴らしいのは手足の破綻がほとんど見られないことです。SDXL系のモデルは手の破綻がひどいのですが、Z-imageはその心配がありません。

これ１枚生成するのにRTX3060マシンでは２分ぐらいです。Stable Diffusionと比べると所要時間が長いのですが、Z-imageには、Z-image-Turboという高速化モデルも存在します。

その成果品がこちら。

こっちは白タイツの女性です。ドレスの色は指定していないのですが、タイツを白に変えたら勝手にドレスも白になりました。

ノンTurbo版と比べても遜色ありませんよね。量産しても逆に破綻が少ないぐらいでした。これが１枚25秒ぐらい。SDXL系と同じぐらいですね。

少しコツが要りますが、NSFW画像も出せます。

全裸に肌色パンストだけ履いて街を歩いてる女性です。すごい画像になりました（笑）

ただ、Turbo版は構図のバリエーションが少なくて、

・量産しても似たような画像ばかりになる
・プロンプトを無視して常識的な画像になる

という欠点もあります。

例えば、「メイド服に黒パンストを指定しても、ニーソックスになってしまう」という感じで、学習したデータの常識をそのまま出してくる傾向があるんですね。

そういう理由から、このブログのように個性的な服装（笑）を出そうとすると、苦労するかもしれません。

これをプロンプトエンジニアリングでカバーできるかどうかが、今後の研究課題ですね。

進捗があったらまた報告しますね。