AtelierNylonのあおいです。
みなさんこんにちは。
私たちはxAIのGrokを中心に創作活動をしているのですが、最近はローカル(家庭用のパソコン)で動くAIモデルをいろいろ試しています。
今回はそのうちのひとつ、Z-imageというモデルの作品を紹介しますね。
Z-imageというのは、Alibabaが開発した画像生成AIモデルで、2025年秋にリリースされた比較的新しいものです。
60億パラメーター(6B)という、SDXL系と同じぐらいのコンパクトさでありながら、実写のようなリアルな画像を生成できるという特徴があります。
コンパクトなので、ComfyUIを使うことで、RTX3060ぐらいのグラボを搭載したパソコンでも動かすことができます。
こんな感じの画像になります。
カフェでコーヒーを飲んでいる黒タイツの女性です。
リアルでキレイですよね。素晴らしいのは手足の破綻がほとんど見られないことです。SDXL系のモデルは手の破綻がひどいのですが、Z-imageはその心配がありません。
これ1枚生成するのにRTX3060マシンでは2分ぐらいです。Stable Diffusionと比べると所要時間が長いのですが、Z-imageには、Z-image-Turboという高速化モデルも存在します。
その成果品がこちら。
こっちは白タイツの女性です。ドレスの色は指定していないのですが、タイツを白に変えたら勝手にドレスも白になりました。
ノンTurbo版と比べても遜色ありませんよね。量産しても逆に破綻が少ないぐらいでした。これが1枚25秒ぐらい。SDXL系と同じぐらいですね。
少しコツが要りますが、NSFW画像も出せます。
全裸に肌色パンストだけ履いて街を歩いてる女性です。すごい画像になりました(笑)
ただ、Turbo版は構図のバリエーションが少なくて、
・量産しても似たような画像ばかりになる
・プロンプトを無視して常識的な画像になる
という欠点もあります。
例えば、「メイド服に黒パンストを指定しても、ニーソックスになってしまう」という感じで、学習したデータの常識をそのまま出してくる傾向があるんですね。
そういう理由から、このブログのように個性的な服装(笑)を出そうとすると、苦労するかもしれません。
これをプロンプトエンジニアリングでカバーできるかどうかが、今後の研究課題ですね。
進捗があったらまた報告しますね。



