【検証】なぜAIは指の描写が苦手なのか?「FLUX.1」

スポンサーリンク
AI生成の指 AI
スポンサーリンク

Black Forest Labsが発表した画像生成AIモデル「FLUX.1」が、クリエイティブ業界に衝撃を与ええました。これまで多くのAIが「不自然な手の描写」に苦戦してきた中、FLUX.1は驚くほどリアルな人間の手を生成できるとして、技術的なブレイクスルーと評価されています。

多くの人が抱く素朴な疑問、「そもそもなぜ画像生成AIは指の描写が苦手なのか?」その理由とメカニズム、そして他の画像生成AIの現状や、AIが苦手とする他の画像について詳しく解説します。

スポンサーリンク

画像生成AIは「指」の生成が苦手:3つの要因・メカニズム

画像生成AIが人間の指を正確に描くのが難しい理由は、主に3つの要因が複雑に絡み合っているためです。

訓練データの課題:偏りと複雑さ

画像生成AIは、膨大な数の画像データを学習することで、特定の対象物を描く能力を身につけます。しかし、その学習データにおいて「手」は非常に厄介な存在です。

✅️隠れやすい部位
写真の中で手はポケットに入っていたり、物を持っていたり、体の後ろに隠れていたりと、全体がはっきりと写っているケースが意外と少ないのです。

✅️ポーズの多様性
手は握る、開く、指をさすなど、無限とも言えるほどの形を作り出します。そのため、AIが「正しい手の形」のパターンを網羅的に学習することが困難になります。

人間の手の構造的な複雑さ

手の構造

指は複数の関節を持ち、それぞれが独立して、かつ連動して動きます。指同士が重なり合ったり、遠近法によって見え方が大きく変わったりするため、3次元的な構造を2次元の画像として正確に再現するには、極めて高度な理解が求められます。

人間が無意識に「不自然だ」と感じるわずかな歪みを、AIが完全に排除するのは至難の業でした。

AIの仕組み上の限界

拡散モデル

多くの画像生成AI、特に「拡散モデル」と呼ばれる技術は、ノイズだらけの画像から少しずつノイズを取り除き、意味のある画像を浮かび上がらせるという手法をとっています。

この過程で、全体的な構図や雰囲気といった大局的な特徴を捉えるのは得意ですが、指の本数や関節の向きといった細部の論理的な整合性を保つのが難しいという特性があります。

AIは「指は5本である」という概念や解剖学的な知識を持っているわけではなく、あくまで学習データから統計的な「それっぽさ」を再現しているに過ぎないのです。


主要な画像生成AIの「指」の描写力比較

「FLUX.1」の登場で勢力図が変わりつつありますが、主要な画像生成AIの指の描写における得意・不得意には、以下のような傾向が見られます。(※AIモデルは日々進化しているため、あくまで現時点での一般的な評価です)

AIモデル指の生成に関する評価
FLUX.1【得意】 今回のブレイクスルー。テキストの指示に忠実で、非常に自然で破綻の少ない手の生成が可能とされています。
Midjourney (v6以降)【比較的得意】 バージョン6で大幅に改善され、多くのケースで自然な手を生成できるようになりました。しかし、複雑なポーズではまだ不自然さが残ることもあります。
DALL-E 3【普通】 シンプルなポーズであれば比較的正確に描けますが、指が絡み合うような複雑な構図では破綻しやすくなる傾向があります。
Stable Diffusion【モデル・設定次第】 ベースモデルだけでは苦手な場合が多いですが、「bad-hands-5」のようなネガティブプロンプト用の埋め込みや、ControlNetといった追加技術を駆使することで、精度の高い制御が可能です。ユーザーの技術力に依存する面があります。

指以外にも!生成AIが苦手な画像・得意な画像

AIの画像生成には、指以外にも苦手な分野と得意な分野が存在します。

苦手な画像の例

正確な文字の生成

看板や本に書かれた文字など、意味のある文字列を正確に生成するのは非常に苦手です。存在しない文字が生まれたり、スペルが間違ったりすることが頻繁に起こります。

鏡の反射

鏡に映った像を、物理法則に則って正しく描写することは困難です。全く違うものが映り込んだり、像が歪んだりします。

複雑な物理現象や論理

複数の人物が複雑に絡み合うシーンや、物理的にありえない構造など、論理的な整合性が求められる画像の生成は苦手です。

直線の描写

直線の描写

建築物や人工物に含まれる、歪みのない完璧な直線を引くのが意外と難しく、よく見ると微妙に波打っていることがあります。

得意な画像の例

風景画や背景

風景画

自然の風景や都市の景観、宇宙といった、全体的な雰囲気やパターンで構成される画像の生成は非常に得意です。

単体のオブジェクト

単体のオブジェクト

動物、果物、乗り物など、対象が一つではっきりしているポートレート風の画像は、高品質に生成できます。

特定の画家のスタイル模倣

「ゴッホ風」「浮世絵風」など、特定のアーティストの画風を学習し、それを模倣したイラストを生成するのは得意分野です。

抽象的なアート

論理的な整合性よりも、色や形の組み合わせが重視される抽象画は、AIの創造性と相性が良いと言えます。

「FLUX.1」の登場は、画像生成AIがこれまで越えられなかった壁を一つ乗り越えたことを示す象徴的な出来事です。今後、AIが「苦手」としてきた分野を次々と克服していくことで、クリエイティブな表現の可能性はさらに大きく広がっていくことでしょう。

コメント