AIビューティービジュアルに第三者を入れる難しさ

AIビューティービジュアルに第三者を入れる難しさ | 杉山宣嗣

AIで「モデル×花」の幻想的なビューティービジュアルを作る

そして、その世界の中へ、現実の第三者を自然に存在させる。

最初は、もっと簡単にできると思っていた。

でも実際には、何十回も修正し、何度も崩れ、延々と調整を繰り返すことになった。

今回やりたかったのは、単なるAI美女生成ではない。

花と光で構成された広告写真レベルの世界観の中へ、現実の人物を違和感なく統合することだった。

しかも、よくあるAI美人化では意味がない。

誰でも同じAI顔になる。
年齢感が消える。
骨格が変わる。
本人らしさがなくなる。

そうではなく、その人自身の特徴を残したまま、作品世界へ自然に存在させる。

そこが今回のテーマだった。

広告撮影とレタッチを分断しない制作を続けてきた

実は、僕自身はこれまでタレント広告を数多く手掛けてきた。

人物撮影と背景を別撮りし、後から合成する広告制作も多く経験している。

しかも、単に撮影だけをするのではなく、ディレクターから求められるビジュアルイメージを、撮影設計の段階から組み立て、その後のレタッチ、合成、空気感の調整まで、レタッチャーを使わず自分一人で完成まで持っていく仕事も何度もやってきた。

撮影者自身が最終レタッチまで行う。
これは広告制作では意外と少ない。

しかし、撮影段階から完成ビジュアルを逆算しているからこそ、

  • 光の作り方
  • レンズ感
  • 肌の見え方
  • 立体感
  • 背景との馴染み
  • 色温度
  • 空気感

そういった細部を、撮影とレタッチを分断せずに設計できる。

その完成度の高さを評価され、多くの仕事をいただいてきた。AppleやAdobeなどの企業セミナーへ呼ばれ、制作実例を解説してきたこともある。

つまり、今回AIでやろうとしていたことは、実は昔から広告制作でやってきたことの延長線上にある。

違うのは、撮影現場とPhotoshopの間に、AIが入ってきたことだった。

AIはすぐに“AIっぽさ”を出してくる

だから今回も、最初から単なるAI遊びとしては考えていなかった。

目指していたのは、広告ビジュアルとして成立するレベルだった。

花の種類。
色設計。
光の方向。
肌の透明感。
空気感。
被写界深度。
レンズ感。
ファッション感。

それらすべてが、一枚のビジュアルとして統合されている必要があった。

しかし、AIはすぐにAIっぽさを出してくる。

肌がプラスチックになる。
花の構造が崩れる。
光が軽くなる。
急にSNS量産系AI画像になる。

しかも、少しプロンプトを変えただけで、全体の世界観が壊れる。

花が強すぎる。
人物が埋もれる。
急に安っぽくなる。
ビューティー広告感が消える。

広告レベルのビジュアルとして成立する範囲が、驚くほど狭かった。

AI用プロンプトには“構文”がある

さらに途中で、かなり重要なことにも気づいた。

AI用プロンプトには、単語を書けばいいわけではなく、伝わる構文が存在しているということだった。

順番。
改行。
行替え。
情報の区切り。
情報量の密度。

それによって、AIの解釈が変わる。

実際、途中で僕が勝手に改行位置を変えた時、ChatGPT側から「それだと意図が崩れる」というレベルの修正が入った。

最初は半信半疑だった。

でも実際に生成すると、本当に結果が変わる。

重要な要素同士を近づけるのか。
切り離すのか。
どこで意味を区切るのか。

まるで、AIに対する演出指示のようだった。

これは単なる文章ではなく、視覚設計のための構文だった。

つまり今回やっていたのは、単なるプロンプト入力ではない。

AIへ対して、広告制作レベルのビジュアル指示を出す作業だった。

一番難しかったのは「第三者」を入れること

そして、本当に難しかったのはここからだった。

この完成した世界へ、現実の第三者を入れる。

つまり、一般の人のセルフィーを作品世界へ統合する必要があった。

ここで普通のAI変換をすると、全部が崩壊する。

誰でも同じAI顔になる。
肌が溶ける。
年齢感が消える。
本人性がなくなる。

でも、それでは意味がない。

必要だったのは、その人らしさを残したまま、世界へ馴染ませることだった。

本人性を維持すること。
作品世界を維持すること。

この二つを、同時に成立させなければいけなかった。

しかし、これは本来かなり矛盾する。

本人を優先すると世界観から浮く。
世界観を優先すると別人になる。

そのギリギリのバランスを探り続ける作業だった。

少し肌を整えすぎるだけでAI顔になる。
少し光を強くしすぎるだけで人物が浮く。
少し花を足しすぎるだけで安っぽい生成AI画像になる。

だから、延々と調整した。

AI同士を往復しながら作っていた

ChatGPTでプロンプトを修正し、画像生成を試し、崩れた部分を確認し、再びプロンプトを書き換える。

さらに、文章構造や説明ロジックについてはClaudeにもチェックさせた。

そしてまた、ChatGPT上で画像生成を行い、実際のビジュアルを確認しながら、さらに修正を繰り返す。

つまり、

  • 文章生成AI
  • 画像生成AI
  • 別AIによる検証
  • 人間側の美的判断

それらを何度も往復している。

AIが全部自動で作ったわけではない。

むしろ、AI同士を人間側が統括しながら、最終的なビジュアル精度を作っていく作業だった。

しかも、AIは毎回少しずつ結果が変わる。

昨日は良かった肌が崩れる。
光が変わる。
花の密度が変わる。
急にファッション感が消える。

だから毎回、細かく確認し続ける必要があった。

肌。
骨格。
目の距離感。
色温度。
立体感。
光の回り方。
空気感。
レンズ感。
レタッチ感。

細部を延々と見る。

これはもう、AI画像生成というより、広告制作のディレクションそのものだった。

AI時代に残るのは「設計力」

そして途中で、はっきり気づいた。

AIは、画像を作るのは速い。

でも、世界観を作るのは全然自動ではない。

むしろ、人間側の設計力が以前より強く問われる。

何を残すのか。
何を変えるのか。
どこまで修正するのか。
どこを壊してはいけないのか。

そこに、クリエイティブの本質が残っていた。

今回作りたかったのは、単なるAI作品ではない。

「この世界に、誰でも入れる」

という体験そのものだった。

完成した画像を保存し、セルフィーと一緒にChatGPTへ入れる。

すると、あなた自身が花と光の幻想世界へ存在する。

でもそこにいるのは、AI化された誰かではない。

ちゃんと、あなたのまま存在している。

そこまで成立させるために、膨大な試行錯誤が必要だった。

そして、たぶんこれはまだ始まりに過ぎない。

そんなに遠くない未来、マネージャーがスマホで撮ったタレントの写真から、広告ビジュアルやコマーシャル映像が作られる時代が来る。

スタジオ。
巨大な照明。
大人数のスタッフ。
高額な撮影費。

そういった従来の制作構造は、確実に変わっていく。

実際、AIはもうそこへかなり近づいている。

でも、だからこそ逆に見えてきたものがある。

重要なのは、「生成できること」ではない。

どんな世界観を設計するのか。
その人物をどう存在させるのか。
どこまで本人らしさを残すのか。
どこで作品として成立させるのか。

そこには、結局いまでも人間側の感覚が必要だった。

光を見る感覚。
人物を見る感覚。
空気感を判断する感覚。
違和感を察知する感覚。

そして、何を壊してはいけないかを理解する感覚。

AI時代になって消えるのは、作業そのものかもしれない。

でも、ビジュアルを成立させるための設計力や美意識は、むしろ以前より重要になる。

今回やっていたのは、単なるAI画像生成ではない。

広告制作。
撮影設計。
レタッチ。
ビジュアルディレクション。

そのすべてを、AI時代の方法論で再構築する作業だった。

たぶんこれからは、「撮る人」と「生成する人」が分かれるのではなく、世界観を設計し、人物を理解し、最終ビジュアルを統合できる人間が、より強く求められていくのだと思う。

追記:なぜ“現実の第三者を存在させる作業”にChatGPTを使うのか

今回の「花とモデル」のビューティービジュアルの多くは、実は生成自体には主にGeminiを使っている。

これを不思議に感じる人もいるかもしれない。

「AIビジュアルを作るなら、なぜChatGPTを使うのか?」
という疑問である。

これは用途の違いが大きい。

私の場合、現在はかなり明確に役割分担をしている。

  • Gemini → 素材生成
  • ChatGPT → 構造設計

である。

新規ビジュアルをゼロから作る場合、Geminiは非常にセンスが良い。
空気感、色の流れ、ビューティー系のニュアンス、偶発的な美しさなど、絵としての完成感を出す力が強い。

一方で、今回のように

  • AIで作った世界観へ
  • 現実の人物を追加し
  • しかも違和感なく存在させる

という作業になると、必要なのは「絵作り」よりも「構造整理」になる。

例えば、

  • どの位置に人物を置くのか
  • 光源方向をどう合わせるか
  • 被写界深度をどう統一するか
  • 肌の階調をどこまで既存ビジュアルへ寄せるか
  • 後から入った人物感をどう消すか

など、かなり論理的な校正設計が必要になる。

この領域では、ChatGPTの方が指示通りに制御しやすい。

つまり、

Geminiは「感覚的な生成」が得意で、
ChatGPTは「構造的な整理」が得意なのである。

特に今回のテーマのように、「AI世界の中へ現実人物を自然に存在させる」作業では、

単純な画像生成能力だけではなく、

  • 構図整合
  • 視線設計
  • 光の論理
  • 質感統一
  • 空間認識
  • レイヤー構造

のような制作設計の精度が重要になる。

AI時代のビジュアル制作は、「どのAIが優秀か」という話ではなく、

どの工程に、どのAIを使うか

という制作判断へ移行しているのである。

▶︎ [AI画像生成はどこまで進化したのか?Gemini・ChatGPT・Grokの違い]

自分のセルフィーが、一瞬でアートになる。

AIで作った花と人物の幻想的なポートレート。
あなたをこの世界にワープさせられます。

この画像を保存して、セルフィーと一緒にChatGPTに投げるだけ。
一瞬であなたが主人公になります。

できた画像、ぜひリプ欄で見せてください!
みんなの見るの楽しみにしてます。

【やり方】
① この画像を保存
② セルフィーを用意(自然光・正面・顔アップが◎)貴方の特徴を捉えるには真正面の写真が必要です
③ 2枚をChatGPTにアップ( ①②の順厳守)
④ リンク先のプロンプトをコピペ

プロンプトは2種類。
💡無料プランでもサクッと試せる「簡易版」
✨花や光の空気感までガチで再現する「完全版」
完全版は長いけど再現性バツグンです。

👇プロンプトはこちらからプロンプトはそれぞれの作品ごとに内容が違うので他の画像には使えません)

⭐︎Prompt:ヒナゲシ(雛芥子) Red Poppy
.pap-wrap{font-family:sans-serif;max-width:680px;margin:0 auto;padding:0 4px}.pap-desc{margin-bottom:1.2em;font-size:1em…
⭐︎Prompt:サンカヨウ(山荷葉)Skeleton flower
.pap-wrap{font-family:sans-serif;max-width:680px;margin:0 auto;padding:0 4px}.pap-desc{margin-bottom:1.2em;font-size:1em…
⭐︎Prompt:牡丹 Peonies
.pap-wrap{font-family:sans-serif;max-width:680px;margin:0 auto;padding:0 4px}.pap-desc{margin-bottom:1.2em;font-size:1em…
⭐︎Prompt:芍薬 Peony
.pap-wrap{font-family:sans-serif;max-width:680px;margin:0 auto;padding:0 4px}.pap-desc{margin-bottom:1.2em;font-size:1em…
⭐︎Prompt:カラー Calla Lily
.pap-wrap{font-family:sans-serif;max-width:680px;margin:0 auto;padding:0 4px}.pap-desc{margin-bottom:1.2em;font-size:1em…