肖像生成AI提示设计实用理论

肖像生成AI提示设计实用理论 | 杉山宣嗣

- 结构分解和完整提示,确保重现性 -

介绍

肖像一代、有一个问题是很多人都面临的。
就是“即使有相同的提示,每次都会出现不同的图像”的不稳定性。

问题不仅仅是因为提示很短。。
本质是、提示是“非结构化的”它位于。

在本文中、将人像生成的提示分解为“制作过程”、确保可重复性和、实用提示的完整指南。


提示是“蓝图”而不是“文字”

典型的提示往往如下所示:。

  • 美丽的女人
  • 电影般的
  • 高质量

但这、从制作过程来说,它就是“请好好拍照”的代名词。。
换句话说、完全无法控制的状态です。

重要的是、要做的就是将提示分解如下。

■竖屏提示的基本结构

  • 被写体设计(Subject)
  • 造型
  • 姿势/构图 / 作品)
  • 灯光
  • 环境(Environment)
  • 相机设置(相机)
  • 颜色/色调
  • 风格
  • 情感/意义(心情)
  • 质量控制

这个结构是、与真人电影的制作流程相符。。
那么什么是提示呢?、

拍摄方向文字

です。


降低再现性的三个因素

① 频繁使用抽象词

“美丽”和“电影般”等词的解释可能过于宽泛。、结果每次都会改变。

② 身体状况不明确

灯光位置、相机距离、如果没有指定焦距等,、构图模糊。

③ 忽略噪声因素

背景、头发、面部表情等。、如果AI自由解释的部分太多,就会变得不稳定。。


提高再现性的设计原则

■1. 尽可能量化

  • 距离(1.5m)
  • 角度(45°)
  • 颜色(#code)

■2. 修复晃动的元素

  • 表情(neutral)
  • 视线(camera)
  • 发型(长度/分开)

■3. 通过负面提示防止偏差

  • 日本动画片 / cartoon 排除
  • 消除过度校正
  • 背景噪音消除

完成实用级别提示

下面是、旨在最大限度提高再现性的提示。

ultra-realistic portrait of a 26-year-old Japanese woman,
height 165cm, slim build, narrow shoulders, long neck,
oval face shape, small chin, straight nose bridge, slightly wide-set almond eyes,
dark brown iris (#3b2f2f), clear sclera, natural eyelashes,
light smooth skin with subtle pores, no blemishes, no freckles,

neutral calm expression, lips slightly closed, no smile,
eye contact directly to camera,

hair: medium-length (shoulder length), straight with slight inward curl at ends,
natural black (#1a1a1a), center part, slight volume at crown, no stray hair,

outfit: white silk blouse, matte texture, no patterns, slightly loose fit,
top button open, soft fabric folds, no accessories,

pose: seated upright on a chair, spine straight but relaxed,
hands resting gently on thighs, fingers naturally curved,
shoulders slightly angled (15 degrees to camera),

camera position: eye-level, 1.5 meters distance, centered framing,
framing: chest-up portrait, head near top margin,

lens: 85mm prime lens,
aperture: f/1.8,
depth of field: shallow, sharp focus on eyes, background fully blurred,

lighting setup:
single soft light at 45° camera left, slightly above eye level,
soft shadows on opposite side, subtle reflector fill (10%),

environment:
indoor studio, plain warm gray background (#d6d1cc), no objects,

color grading:
warm tone, low contrast, soft highlights, natural skin tones,

style:
editorial fashion photography, realistic, non-stylized,

negative prompt:
cartoon, anime, bad anatomy, extra fingers, blur, noise,
overexposed, harsh shadows, plastic skin, busy background,

--ar 2:3 --q 2 --style raw --seed 12345

这个提示的本质

这个提示的值不是“length”。

重要的是、

  • 不留任何解释的余地
  • 固定变量
  • 完整描述制作过程

这就是重点。


应用:如何正确使用提示

这个完整版本不是“成品”而是“基础”。

例如:

  • 仅更改照明
  • 换个发型就好了
  • 仅更换镜头

通过替换类似的东西、

您可以设计您想要的变体。

它会看起来像这样。


概括

肖像生成中的提示设计是、

  • 而不是添加单词
  • 控制结构设计

です。

最重要的是、

哪些流程应该留给AI?、人类应该在哪里设计?

这就是观点。

AI擅长“生成”、“意图设计”是不可能的。
设计负责人是、这是一个提示。


你需要的不是技术、
分解生产流程、重建的视角です。

上述提示的详细解释

这个提示不仅仅是“详细说明”、旨在抑制生成结果波动的控制规范“是。

在下文中、每个区块修复什么、我们如何控制AI的自由度?的、我会从实际的角度来分解和解释。。


■了解整体结构(最重要)

该提示由三层组成::

① 形状定义(Geometry)

→ 人物の物理的特徴・構図

② 光学定义(Optics)

→ 光・レンズ・色

③ 制约条件(Constraints)

→ AIの逸脱防止

👉 この3つを揃えることで“再現性のある生成”が成立します


■① 被写体設計(Subject Design)

ultra-realistic portrait of a 26-year-old Japanese woman,
height 165cm, slim build, narrow shoulders, long neck,
oval face shape, small chin, straight nose bridge, slightly wide-set almond eyes

●角色

  • 人物の「平均化」を防ぐ
  • 骨格レベルでのブレを抑制

●积分

  • 「26歳」→ 若すぎず老けすぎない中間固定
  • 「narrow shoulders / long neck」→ シルエット制御
  • 「face shape」→ 顔の輪郭を固定

👉AIは顔より“輪郭”の方がブレやすい


■② 目・肌の詳細定義(微細ディテール制御)

dark brown iris (#3b2f2f), clear sclera, natural eyelashes,
light smooth skin with subtle pores, no blemishes, no freckles

●角色

  • 「不気味の谷」回避
  • 纹理稳定

●积分

  • 指定颜色代码→提高颜色再现性
  • 巩膜(眼睛的白蜡)→防止混浊
  • 毛孔→防止过度AI修正

👉“皮肤未指定”并制成塑料


■③ 表情/眼神(变化最大的要素)

中性平静的表情, 嘴唇微闭, 没有微笑,
直接与相机进行目光接触

●角色

  • 修复情绪波动

●积分

  • 没有微笑→消除面部表情的细微变化
  • 目光接触→防止视线偏差

👉当你的目光转移时,你看起来就像“另一个人”


■④ 头发(控制噪音产生源)

中等长度, 直的, 向内卷曲, 中心部分, 没有杂乱的头发

●角色

  • 抑制发电失败的最大原因

●积分

  • 指定所有长度+形状+分型
  • 消除杂毛 → 降噪

👉头发是AI最不稳定的部分


■⑤服装(光反射控制)

白色丝绸衬衫, 哑光质感, 没有图案

●角色

  • 稳定光的行为

●积分

  • 丝绸×哑光→防止过度反光
  • 无模式→识别降噪

👉模式导致人工智能误识别


■⑥ 姿势(构图骨架)

坐直, 双手放在大腿上, 肩部倾斜15°

●角色

  • 预防人体结构塌陷

●积分

  • 手部指定 → 手指弯曲对策
  • 角度规格 → 避免过于正面的不自然

👉如果不指定动作,很有可能会崩溃。


■⑦ 摄像机位置(固定视点)

视线水平, 1.5米距离, 居中取景

●角色

  • 稳定视角

●积分

  • 指定距离 → 防止面部变形
  • 视线水平→自然印象

👉未指定距离 = 发生广角畸变


■⑧镜头/景深(摄影的核心)

85毫米, f1.8, 浅景深

●角色

  • 确定照片相似度

●积分

  • 85毫米 → 纵向标准
  • f1.8 → 背景分离

👉这是“CG感”和“照片感”的转折点


■⑨ 写作(最重要)

45°单柔光, 略高于眼睛水平

●角色

  • 创造三维效果

●积分

  • 45° → 最佳面部阴影平衡
  • 从上方→自然光再现
  • 充满 10% → 对比度微调

👉不控制光=一切都会崩溃


■⑩ 環境(ノイズ遮断)

plain warm gray background (#d6d1cc), no objects

●角色

  • 背景の暴走防止

●积分

  • 単色指定 → 認識安定
  • no objects → 不要要素排除

■⑪ カラーグレーディング

warm tone, low contrast, soft highlights

●角色

  • 印象の統一

👉 撮影後の「現像工程」に相当


■⑫ スタイル指定

editorial fashion photography, realistic, non-stylized

●角色

  • 出力の方向性固定

👉 “photorealistic”より具体性が高い


■⑬ ネガティブプロンプト(制約)

cartoon, 日本动画片, bad anatomy, extra fingers...

●角色

  • AIの暴走防止

●积分

  • anatomy系 → 形状崩れ防止
  • style系 → 漫画化防止

👉ポジティブより重要な場合も多い


■⑭ パラメータ

--ar 2:3 --q 2 --style raw --seed 12345

●角色

  • 最終制御
  • ar → 構図比率
  • seed → 再現性の核

👉seedがないと完全再現は不可能


■本提示的实质内容

这个提示是

  • 并不是因为详细就说明它好。
  • 稳定,因为“变量被压垮”

设计是。


■重要理解

这个结构依然保留、

规划→概念→摄影→开发

这与真人制作是一致的。。


■概要

这个提示的本质是:

  • 消除歧义表达
  • 进入身体状况
  • 提前消除噪音因素

换句话说、

而不是把它留给人工智能、旨在控制人工智能

です。


■为什么英语更有优势

① 学习数据的偏差

许多生成模型、

  • 带有英文字幕的图片
  • 英語圏のデータセット(LAIONなど)

で学習されています

👉 つまり

概念とビジュアルの結びつきが英語で最適化されている


② 代币分解的精度差异

AIは文章をそのまま理解しているのではなくトークン(意味単位)に分解我正在做。

对于英语

  • “soft light”
  • “85mm lens”

👉 意味単位で安定して分解される


对于日语

  • 「柔らかい光」
  • 「85mmレンズ」

👉 分解が不安定になりやすい
(文脈依存・曖昧性が高い)


③ 摄影术语以英语为标准语言

例如:

  • aperture(絞り)
  • depth of field(被写界深度)
  • rim light
  • 电影灯光

👉 これらは英語で学習されている前提語彙


■では日本語は使えないのか?

结论:使えるが用途を分けるべき


■适合日语的情况

① 观念/情感

  • 「静かな朝の雰囲気」
  • 「孤独感のある表情」

👉 抽象概念は日本語でも機能する


② 粗加工生成

  • 创意产生
  • 雰囲気確認

👉 精度より方向性重視


■日本語が不利なケース

① 物理・技术指定(致命的)

  • 光の角度
  • 镜片
  • 距離

👉 ここは英語でないと崩れる


② 需要再现性时

👉 同じ画像を出したいなら英語必須


■実務的な最適解(重要)

👉ハイブリッド運用


●推荐结构

[英語物理・構造]
+
[日本人:コンセプト・感情]

●示例

ultra-realistic portrait, 85mm lens, soft lighting, 浅景深,静かな朝の空気感少し内省的な表情、平静的气氛

👉 これが最もバランスが良い


■さらに精度を上げる方法

●① 完全英文+日文内部设计

  • 設計 → 日本語で考える
  • 出力 → 英語に変換

👉 実務ではこれが主流


●②“意向翻译”从日语到英语

単純翻訳はNG

❌“柔光”→柔光
✔ “来自窗户的漫射光” → 漫射窗户光

👉翻译成摄影术语很重要


■常见的误解

❌“只要是支持日语的机型就没问题”
部分正确但还不够

原因:

  • 我能听懂语言
  • 在视觉联系方面英语占主导地位

■结论

  • 也可以生成日语版。

  • 英语在准确性、再现性、可控性方面更胜一筹。

■本质

问题不在于语言、

描述在多大程度上是“可控的”?

です。

然而,在当前模型中、

其控制语言针对英语进行了优化

这就是现实。


*使用上面的提示、我尝试使用 Gemin 和 ChatGPT 生成图像。(每次、(可能不是同一张照片)

ChatGPT 创造了人工智能图像中常见的面孔。。对于双子座来说,、看起来很自然,就像真人一样。但、双子座无视你肩膀摇动15度的要求。。双子座有很多地方不听你的指挥。。

双子座聊天GPT

日语、我刚刚输入“留一个发髻发型”。

双子座聊天GPT

日语、我刚刚输入“一件金色开领吊带裙。”。

双子座聊天GPT






▶︎【日文首发的肖像生成AI提示设计】

▶︎ 【如何写AI拍照提示|创建逼真照片的技巧]]

▶︎ 【如何制作AI照片|如何利用图像生成AI制作逼真的照片]

▶︎ 【如何制作AI人像照片/专业品质提示讲解】

▶︎ [利用AI人像制作凹版风格的照片]

▶︎ [用 Nano Banana 创建所需的图像]