Teoria prática do design de prompt na IA de geração de retratos

Teoria prática do design de prompt na IA de geração de retratos | 杉山宣嗣

- Decomposição estrutural e instruções completas para garantir a reprodutibilidade -

Introdução

Na geração de retrato、Há um problema que muitas pessoas enfrentam。
É a instabilidade que ``uma imagem diferente aparece toda vez mesmo com o mesmo prompt''。

O problema não é simplesmente porque o prompt é curto.。
A essência é、Os prompts são “não estruturados”Está localizado em。

Neste artigo、Dividindo as instruções na geração de retratos em um “processo de produção”、Métodos de design que garantem a reprodutibilidade e、Guia completo para instruções práticas。


Os prompts são “projetos” em vez de “texto”

Um prompt típico tende a ser assim:。

  • linda mulher
  • cinematográfico
  • alta qualidade

Mas isso、Em termos de processo de produção, é sinônimo de “tire a foto no bom sentido”.。
Em outras palavras、estado de nenhum controleです。

O que é importante é、O que deve ser feito é dividir o prompt conforme abaixo。

■Estrutura básica do prompt de retrato

  • Design do assunto (Assunto)
  • Estilo
  • Pose/Composição / Composição)
  • Iluminação
  • Ambiente
  • Configurações da câmera (Câmera)
  • Cor/tom
  • Estilo
  • Emoção/Significado (Humor)
  • Controle de qualidade

Esta estrutura é、Corresponde ao processo de produção do filme live-action.。
Então, o que é um prompt?、

Texto da direção de filmagem

です。


Três fatores que reduzem a reprodutibilidade

① Uso frequente de palavras abstratas

Palavras como “bonito” e “cinematográfico” podem ser interpretadas de forma muito ampla.、O resultado muda toda vez。

② Condições físicas indefinidas

posição de luz、distância da câmera、Se a distância focal etc. não for especificada,、A composição está embaçada。

③ Ignorando fatores de ruído

Plano de fundo, cabelo, expressões faciais, etc.、Se houver muitas partes que a IA interpreta livremente, ela ficará instável.。


Princípios de design para melhorar a reprodutibilidade

■1. Quantifique o máximo possível

  • Distância (1,5m)
  • Ângulo (45°)
  • Cor (#código)

■2. Corrigir elementos oscilantes

  • Expressão (neutra)
  • visão (câmera)
  • Penteado (comprimento/separação)

■3. Evite desvios com avisos negativos

  • anime / desenho animado excluir
  • Elimine a correção excessiva
  • eliminação de ruído de fundo

Solicitações completas de nível prático

Abaixo está、Prompts projetados para maximizar a reprodutibilidade。

ultra-realistic portrait of a 26-year-old Japanese woman,
height 165cm, slim build, narrow shoulders, long neck,
oval face shape, small chin, straight nose bridge, slightly wide-set almond eyes,
dark brown iris (#3b2f2f), clear sclera, natural eyelashes,
light smooth skin with subtle pores, no blemishes, no freckles,

neutral calm expression, lips slightly closed, no smile,
eye contact directly to camera,

hair: medium-length (shoulder length), straight with slight inward curl at ends,
natural black (#1a1a1a), center part, slight volume at crown, no stray hair,

outfit: white silk blouse, matte texture, no patterns, slightly loose fit,
top button open, soft fabric folds, no accessories,

pose: seated upright on a chair, spine straight but relaxed,
hands resting gently on thighs, fingers naturally curved,
shoulders slightly angled (15 degrees to camera),

camera position: eye-level, 1.5 meters distance, centered framing,
framing: chest-up portrait, head near top margin,

lens: 85mm prime lens,
aperture: f/1.8,
depth of field: shallow, sharp focus on eyes, background fully blurred,

lighting setup:
single soft light at 45° camera left, slightly above eye level,
soft shadows on opposite side, subtle reflector fill (10%),

environment:
indoor studio, plain warm gray background (#d6d1cc), no objects,

color grading:
warm tone, low contrast, soft highlights, natural skin tones,

style:
editorial fashion photography, realistic, non-stylized,

negative prompt:
cartoon, anime, bad anatomy, extra fingers, blur, noise,
overexposed, harsh shadows, plastic skin, busy background,

--ar 2:3 --q 2 --style raw --seed 12345

A essência deste prompt

O valor deste prompt não é "comprimento"。

O que é importante é、

  • não deixando espaço para interpretação
  • variáveis ​​fixas
  • Verbaliza completamente o processo de produção

Esse é o ponto。


aplicativo:Como usar prompts corretamente

Esta versão completa não é uma "forma acabada", mas uma "base"。

Por exemplo,:

  • Mude apenas a iluminação
  • Basta mudar o penteado
  • Troque apenas a lente

Ao substituir coisas como、

Você pode criar as variações desejadas.

Vai ficar assim。


resumo

O design imediato na geração de retratos é、

  • em vez de adicionar palavras
  • Projeto de estrutura de controle

です。

e o mais importante、

Qual processo deve ser deixado para a IA?、Onde os humanos deveriam projetar?

Esse é o ponto de vista。

IA é boa em “gerar”、“Design de intenção” não é possível。
O responsável pelo projeto é、Este é um aviso。


O que você precisa não é de técnica、
Quebrando o processo de produção、perspectiva para reconstruirです。

Explicação detalhada dos prompts acima

Este prompt não é apenas uma "descrição detalhada"、Especificações de controle projetadas para suprimir flutuações nos resultados gerados"é。

No seguinte、Cada blocoo que consertar、Como controlamos o grau de liberdade da IA?de、Vou decompô-lo e explicá-lo de uma perspectiva prática.。


■Compreender a estrutura geral (mais importante)

このプロンプトは以下の3層で構成されています

① Definição de forma (Geometria)

→ 人物の物理的特徴・構図

② Definição óptica (óptica)

→ 光・レンズ・色

③ Restrições

→ AIの逸脱防止

👉 この3つを揃えることで“再現性のある生成”が成立します


■① 被写体設計(Subject Design)

ultra-realistic portrait of a 26-year-old Japanese woman,
height 165cm, slim build, narrow shoulders, long neck,
oval face shape, small chin, straight nose bridge, slightly wide-set almond eyes

●Função

  • 人物の「平均化」を防ぐ
  • 骨格レベルでのブレを抑制

●Pontos

  • 「26歳」→ 若すぎず老けすぎない中間固定
  • 「narrow shoulders / long neck」→ シルエット制御
  • 「face shape」→ 顔の輪郭を固定

👉AIは顔より“輪郭”の方がブレやすい


■② 目・肌の詳細定義(微細ディテール制御)

dark brown iris (#3b2f2f), clear sclera, natural eyelashes,
pele clara e lisa com poros sutis, sem manchas, sem sardas

●Função

  • Evitando o “vale misterioso”
  • Estabilização de textura

●Pontos

  • Especifique o código de cores → Melhore a reprodutibilidade das cores
  • esclera (peltre dos olhos) → Evita turvação
  • poros → Evitar correção excessiva de IA

👉“A pele não é especificada” e transformada em plástico


■③ Expressão facial/olhar (o elemento mais variável)

expressão neutra e calma, lábios ligeiramente fechados, sem sorriso,
contato visual diretamente para a câmera

●Função

  • Corrigir flutuações emocionais

●Pontos

  • sem sorriso → Elimine mudanças sutis nas expressões faciais
  • contato visual → prevenção do desvio da linha de visão

👉Quando seu olhar muda, você parece uma “pessoa diferente”


■④ Cabelo (controle da fonte de geração de ruído)

comprimento médio, direto, ondulação para dentro, parte central, sem cabelos soltos

●Função

  • Suprimindo a maior causa de falha de geração

●Pontos

  • Especifique todo o comprimento + forma + divisão
  • Eliminação de cabelos soltos → redução de ruído

👉O cabelo é a parte mais instável para IA


■⑤ Traje (controle de reflexão de luz)

blusa de seda branca, textura fosca, sem padrões

●Função

  • Estabilizar o comportamento da luz

●Pontos

  • seda × fosco → evita reflexo excessivo
  • sem padrões → redução de ruído de reconhecimento

👉Padrões fazem com que a IA reconheça erroneamente


■⑥ Pose (esqueleto da composição)

sentado ereto, mãos nas coxas, ombros inclinados 15°

●Função

  • Prevenção do colapso da estrutura do corpo humano

●Pontos

  • Designação das mãos → Medidas contra dedos tortos
  • Especificação do ângulo → Evite anormalidades muito frontais

👉Se você não especificar o movimento, há uma grande probabilidade de que ele entre em colapso.


■⑦ Posição da câmera (ponto de vista fixo)

ao nível dos olhos, 1.5m distância, enquadramento centrado

●Função

  • Estabilizando a perspectiva

●Pontos

  • Especifique a distância → Evite distorção facial
  • nível dos olhos → impressão natural

👉Distância não especificada = ocorre distorção de grande angular


■⑧ Lente/profundidade de campo (o núcleo da fotografia)

85milímetros, f1.8, profundidade de campo rasa

●Função

  • Determinando a semelhança fotográfica

●Pontos

  • 85mm → padrão retrato
  • f1.8 → separação de fundo

👉Este é o ponto de viragem entre “sensação de CG” e “sensação de foto”


■⑨ Escrita (mais importante)

luz suave única a 45°, um pouco acima do nível dos olhos

●Função

  • Criando um efeito tridimensional

●Pontos

  • 45° → Equilíbrio ideal de sombras faciais
  • De cima → Reprodução da luz natural
  • preencher 10% → コントラスト微調整

👉光を制御しない=全てが崩れる


■⑩ 環境(ノイズ遮断)

plain warm gray background (#d6d1cc), no objects

●Função

  • 背景の暴走防止

●Pontos

  • 単色指定 → 認識安定
  • no objects → 不要要素排除

■⑪ カラーグレーディング

warm tone, low contrast, soft highlights

●Função

  • 印象の統一

👉 撮影後の「現像工程」に相当


■⑫ スタイル指定

editorial fashion photography, realistic, non-stylized

●Função

  • 出力の方向性固定

👉 “photorealistic”より具体性が高い


■⑬ ネガティブプロンプト(制約)

cartoon, anime, bad anatomy, extra fingers...

●Função

  • AIの暴走防止

●Pontos

  • anatomy系 → 形状崩れ防止
  • style系 → 漫画化防止

👉ポジティブより重要な場合も多い


■⑭ パラメータ

--ar 2:3 --q 2 --style raw --seed 12345

●Função

  • 最終制御
  • ar → 構図比率
  • seed → 再現性の核

👉A reprodução completa é impossível sem uma semente


■A essência deste prompt

Esta solicitação é

  • Não é porque é detalhado que é bom.
  • Estável porque “as variáveis ​​são esmagadas”

O desenho é。


■Compreensão importante

Essa estrutura permanece、

Planejamento → Conceito → Fotografia → Desenvolvimento

Isso é consistente com a produção live-action.。


■Resumo

A essência deste prompt é:

  • eliminar expressões ambíguas
  • em condições físicas
  • Elimine os fatores de ruído com antecedência

Em outras palavras、

Em vez de deixar isso para a IA、Projetado para controlar IA

です。


■Por que o inglês é mais vantajoso

① Viés nos dados de aprendizagem

Muitos modelos generativos、

  • 英語キャプション付き画像
  • 英語圏のデータセット(LAIONなど)

で学習されています

👉 つまり

概念とビジュアルの結びつきが英語で最適化されている


② Diferença de precisão na decomposição do token

AIは文章をそのまま理解しているのではなくトークン(意味単位)に分解しています

Para inglês

  • “soft light”
  • “85mm lens”

👉 意味単位で安定して分解される


Para japonês

  • 「柔らかい光」
  • 「85mmレンズ」

👉 分解が不安定になりやすい
(文脈依存・曖昧性が高い)


③ Inglês é o idioma padrão para termos fotográficos

Por exemplo,:

  • aperture(絞り)
  • depth of field(被写界深度)
  • rim light
  • iluminação cinematográfica

👉 これらは英語で学習されている前提語彙


■では日本語は使えないのか?

para concluir:使えるが用途を分けるべき


■Caso onde o japonês é adequado

① Conceito/Emoção

  • 「静かな朝の雰囲気」
  • 「孤独感のある表情」

👉 抽象概念は日本語でも機能する


② Geração aproximada

  • Geração de ideias
  • 雰囲気確認

👉 精度より方向性重視


■日本語が不利なケース

① Designação física e técnica (fatal)

  • 光の角度
  • lente
  • 距離

👉 ここは英語でないと崩れる


② Quando a reprodutibilidade é necessária

👉 同じ画像を出したいなら英語必須


■実務的な最適解(重要)

👉ハイブリッド運用


●Estrutura recomendada

[英語物理・構造]
+
[japonês:コンセプト・感情]

●Exemplo

ultra-realistic portrait, 85mm lens, soft lighting, profundidade de campo rasa,静かな朝の空気感少し内省的な表情、Atmosfera calma

👉 これが最もバランスが良い


■さらに精度を上げる方法

●① Completamente em inglês + design interno em japonês

  • 設計 → 日本語で考える
  • 出力 → 英語に変換

👉 実務ではこれが主流


●② “Tradução intencional” do japonês para o inglês

単純翻訳はNG

❌ 「柔らかい光」→ soft light
✔ 「窓からの拡散光」→ diffused window light

👉写真用語に変換することが重要


■よくある誤解

❌「日本語対応モデルなら問題ない」
部分的には正しいが不十分

razão:

  • Eu posso entender a linguagem
  • masO inglês é dominante quando se trata de conexões visuais

■Conclusão

  • Também pode ser gerado em japonês.
  • mas
    O inglês é superior em termos de precisão, reprodutibilidade e controlabilidade.

■Essência

O problema não é o idioma、

Até que ponto a descrição é “controlável”?

です。

Porém, no modelo atual、

Seu idioma de controle é otimizado para inglês

Essa é a realidade。


*Use o prompt acima、Tentei gerar imagens com Gemin e ChatGPT。(toda vez、(Pode não ser a mesma foto)

ChatGPT criou um rosto que é comumente visto em imagens de IA.。Para Gêmeos,、Parece natural, como uma pessoa real。mas、Gêmeos ignora o pedido de balançar os ombros em 15 graus.。Há muitos lugares onde Gêmeos não obedece às suas instruções.。

GêmeosBate-papoGPT

em japonês、Acabei de digitar "Faça um penteado com coque"。

GêmeosBate-papoGPT

em japonês、Acabei de digitar “Um vestido justo dourado com decote aberto”.。

GêmeosBate-papoGPT






▶︎[Design de prompt de IA de geração de retrato começando em japonês]

▶︎ [Como escrever um prompt de foto AI | Dicas para criar fotos realistas]]

▶︎ [Como fazer fotos de IA | Como fazer fotos realistas com IA de geração de imagens]

▶︎ [Como fazer fotos de retratos com IA/explicação imediata de qualidade profissional]

▶︎ [Crie fotos em estilo gravura com retrato AI]

▶︎ [Crie a imagem desejada com Nano Banana]