
- Decomposição estrutural e instruções completas para garantir a reprodutibilidade -
- Introdução
- Os prompts são “projetos” em vez de “texto”
- Três fatores que reduzem a reprodutibilidade
- Princípios de design para melhorar a reprodutibilidade
- Solicitações completas de nível prático
- A essência deste prompt
- aplicativo:Como usar prompts corretamente
- resumo
- Explicação detalhada dos prompts acima
- ① Viés nos dados de aprendizagem
- ② Diferença de precisão na decomposição do token
- ③ Inglês é o idioma padrão para termos fotográficos
- ■Caso onde o japonês é adequado
- ●Estrutura recomendada
- ●Exemplo
- ●① Completamente em inglês + design interno em japonês
- ●② “Tradução intencional” do japonês para o inglês
Introdução
Na geração de retrato、Há um problema que muitas pessoas enfrentam。
É a instabilidade que ``uma imagem diferente aparece toda vez mesmo com o mesmo prompt''。
O problema não é simplesmente porque o prompt é curto.。
A essência é、Os prompts são “não estruturados”Está localizado em。
Neste artigo、Dividindo as instruções na geração de retratos em um “processo de produção”、Métodos de design que garantem a reprodutibilidade e、Guia completo para instruções práticas。
Os prompts são “projetos” em vez de “texto”
Um prompt típico tende a ser assim:。
- linda mulher
- cinematográfico
- alta qualidade
Mas isso、Em termos de processo de produção, é sinônimo de “tire a foto no bom sentido”.。
Em outras palavras、estado de nenhum controleです。
O que é importante é、O que deve ser feito é dividir o prompt conforme abaixo。
■Estrutura básica do prompt de retrato
- Design do assunto (Assunto)
- Estilo
- Pose/Composição / Composição)
- Iluminação
- Ambiente
- Configurações da câmera (Câmera)
- Cor/tom
- Estilo
- Emoção/Significado (Humor)
- Controle de qualidade
Esta estrutura é、Corresponde ao processo de produção do filme live-action.。
Então, o que é um prompt?、
Texto da direção de filmagem
です。
Três fatores que reduzem a reprodutibilidade
① Uso frequente de palavras abstratas
Palavras como “bonito” e “cinematográfico” podem ser interpretadas de forma muito ampla.、O resultado muda toda vez。
② Condições físicas indefinidas
posição de luz、distância da câmera、Se a distância focal etc. não for especificada,、A composição está embaçada。
③ Ignorando fatores de ruído
Plano de fundo, cabelo, expressões faciais, etc.、Se houver muitas partes que a IA interpreta livremente, ela ficará instável.。
Princípios de design para melhorar a reprodutibilidade
■1. Quantifique o máximo possível
- Distância (1,5m)
- Ângulo (45°)
- Cor (#código)
■2. Corrigir elementos oscilantes
- Expressão (neutra)
- visão (câmera)
- Penteado (comprimento/separação)
■3. Evite desvios com avisos negativos
- anime / desenho animado excluir
- Elimine a correção excessiva
- eliminação de ruído de fundo
Solicitações completas de nível prático
Abaixo está、Prompts projetados para maximizar a reprodutibilidade。
ultra-realistic portrait of a 26-year-old Japanese woman,
height 165cm, slim build, narrow shoulders, long neck,
oval face shape, small chin, straight nose bridge, slightly wide-set almond eyes,
dark brown iris (#3b2f2f), clear sclera, natural eyelashes,
light smooth skin with subtle pores, no blemishes, no freckles,
neutral calm expression, lips slightly closed, no smile,
eye contact directly to camera,
hair: medium-length (shoulder length), straight with slight inward curl at ends,
natural black (#1a1a1a), center part, slight volume at crown, no stray hair,
outfit: white silk blouse, matte texture, no patterns, slightly loose fit,
top button open, soft fabric folds, no accessories,
pose: seated upright on a chair, spine straight but relaxed,
hands resting gently on thighs, fingers naturally curved,
shoulders slightly angled (15 degrees to camera),
camera position: eye-level, 1.5 meters distance, centered framing,
framing: chest-up portrait, head near top margin,
lens: 85mm prime lens,
aperture: f/1.8,
depth of field: shallow, sharp focus on eyes, background fully blurred,
lighting setup:
single soft light at 45° camera left, slightly above eye level,
soft shadows on opposite side, subtle reflector fill (10%),
environment:
indoor studio, plain warm gray background (#d6d1cc), no objects,
color grading:
warm tone, low contrast, soft highlights, natural skin tones,
style:
editorial fashion photography, realistic, non-stylized,
negative prompt:
cartoon, anime, bad anatomy, extra fingers, blur, noise,
overexposed, harsh shadows, plastic skin, busy background,
--ar 2:3 --q 2 --style raw --seed 12345
A essência deste prompt
O valor deste prompt não é "comprimento"。
O que é importante é、
- não deixando espaço para interpretação
- variáveis fixas
- Verbaliza completamente o processo de produção
Esse é o ponto。
aplicativo:Como usar prompts corretamente
Esta versão completa não é uma "forma acabada", mas uma "base"。
Por exemplo,:
- Mude apenas a iluminação
- Basta mudar o penteado
- Troque apenas a lente
Ao substituir coisas como、
Você pode criar as variações desejadas.
Vai ficar assim。
resumo
O design imediato na geração de retratos é、
- em vez de adicionar palavras
- Projeto de estrutura de controle
です。
e o mais importante、
Qual processo deve ser deixado para a IA?、Onde os humanos deveriam projetar?
Esse é o ponto de vista。
IA é boa em “gerar”、“Design de intenção” não é possível。
O responsável pelo projeto é、Este é um aviso。
O que você precisa não é de técnica、
Quebrando o processo de produção、perspectiva para reconstruirです。
Explicação detalhada dos prompts acima
Este prompt não é apenas uma "descrição detalhada"、Especificações de controle projetadas para suprimir flutuações nos resultados gerados"é。
No seguinte、Cada blocoo que consertar、Como controlamos o grau de liberdade da IA?de、Vou decompô-lo e explicá-lo de uma perspectiva prática.。
■Compreender a estrutura geral (mais importante)
このプロンプトは以下の3層で構成されています:
① Definição de forma (Geometria)
→ 人物の物理的特徴・構図
② Definição óptica (óptica)
→ 光・レンズ・色
③ Restrições
→ AIの逸脱防止
👉 この3つを揃えることで、“再現性のある生成”が成立します
■① 被写体設計(Subject Design)
ultra-realistic portrait of a 26-year-old Japanese woman,
height 165cm, slim build, narrow shoulders, long neck,
oval face shape, small chin, straight nose bridge, slightly wide-set almond eyes
●Função
- 人物の「平均化」を防ぐ
- 骨格レベルでのブレを抑制
●Pontos
- 「26歳」→ 若すぎず老けすぎない中間固定
- 「narrow shoulders / long neck」→ シルエット制御
- 「face shape」→ 顔の輪郭を固定
👉AIは顔より“輪郭”の方がブレやすい
■② 目・肌の詳細定義(微細ディテール制御)
dark brown iris (#3b2f2f), clear sclera, natural eyelashes,
pele clara e lisa com poros sutis, sem manchas, sem sardas
●Função
- Evitando o “vale misterioso”
- Estabilização de textura
●Pontos
- Especifique o código de cores → Melhore a reprodutibilidade das cores
- esclera (peltre dos olhos) → Evita turvação
- poros → Evitar correção excessiva de IA
👉“A pele não é especificada” e transformada em plástico
■③ Expressão facial/olhar (o elemento mais variável)
expressão neutra e calma, lábios ligeiramente fechados, sem sorriso,
contato visual diretamente para a câmera
●Função
- Corrigir flutuações emocionais
●Pontos
- sem sorriso → Elimine mudanças sutis nas expressões faciais
- contato visual → prevenção do desvio da linha de visão
👉Quando seu olhar muda, você parece uma “pessoa diferente”
■④ Cabelo (controle da fonte de geração de ruído)
comprimento médio, direto, ondulação para dentro, parte central, sem cabelos soltos
●Função
- Suprimindo a maior causa de falha de geração
●Pontos
- Especifique todo o comprimento + forma + divisão
- Eliminação de cabelos soltos → redução de ruído
👉O cabelo é a parte mais instável para IA
■⑤ Traje (controle de reflexão de luz)
blusa de seda branca, textura fosca, sem padrões
●Função
- Estabilizar o comportamento da luz
●Pontos
- seda × fosco → evita reflexo excessivo
- sem padrões → redução de ruído de reconhecimento
👉Padrões fazem com que a IA reconheça erroneamente
■⑥ Pose (esqueleto da composição)
sentado ereto, mãos nas coxas, ombros inclinados 15°
●Função
- Prevenção do colapso da estrutura do corpo humano
●Pontos
- Designação das mãos → Medidas contra dedos tortos
- Especificação do ângulo → Evite anormalidades muito frontais
👉Se você não especificar o movimento, há uma grande probabilidade de que ele entre em colapso.
■⑦ Posição da câmera (ponto de vista fixo)
ao nível dos olhos, 1.5m distância, enquadramento centrado
●Função
- Estabilizando a perspectiva
●Pontos
- Especifique a distância → Evite distorção facial
- nível dos olhos → impressão natural
👉Distância não especificada = ocorre distorção de grande angular
■⑧ Lente/profundidade de campo (o núcleo da fotografia)
85milímetros, f1.8, profundidade de campo rasa
●Função
- Determinando a semelhança fotográfica
●Pontos
- 85mm → padrão retrato
- f1.8 → separação de fundo
👉Este é o ponto de viragem entre “sensação de CG” e “sensação de foto”
■⑨ Escrita (mais importante)
luz suave única a 45°, um pouco acima do nível dos olhos
●Função
- Criando um efeito tridimensional
●Pontos
- 45° → Equilíbrio ideal de sombras faciais
- De cima → Reprodução da luz natural
- preencher 10% → コントラスト微調整
👉光を制御しない=全てが崩れる
■⑩ 環境(ノイズ遮断)
plain warm gray background (#d6d1cc), no objects
●Função
- 背景の暴走防止
●Pontos
- 単色指定 → 認識安定
- no objects → 不要要素排除
■⑪ カラーグレーディング
warm tone, low contrast, soft highlights
●Função
- 印象の統一
👉 撮影後の「現像工程」に相当
■⑫ スタイル指定
editorial fashion photography, realistic, non-stylized
●Função
- 出力の方向性固定
👉 “photorealistic”より具体性が高い
■⑬ ネガティブプロンプト(制約)
cartoon, anime, bad anatomy, extra fingers...
●Função
- AIの暴走防止
●Pontos
- anatomy系 → 形状崩れ防止
- style系 → 漫画化防止
👉ポジティブより重要な場合も多い
■⑭ パラメータ
--ar 2:3 --q 2 --style raw --seed 12345
●Função
- 最終制御
- ar → 構図比率
- seed → 再現性の核
👉A reprodução completa é impossível sem uma semente
■A essência deste prompt
Esta solicitação é
- Não é porque é detalhado que é bom.
- Estável porque “as variáveis são esmagadas”
O desenho é。
■Compreensão importante
Essa estrutura permanece、
Planejamento → Conceito → Fotografia → Desenvolvimento
Isso é consistente com a produção live-action.。
■Resumo
A essência deste prompt é:
- eliminar expressões ambíguas
- em condições físicas
- Elimine os fatores de ruído com antecedência
Em outras palavras、
Em vez de deixar isso para a IA、Projetado para controlar IA
です。
■Por que o inglês é mais vantajoso
① Viés nos dados de aprendizagem
Muitos modelos generativos、
- 英語キャプション付き画像
- 英語圏のデータセット(LAIONなど)
で学習されています。
👉 つまり、
概念とビジュアルの結びつきが英語で最適化されている
② Diferença de precisão na decomposição do token
AIは文章をそのまま理解しているのではなく、トークン(意味単位)に分解しています。
Para inglês
- “soft light”
- “85mm lens”
👉 意味単位で安定して分解される
Para japonês
- 「柔らかい光」
- 「85mmレンズ」
👉 分解が不安定になりやすい
(文脈依存・曖昧性が高い)
③ Inglês é o idioma padrão para termos fotográficos
Por exemplo,:
- aperture(絞り)
- depth of field(被写界深度)
- rim light
- iluminação cinematográfica
👉 これらは英語で学習されている前提語彙
■では日本語は使えないのか?
para concluir:使えるが、用途を分けるべき
■Caso onde o japonês é adequado
① Conceito/Emoção
- 「静かな朝の雰囲気」
- 「孤独感のある表情」
👉 抽象概念は日本語でも機能する
② Geração aproximada
- Geração de ideias
- 雰囲気確認
👉 精度より方向性重視
■日本語が不利なケース
① Designação física e técnica (fatal)
- 光の角度
- lente
- 距離
👉 ここは英語でないと崩れる
② Quando a reprodutibilidade é necessária
👉 同じ画像を出したいなら英語必須
■実務的な最適解(重要)
👉ハイブリッド運用
●Estrutura recomendada
[英語:物理・構造]
+
[japonês:コンセプト・感情]
●Exemplo
ultra-realistic portrait, 85mm lens, soft lighting, profundidade de campo rasa,静かな朝の空気感、少し内省的な表情、Atmosfera calma
👉 これが最もバランスが良い
■さらに精度を上げる方法
●① Completamente em inglês + design interno em japonês
- 設計 → 日本語で考える
- 出力 → 英語に変換
👉 実務ではこれが主流
●② “Tradução intencional” do japonês para o inglês
単純翻訳はNG:
❌ 「柔らかい光」→ soft light
✔ 「窓からの拡散光」→ diffused window light
👉写真用語に変換することが重要
■よくある誤解
❌「日本語対応モデルなら問題ない」
→部分的には正しいが不十分
razão:
- Eu posso entender a linguagem
- masO inglês é dominante quando se trata de conexões visuais
■Conclusão
- Também pode ser gerado em japonês.
- mas
O inglês é superior em termos de precisão, reprodutibilidade e controlabilidade.
■Essência
O problema não é o idioma、
Até que ponto a descrição é “controlável”?
です。
Porém, no modelo atual、
Seu idioma de controle é otimizado para inglês
Essa é a realidade。
*Use o prompt acima、Tentei gerar imagens com Gemin e ChatGPT。(toda vez、(Pode não ser a mesma foto)
ChatGPT criou um rosto que é comumente visto em imagens de IA.。Para Gêmeos,、Parece natural, como uma pessoa real。mas、Gêmeos ignora o pedido de balançar os ombros em 15 graus.。Há muitos lugares onde Gêmeos não obedece às suas instruções.。
![]() | ![]() |
| Gêmeos | Bate-papoGPT |
em japonês、Acabei de digitar "Faça um penteado com coque"。
![]() | ![]() |
| Gêmeos | Bate-papoGPT |
em japonês、Acabei de digitar “Um vestido justo dourado com decote aberto”.。
![]() | ![]() |
| Gêmeos | Bate-papoGPT |
▶︎[Design de prompt de IA de geração de retrato começando em japonês]
▶︎ [Como escrever um prompt de foto AI | Dicas para criar fotos realistas]]
▶︎ [Como fazer fotos de IA | Como fazer fotos realistas com IA de geração de imagens]
▶︎ [Como fazer fotos de retratos com IA/explicação imediata de qualidade profissional]








