Teoría práctica del diseño rápido en IA de generación de retratos

Teoría práctica del diseño rápido en IA de generación de retratos | 杉山宣嗣

- Descomposición estructural y indicaciones completas para garantizar la reproducibilidad -

Introducción

En generación de retratos、Hay un problema que enfrentan muchas personas.。
Es la inestabilidad de que "cada vez aparece una imagen diferente incluso con el mismo mensaje".。

El problema no es simplemente que el mensaje sea breve.。
La esencia es、プロンプトが“構造化されていない”ことEsta ubicado en。

En este artículo、Desglosar las indicaciones en la generación de retratos en un "proceso de producción"、Diseñar métodos que garanticen la reproducibilidad y、Guía completa de indicaciones prácticas.。


Las indicaciones son "planos" en lugar de "texto"

Un mensaje típico tiende a verse así:。

  • hermosa mujer
  • cinematográfico
  • alta calidad

Pero esto、En cuanto al proceso de producción, es sinónimo de "por favor, toma la foto de buena manera".。
En otras palabras、estado de ningún control en absolutoです。

Lo importante es、Lo que hay que hacer es desglosar el mensaje como se muestra a continuación.。

■Estructura básica del mensaje de retrato

  • Diseño de la materia (Asunto)
  • Estilo
  • Pose/Composición / Composición)
  • Iluminación
  • Ambiente
  • Configuración de la cámara (Cámara)
  • Color/tono
  • Estilo
  • Emoción/Significado (estado de ánimo)
  • Control de calidad

Esta estructura es、Coincide con el proceso de producción de la película de acción real.。
Entonces, ¿qué es un aviso?、

Texto de dirección de tiro.

です。


Tres factores que reducen la reproducibilidad

① Uso frecuente de palabras abstractas.

Palabras como “hermosa” y “cinemática” pueden interpretarse de manera demasiado amplia.、El resultado cambia cada vez.。

② Condiciones físicas indefinidas

posición de luz、distancia de la cámara、Si no se especifica la distancia focal, etc.,、La composición es borrosa.。

③ Ignorar los factores de ruido

Fondo, cabello, expresiones faciales, etc.、Si hay demasiadas partes que la IA interpreta libremente, se volverá inestable.。


Principios de diseño para mejorar la reproducibilidad.

■1. Cuantificar tanto como sea posible

  • Distancia (1,5 m)
  • Ángulo (45°)
  • Código de colores)

■2. Reparar elementos oscilantes.

  • Expresión (neutral)
  • vista (cámara)
  • Peinado (largo/partida)

■3. Evite desviaciones con indicaciones negativas

  • animado / dibujos animados excluir
  • Eliminar la sobrecorrección
  • eliminación de ruido de fondo

Instrucciones completas de nivel práctico

A continuación se muestra、Avisos diseñados para maximizar la reproducibilidad。

ultra-realistic portrait of a 26-year-old Japanese woman,
height 165cm, slim build, narrow shoulders, long neck,
oval face shape, small chin, straight nose bridge, slightly wide-set almond eyes,
dark brown iris (#3b2f2f), clear sclera, natural eyelashes,
light smooth skin with subtle pores, no blemishes, no freckles,

neutral calm expression, lips slightly closed, no smile,
eye contact directly to camera,

hair: medium-length (shoulder length), straight with slight inward curl at ends,
natural black (#1a1a1a), center part, slight volume at crown, no stray hair,

outfit: white silk blouse, matte texture, no patterns, slightly loose fit,
top button open, soft fabric folds, no accessories,

pose: seated upright on a chair, spine straight but relaxed,
hands resting gently on thighs, fingers naturally curved,
shoulders slightly angled (15 degrees to camera),

camera position: eye-level, 1.5 meters distance, centered framing,
framing: chest-up portrait, head near top margin,

lens: 85mm prime lens,
aperture: f/1.8,
depth of field: shallow, sharp focus on eyes, background fully blurred,

lighting setup:
single soft light at 45° camera left, slightly above eye level,
soft shadows on opposite side, subtle reflector fill (10%),

environment:
indoor studio, plain warm gray background (#d6d1cc), no objects,

color grading:
warm tone, low contrast, soft highlights, natural skin tones,

style:
editorial fashion photography, realistic, non-stylized,

negative prompt:
cartoon, anime, bad anatomy, extra fingers, blur, noise,
overexposed, harsh shadows, plastic skin, busy background,

--ar 2:3 --q 2 --style raw --seed 12345

La esencia de este mensaje

El valor de este mensaje no es "longitud"。

Lo importante es、

  • sin dejar lugar a la interpretación
  • variables fijas
  • Verbaliza completamente el proceso de producción.

Ese es el punto。


solicitud:Cómo utilizar las indicaciones correctamente

Esta versión completa no es una "forma terminada" sino una "base".。

Por ejemplo:

  • Cambia solo la iluminación
  • solo cambia el peinado
  • Cambiar solo la lente

Al reemplazar cosas como、

Puede diseñar las variaciones que desee.

Se verá así。


resumen

El diseño rápido en la generación de retratos es、

  • en lugar de agregar palabras
  • Diseño de estructura de control.

です。

y lo más importante、

¿Qué proceso debería dejarse en manos de la IA?、¿Dónde deberían diseñar los humanos?

Ese es el punto de vista。

La IA es buena para “generar”、El “diseño de intención” no es posible。
El responsable del diseño es、Este es un aviso。


Lo que necesitas no es técnica.、
Desglosando el proceso de producción.、perspectiva para reconstruirです。

Explicación detallada de las indicaciones anteriores.

Este mensaje no es sólo una "descripción detallada"、Especificaciones de control diseñadas para suprimir las fluctuaciones en los resultados generados."es。

En lo siguiente、cada bloqueque arreglar、¿Cómo controlamos el grado de libertad de la IA?de、Lo desglosaré y lo explicaré desde una perspectiva práctica.。


■Comprender la estructura general (lo más importante)

Este mensaje consta de tres capas::

① Definición de forma (Geometría)

→ 人物の物理的特徴・構図

② Definición óptica (Óptica)

→ 光・レンズ・色

③ Restricciones

→ AIの逸脱防止

👉 この3つを揃えることで“再現性のある生成”が成立します


■① 被写体設計(Subject Design)

ultra-realistic portrait of a 26-year-old Japanese woman,
height 165cm, slim build, narrow shoulders, long neck,
oval face shape, small chin, straight nose bridge, slightly wide-set almond eyes

●Rol

  • 人物の「平均化」を防ぐ
  • 骨格レベルでのブレを抑制

●Puntos

  • 「26歳」→ 若すぎず老けすぎない中間固定
  • 「narrow shoulders / long neck」→ シルエット制御
  • 「face shape」→ 顔の輪郭を固定

👉AIは顔より“輪郭”の方がブレやすい


■② 目・肌の詳細定義(微細ディテール制御)

dark brown iris (#3b2f2f), clear sclera, natural eyelashes,
light smooth skin with subtle pores, no blemishes, no freckles

●Rol

  • 「不気味の谷」回避
  • Estabilización de textura

●Puntos

  • Especificar código de color → Mejorar la reproducibilidad del color
  • esclerótica (peltre de los ojos) → Previene la nubosidad
  • poros → Prevenir la corrección excesiva de la IA

👉“La piel no está especificada” y convertida en plástico


■③ Expresión facial/mirada (el elemento más variable)

expresión tranquila y neutral, labios ligeramente cerrados, sin sonrisa,
Contacto visual directamente a la cámara.

●Rol

  • Arreglar las fluctuaciones emocionales

●Puntos

  • sin sonrisa → Elimina cambios sutiles en las expresiones faciales.
  • contacto visual → prevención de la desviación de la línea de visión

👉Cuando tu mirada cambia, pareces una “persona diferente”


■④ Cabello (control de la fuente de generación de ruido)

longitud media, derecho, rizo hacia adentro, parte central, sin pelo suelto

●Rol

  • Suprimir la principal causa de fallo de generación

●Puntos

  • Especificar toda la longitud + forma + raya
  • Eliminación del vello callejero → reducción de ruido

👉El cabello es la parte más inestable para la IA


■⑤ Disfraz (control de reflejo de luz)

blusa de seda blanca, textura mate, sin patrones

●Rol

  • Estabilizar el comportamiento de la luz.

●Puntos

  • seda × mate → previene el reflejo excesivo
  • sin patrones → reducción de ruido de reconocimiento

👉Los patrones hacen que la IA no reconozca bien


■⑥ Pose (esqueleto de composición)

sentado erguido, manos en los muslos, hombros en ángulo de 15°

●Rol

  • Prevención del colapso de la estructura del cuerpo humano.

●Puntos

  • Designación de manos → Medidas contra dedos torcidos
  • Especificación del ángulo → Evite la falta de naturalidad demasiado frontal

👉Si no especifica el movimiento, existe una alta probabilidad de que colapse.


■⑦ Posición de la cámara (punto de vista fijo)

al nivel de los ojos, 1.5distancia m, encuadre centrado

●Rol

  • Estabilizando la perspectiva

●Puntos

  • Especificar distancia → Prevenir distorsión facial
  • nivel de los ojos → impresión natural

👉Distancia no especificada = se produce una distorsión de gran angular


■⑧ Lente/profundidad de campo (el núcleo de la fotografía)

85milímetros, f1.8, poca profundidad de campo

●Rol

  • Determinar la semejanza fotográfica

●Puntos

  • 85mm → estándar vertical
  • f1.8 → 背景分離

👉Este es el punto de inflexión entre el “sentimiento CG” y el “sentimiento fotográfico”


■⑨ Escritura (lo más importante)

luz suave única a 45°, ligeramente por encima del nivel de los ojos

●Rol

  • Creando un efecto tridimensional

●Puntos

  • 45° → Equilibrio óptimo de sombras del rostro
  • Desde arriba → Reproducción de luz natural
  • llenar 10% → Ajuste fino del contraste

👉No controlar la luz = todo se derrumba


■⑩ Medio ambiente (aislamiento de ruido)

fondo gris cálido liso (#d6d1cc), sin objetos

●Rol

  • 背景の暴走防止

●Puntos

  • 単色指定 → 認識安定
  • no objects → 不要要素排除

■⑪ カラーグレーディング

warm tone, low contrast, soft highlights

●Rol

  • 印象の統一

👉 撮影後の「現像工程」に相当


■⑫ スタイル指定

editorial fashion photography, realistic, non-stylized

●Rol

  • 出力の方向性固定

👉 “photorealistic”より具体性が高い


■⑬ Mensaje negativo (restricción)

dibujos animados, animado, mala anatomía, dedos extra...

●Rol

  • Evitar que la IA se salga de control

●Puntos

  • Anatomía → Prevenir la pérdida de forma
  • estilo → prevención manga

👉A menudo más importante que positivo


■⑭ Parámetro

--Arkansas 2:3 --q 2 --estilo crudo --semilla 12345

●Rol

  • control final
  • ar → relación de composición
  • semilla → núcleo de reproducibilidad

👉La reproducción completa es imposible sin una semilla.


■La esencia de este mensaje

Este mensaje es

  • No es bueno porque esté detallado.
  • Estable porque “las variables están aplastadas”

El diseño es。


■Comprensión importante

Esta estructura permanece、

Planificación → Concepto → Fotografía → Desarrollo

Esto es consistente con la producción de acción real.。


■Resumen

La esencia de este mensaje es:

  • eliminar expresiones ambiguas
  • en condiciones fisicas
  • Eliminar los factores de ruido de antemano.

En otras palabras、

En lugar de dejarlo en manos de la IA、Diseñado para controlar la IA

です。


■Por qué el inglés es más ventajoso

① Sesgo en los datos de aprendizaje

Muchos modelos generativos、

  • Imágenes con subtítulos en inglés.
  • Conjuntos de datos de habla inglesa (por ejemplo, LAION)

se está aprendiendo en。

👉 つまり

概念とビジュアルの結びつきが英語で最適化されている


② Diferencia de precisión en la descomposición de tokens

AIは文章をそのまま理解しているのではなくトークン(意味単位)に分解しています

Para ingles

  • “soft light”
  • “85mm lens”

👉 意味単位で安定して分解される


Para japoneses

  • 「柔らかい光」
  • 「85mmレンズ」

👉 分解が不安定になりやすい
(文脈依存・曖昧性が高い)


③ El inglés es el idioma estándar para los términos de fotografía.

Por ejemplo:

  • aperture(絞り)
  • depth of field(被写界深度)
  • rim light
  • cinematic lighting

👉 これらは英語で学習されている前提語彙


■では日本語は使えないのか?

en conclusión:使えるが用途を分けるべき


■Caso en el que el japonés es adecuado

① Concepto/Emoción

  • 「静かな朝の雰囲気」
  • 「孤独感のある表情」

👉 抽象概念は日本語でも機能する


② Generación aproximada

  • Generación de ideas
  • 雰囲気確認

👉 精度より方向性重視


■日本語が不利なケース

① Designación física y técnica (mortal)

  • 光の角度
  • lente
  • 距離

👉 ここは英語でないと崩れる


② Cuando se requiere reproducibilidad

👉 同じ画像を出したいなら英語必須


■実務的な最適解(重要)

👉ハイブリッド運用


●Estructura recomendada

[英語物理・構造]
+
[japonés:コンセプト・感情]

●Ejemplo

ultra-realistic portrait, 85mm lens, soft lighting, poca profundidad de campo,静かな朝の空気感少し内省的な表情、Ambiente tranquilo

👉 これが最もバランスが良い


■さらに精度を上げる方法

●① Completamente en inglés + diseño interno en japonés

  • 設計 → 日本語で考える
  • 出力 → 英語に変換

👉 実務ではこれが主流


●② “Traducción intencional” del japonés al inglés

単純翻訳はNG

❌ "Luz suave" → luz suave
✔ “Luz difusa desde la ventana” → luz difusa de la ventana

👉Importante traducir a terminología fotográfica.


■Conceptos erróneos comunes

❌"No hay problema si es un modelo compatible con japonés"
Parcialmente correcto pero no suficiente.

razón:

  • puedo entender el idioma
  • peroEl inglés es dominante cuando se trata de conexiones visuales.

■Conclusión

  • También se puede generar en japonés.
  • pero
    El inglés es superior en términos de precisión, reproducibilidad y controlabilidad.

■Esencia

El problema no es el idioma.、

¿Hasta qué punto es “controlable” la descripción?

です。

Sin embargo, en el modelo actual、

Su idioma de control está optimizado para el inglés.

esa es la realidad。


*Utilice el mensaje de arriba、Intenté generar imágenes con Gemin y ChatGPT.。(cada vez、(Puede que no sea la misma foto)

ChatGPT ha creado una cara que se ve comúnmente en imágenes de IA.。Para Géminis,、Parece natural, como una persona real.。pero、Géminis ignora la petición de sacudir los hombros 15 grados.。Hay muchos lugares donde Géminis no escucha tus instrucciones.。

GéminisChatGPT

en japonés、Acabo de escribir "Tener un peinado con moño recogido"。

GéminisChatGPT

en japonés、Acabo de escribir "Un vestido lencero de color dorado con escote abierto".。

GéminisChatGPT






▶︎[Diseño de mensajes de IA de generación de retratos a partir de japonés]

▶︎ [Cómo escribir un mensaje fotográfico con IA | Consejos para crear fotografías realistas]]

▶︎ [Cómo hacer fotos con IA | Cómo hacer fotografías realistas con IA de generación de imágenes]

▶︎ [Cómo hacer fotografías de retratos con IA/Explicación rápida de calidad profesional]

▶︎ [Crea fotografías estilo huecograbado con retrato AI]

▶︎ [Crea la imagen deseada con Nano Banana]