인물 생성 AI에서 프롬프트 설계 실무론

인물 생성 AI에서 프롬프트 설계 실무론 | 杉山宣嗣

― 재현성을 담보하기 위한 구조분해와 완전판 프롬프트 ―

소개

인물 생성에서、많은 사람들이 직면하는 문제가。
"같은 프롬프트에서도 매번 다른 이미지가 나온다"는 불안정。

이 문제는 단순히 '프롬프트가 짧기 때문에'가 아닙니다.。
본질은、프롬프트가 "구조화되지 않음"에 있습니다。

본 기사에서는、인물 생성의 프롬프트를 "제작 공정"으로 분해、재현성을 담보하는 설계 방법과、실무 수준의 정식 버전 프롬프트를 설명합니다.。


프롬프트는 '문장'이 아닌 '설계도'입니다.

일반적인 프롬프트는 다음과 같은 형태가 되기 쉽습니다.。

  • 미인
  • 영화 같은
  • 고품질

그러나 이것은、제작 공정에서 말하면 "좋은 느낌으로 찍어주세요"와 동의어입니다.。
즉、제어가 전혀 되지 않은 상태です。

중요한 것은、프롬프트를 다음과 같이 분해하는 것입니다.。

■ 인물 프롬프트의 기본 구조

  • 주제 디자인 (주제)
  • 스타일링(Styling)
  • 포즈・구도(Pose / 구성)
  • 조명(Lighting)
  • 환경
  • 카메라 설정(Camera)
  • 색・톤(Color)
  • 스타일(Style)
  • 감정·의미(Mood)
  • 품질 제어(Quality)

이 구조는、그대로 실사의 제작 공정과 일치합니다。
즉 프롬프트란、

촬영 디렉션을 텍스트화한 것

です。


재현성을 낮추는 세 가지 요인

① 추상어의 다용

"beautiful" "cinematic"등은 해석이 너무 넓기 때문에、매번 결과가 바뀝니다。

② 물리 조건의 미정의

빛의 위치、카메라 거리、초점 거리 등이 지정되지 않은 경우、구도가 흔들립니다.。

③ 노이즈 요인의 방치

배경 · 머리 · 표정 등、AI가 자유롭게 해석하는 부분이 너무 많으면 불안정해집니다.。


재현성을 높이는 설계 원칙

■1. 가능한 한 수치화

  • 거리(1.5m)
  • 각도(45°)
  • 색상(#code)

■2. 흔들리는 요소를 고정

  • 표현(중립)
  • 시력 (카메라)
  • 헤어스타일(길이・분별)

■3. 부정적인 프롬프트로 편차 방지

  • 일본 만화 영화 / 만화 제외
  • 과잉 보정 제거
  • 배경 소음 제거

실무 레벨 정식 버전 프롬프트

다음은、재현성을 극대화하기 위해 고안된 프롬프트입니다.。

ultra-realistic portrait of a 26-year-old Japanese woman,
height 165cm, slim build, narrow shoulders, long neck,
oval face shape, small chin, straight nose bridge, slightly wide-set almond eyes,
dark brown iris (#3b2f2f), clear sclera, natural eyelashes,
light smooth skin with subtle pores, no blemishes, no freckles,

neutral calm expression, lips slightly closed, no smile,
eye contact directly to camera,

hair: medium-length (shoulder length), straight with slight inward curl at ends,
natural black (#1a1a1a), center part, slight volume at crown, no stray hair,

outfit: white silk blouse, matte texture, no patterns, slightly loose fit,
top button open, soft fabric folds, no accessories,

pose: seated upright on a chair, spine straight but relaxed,
hands resting gently on thighs, fingers naturally curved,
shoulders slightly angled (15 degrees to camera),

camera position: eye-level, 1.5 meters distance, centered framing,
framing: chest-up portrait, head near top margin,

lens: 85mm prime lens,
aperture: f/1.8,
depth of field: shallow, sharp focus on eyes, background fully blurred,

lighting setup:
single soft light at 45° camera left, slightly above eye level,
soft shadows on opposite side, subtle reflector fill (10%),

environment:
indoor studio, plain warm gray background (#d6d1cc), no objects,

color grading:
warm tone, low contrast, soft highlights, natural skin tones,

style:
editorial fashion photography, realistic, non-stylized,

negative prompt:
cartoon, anime, bad anatomy, extra fingers, blur, noise,
overexposed, harsh shadows, plastic skin, busy background,

--ar 2:3 --q 2 --style raw --seed 12345

이 프롬프트의 본질

이 프롬프트의 가치는 "길이"가 아닙니다.。

중요한 것은、

  • 해석의 여지를 깨고 있다
  • 변수 고정
  • 제작 공정을 완전히 언어화하고 있다

라는 점입니다。


응용:프롬프트의 올바른 사용법

이 풀버전은 '완성형'이 아니라 '베이스'。

예:

  • 조명만 변경
  • 헤어스타일만 변경
  • 렌즈만 변경

같은 교체를 통해、

의도한 변형을 설계할 수 있습니다.

처럼。


요약

인물 생성의 프롬프트 디자인은、

  • 단어 추가가 아닌
  • 제어 구조 설계

です。

그리고 가장 중요한 것은、

어떤 공정을 AI에 맡겨、어디를 인간이 설계하는가

라는 관점입니다.。

AI는 "생성"은 잘하지만、'의도 설계'는 불가능。
그 디자인을 담당하는 것이、프롬프트입니다.。


필요한 것은 기술이 아닙니다.、
제작 공정을 분해、재구축할 관점です。

위의 프롬프트에 대한 자세한 설명

이 프롬프트는 단순한 "자세한 설명"이 아닙니다.、생성 결과의 흔들림을 억제하기 위해 설계된 "제어 사양"。

아래에서는、각 블록은무엇을 고정、어떻게 AI의 자유도를 제어하는가?을、실무 시점에서 분해해 해설합니다。


■전체 구조의 이해(가장 중요한)

이 프롬프트는 다음 3층으로 구성됩니다.:

① 형상 정의(기하학)

→ 人物の物理的特徴・構図

② 광학정의(Optics)

→ 光・レンズ・色

③ 제약

→ AIの逸脱防止

👉 この3つを揃えることで“再現性のある生成”が成立します


■① 被写体設計(Subject Design)

ultra-realistic portrait of a 26-year-old Japanese woman,
height 165cm, slim build, narrow shoulders, long neck,
oval face shape, small chin, straight nose bridge, slightly wide-set almond eyes

● 역할

  • 人物の「平均化」を防ぐ
  • 骨格レベルでのブレを抑制

● 포인트

  • 「26歳」→ 若すぎず老けすぎない中間固定
  • 「narrow shoulders / long neck」→ シルエット制御
  • 「face shape」→ 顔の輪郭を固定

👉AIは顔より“輪郭”の方がブレやすい


■② 目・肌の詳細定義(微細ディテール制御)

dark brown iris (#3b2f2f), clear sclera, natural eyelashes,
light smooth skin with subtle pores, no blemishes, no freckles

● 역할

  • 「不気味の谷」回避
  • 텍스처 안정화

● 포인트

  • 색상 코드 지정 → 색상 재현성 향상
  • sclera(흰눈)→ 탁함 방지
  • pores → 과도한 AI 보정 방지

👉"피부를 지정하지 않음"으로 플라스틱화


■③ 표정·시선(가장 흔들리는 요소)

중립적 차분한 표현, 입술이 살짝 닫혀있다, 미소가 없다,
카메라에 직접 눈을 맞추다

● 역할

  • 감정의 흔들림을 고정

● 포인트

  • no smile → 미묘한 표정 변화를 배제
  • eye contact → 시선의 어긋남 방지

👉시선이 어긋나면 “별인”으로 보인다


■④ 머리카락(노이즈 발생원의 제어)

중간 길이, 똑바로, 안쪽 컬, 중앙 부분, 길 잃은 머리카락 없음

● 역할

  • 생성 붕괴의 최대 요인 억제

● 포인트

  • 길이+형상+분별을 전 지정
  • stray hair 제거 → 노이즈 감소

👉머리카락은 AI에게 가장 불안정한 부품


■⑤ 의상(빛의 반사 제어)

흰색 실크 블라우스, 매트한 질감, 패턴 없음

● 역할

  • 빛의 거동을 안정시키는

● 포인트

  • silk × matte → 과반사 방지
  • no patterns → 인식 노이즈 감소

👉패턴은 AI에 오인식을 일으킨다


■⑥ 포즈(구도의 골격)

똑바로 앉아, 허벅지에 손, 어깨 각도 15°

● 역할

  • 인체 구조의 파탄 방지

● 포인트

  • hands 지정 → 손가락의 무너짐 대책
  • 각도 지정 → 너무 정면 부자연스럽게 회피

👉손을 지정하지 않으면 높은 확률로 무너집니다.


■⑦ 카메라 위치(시점 고정)

눈높이, 1.5m 거리, 중심 프레임

● 역할

  • 퍼스 안정화

● 포인트

  • 거리 지정 → 얼굴 왜곡 방지
  • eye-level → 자연스러운 인상

👉거리 미지정 = 광각적 왜곡이 발생


■⑧ 렌즈·피사계 심도(사진성의 핵)

85mm, f1.8, 얕은 피사계 심도

● 역할

  • 사진다움 결정

● 포인트

  • 85mm → 인물 표준
  • f1.8 → 배경 분리

👉여기가 "CG감"과 "사진감"의 분기점


■⑨ 라이팅(가장 중요한)

45°의 단일 부드러운 조명, 눈높이보다 약간 위

● 역할

  • 입체감 생성

● 포인트

  • 45° → 얼굴의 음영 균형 최적
  • 위에서 → 자연광 재현
  • 채우다 10% → 콘트라스트 미세 조정

👉빛을 제어하지 않는다 = 모든 것이 무너진다


■⑩ 環境(ノイズ遮断)

plain warm gray background (#d6d1cc), no objects

● 역할

  • 背景の暴走防止

● 포인트

  • 単色指定 → 認識安定
  • no objects → 不要要素排除

■⑪ カラーグレーディング

warm tone, low contrast, soft highlights

● 역할

  • 印象の統一

👉 撮影後の「現像工程」に相当


■⑫ スタイル指定

editorial fashion photography, realistic, non-stylized

● 역할

  • 出力の方向性固定

👉 “photorealistic”より具体性が高い


■⑬ ネガティブプロンプト(制約)

cartoon, 일본 만화 영화, bad anatomy, extra fingers...

● 역할

  • AIの暴走防止

● 포인트

  • anatomy系 → 形状崩れ防止
  • style系 → 漫画化防止

👉ポジティブより重要な場合も多い


■⑭ パラメータ

--ar 2:3 --q 2 --style raw --seed 12345

● 역할

  • 最終制御
  • ar → 構図比率
  • seed → 再現性の核

👉seedがないと完全再現は不可能


■이 프롬프트의 본질

이 프롬프트는

  • 세부 사항이기 때문에 우수하지는 않습니다.
  • "변수를 깨고있다"에서 안정

라는 디자인입니다.。


■ 중요한 이해

이 구조는 그대로、

기획 → 컨셉 → 촬영 → 현상

라는 실사 제작과 일치합니다.。


■정리

이 프롬프트의 본질은 다음과 같습니다.:

  • 애매한 표현을 제거
  • 물리조건으로 떨어뜨리다
  • 노이즈 요인을 앞서서 붕괴

즉、

AI에 맡기는 대신、AI를 제어하기 위한 설계

です。


■왜 영어가 더 유리한가?

① 학습 데이터의 편향

많은 생성 모델은、

  • 영어 캡션이 있는 이미지
  • 英語圏のデータセット(LAIONなど)

で学習されています

👉 つまり

概念とビジュアルの結びつきが英語で最適化されている


② 토큰 분해의 정밀도 차이

AIは文章をそのまま理解しているのではなくトークン(意味単位)に分解しています

영어의 경우

  • “soft light”
  • “85mm lens”

👉 意味単位で安定して分解される


일본어의 경우

  • 「柔らかい光」
  • 「85mmレンズ」

👉 分解が不安定になりやすい
(文脈依存・曖昧性が高い)


③ 사진 용어의 표준 언어가 영어

예:

  • aperture(絞り)
  • depth of field(被写界深度)
  • rim light
  • 영화 조명

👉 これらは英語で学習されている前提語彙


■では日本語は使えないのか?

결론적으로:使えるが用途を分けるべき


■일본어가 향하고 있는 케이스

① 컨셉·감정

  • 「静かな朝の雰囲気」
  • 「孤独感のある表情」

👉 抽象概念は日本語でも機能する


② 거친 생성

  • 아이디어 발행
  • 雰囲気確認

👉 精度より方向性重視


■日本語が不利なケース

① 물리적, 기술적 명칭(치명적)

  • 光の角度
  • レンズ
  • 距離

👉 ここは英語でないと崩れる


② 재현성이 필요한 경우

👉 同じ画像を出したいなら英語必須


■実務的な最適解(重要)

👉ハイブリッド運用


●추천 구조

[英語物理・構造]
+
[日本語コンセプト・感情]

●예

ultra-realistic portrait, 85mm lens, soft lighting, 얕은 피사계 심도,静かな朝の空気感少し内省的な表情落ち着いた雰囲気

👉 これが最もバランスが良い


■さらに精度を上げる方法

●① 완전 영어+내부 설계는 일본어

  • 設計 → 日本語で考える
  • 出力 → 英語に変換

👉 実務ではこれが主流


●② 일본어→영어의 “의도번역”

단순번역은 NG:

❌ 「부드러운 빛」→ soft light
✔ "창으로부터의 확산광"→ diffused window light

👉사진 용어로 변환하는 것이 중요


■ 흔한 오해

❌「일본어 대응 모델이라면 문제 없다」
부분적으로는 정확하지만 불충분

이유:

  • 언어 이해는 가능
  • 그러나시각과의 연결은 영어 우위

■결론

  • 일본어로도 생성할 수 있다
  • 그러나
    정밀도, 재현성, 제어성은 영어입니다.

■에센스

문제는 언어가 아니라、

얼마나 “제어 가능한 설명”이 되어 있는가

です。

그러나 현재 모델에서는、

그 제어 언어가 영어에 최적화되어 있습니다.

라는 것이 현실입니다.。


※상기의 프롬프트를 사용해、Gemin과 ChatGPT로 이미지를 생성해 보았습니다.。(매회、같은 사진이 될 수는 없습니다)

ChatGPT는 AI 이미지에 흔한 얼굴을 만들었습니다.。Gemini는、정말 존재하는 인물처럼 자연스럽。그러나、어깨를 15° 흔들어주는 것은 Gemini가 무시하고 있습니다.。Gemini는 여기에 지시하지 않는 곳이 많이 있습니다.。

쌍둥이자리채팅GPT

일본어로、"신영의 업 헤어스타일로 해"라고만 입력했습니다。

쌍둥이자리채팅GPT

일본어로、"가슴이 비어있는 골드 색의 슬립 드레스로 해"라고만 입력했습니다。

쌍둥이자리채팅GPT






▶︎[일본어로 시작하는 인물 생성 AI 프롬프트 설계]

▶︎ [AI 사진 프롬프트 작성 방법 | 리얼한 사진을 만드는 팁]]

▶︎ [AI 사진을 만드는 방법 | 이미지 생성 AI로 사실적인 사진을 만드는 방법]

▶︎ [AI 인물 사진을 만드는 방법·프로 품질 프롬프트 해설]

▶︎ [AI 인물로 그라비아풍 사진을 만든다]

▶︎ [Nano Banana로 노리는 거리의 화상을 작성]