๋ ผ๋ฌธ์ ์ฝ๊ธฐ ์ ์
ํ๋กฌํํธ ์์ง๋์ด๋ง (Prompt Engineering)์ด๋?
- ์์ฑํ ์ธ๊ณต ์ง๋ฅ(์์ฑํ AI) ์๋ฃจ์
์ ์๋ดํ์ฌ ์ํ๋ ๊ฒฐ๊ณผ๋ฅผ ์์ฑํ๋ ํ๋ก์ธ์ค
- ์ํ๋ ๊ฒฐ๊ด๊ฐ์ ์ต๋ํ ๊ฐ๊น์์ง๋๋ก ์
๋ ฅ์ ๊ณ์ํด์ ๋ค๋ฌ๋ ๊ณผ์
- ‘์ํ๋’ ์์ ์ ์ํํ๋๋ก ์ง์ํ๋ ์ต์ ์ ํ๋กฌํํธ๋ฅผ ์ค๊ณ
- AI๊ฐ ์ฌ์ฉ์์ ๋ ์๋ฏธ ์๊ฒ ์ํธ ์์ฉํ๋๋ก ์๋ดํ๋ ๊ฐ์ฅ ์ ์ ํ ํ์, ๊ตฌ๋ฌธ, ๋จ์ด ๋ฐ ๊ธฐํธ๋ฅผ ์ ํ → ์์๋๋ก ์๋ํ๋๋ก ํจ
- ์ํ๋ ๊ฒฐ๊ด๊ฐ์ ์ต๋ํ ๊ฐ๊น์์ง๋๋ก ์
๋ ฅ์ ๊ณ์ํด์ ๋ค๋ฌ๋ ๊ณผ์
- ์์ฑํ AI: ์คํ ๋ฆฌ, ๋ํ, ๋์์, ์ด๋ฏธ์ง, ์์
๊ณผ ๊ฐ์ ์๋ก์ด ์ฝํ
์ธ ๋ฅผ ๋ง๋ค์ด๋ด๋ ์ธ๊ณต ์ง๋ฅ ์๋ฃจ์
- ๋ฐฉ๋ํ ์์ ๋ฐ์ดํฐ๋ก ์ฌ์ ํ๋ จ๋ ์ฌ์ธต ์ ๊ฒฝ๋ง์ ์ฌ์ฉํ๋ ๊ท๋ชจ๊ฐ ์์ฃผ ํฐ ๊ธฐ๊ณ ํ์ต(ML) ๋ชจ๋ธ์ ๊ธฐ๋ฐ์ผ๋ก ํจ
- ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ(LLM)์ ๋งค์ฐ ์ ์ฐํ๋ฉฐ ๋ค์ํ ์์
์ ์ํํ ์ ์์
- BUT ๋งค์ฐ ๊ฐ๋ฐฉ์ → ๋ชจ๋ ์ ํ์ ์
๋ ฅ์ด ์ ์ฉํ ์ถ๋ ฅ์ ์์ฑํ๋ ๊ฒ X
- ์ปจํ ์คํธ์ ์ธ๋ถ ์ ๋ณด๊ฐ ํ์ํจ
- BUT ๋งค์ฐ ๊ฐ๋ฐฉ์ → ๋ชจ๋ ์ ํ์ ์
๋ ฅ์ด ์ ์ฉํ ์ถ๋ ฅ์ ์์ฑํ๋ ๊ฒ X
- ex) ๋ฌธ์ ์์ฝ, ๋ฌธ์ฅ ์์ฑ, ์ง์์๋ต, ๋ฒ์ญ ๋ฑ → ๊ณผ๊ฑฐ ํ๋ จ์ ๋ฐํ์ผ๋ก ํ๋จํ ์ต์์ ๊ฒฐ๊ณผ๋ฅผ ์์ธก
- ํ๋กฌํํธ: ํน์ ์์
์ ์ํํ๋๋ก ์์ฑํ AI์ ์
๋ ฅํ๋ ์์ฐ์ด ํ
์คํธ
- AI ๋ชจ๋ธ์ด ํ์ตํ ๋ด์ฉ ๊ฐ์ด๋ฐ ํน์ ๋ด์ฉ์ ํ์ํ๋๋ก ์๋ดํด ๋ชฉํ์ ๋ง๋ ๊ฒฐ๊ณผ๋ฅผ ์์ฑ
- ๊ตฌ์ฑ์์
- ๋ช ๋ น(Instruction): ๋ชจ๋ธ์ด ์ํํ๊ธฐ๋ฅผ ์ํ๋ ํน์ ์์ ๋๋ ์ง์นจ
- ๋งฅ๋ฝ ์ ๋ณด(Context): ๋ชจ๋ธ์ ์กฐ์ ํ ์ ์๋ ์ธ๋ถ ์ ๋ณด ๋๋ ์ถ๊ฐ ๋งฅ๋ฝ
- ์ ๋ ฅ ๋ฐ์ดํฐ(Input Data): ๋ต๋ณ์ ์ฐพ๊ณ ์ ํ๋ ์ ๋ ฅ ๋๋ ์ง๋ฌธ
- ์ถ๋ ฅ ๋ฐ์ดํฐ(Output Data): ์ถ๋ ฅ์ ์ ํ ๋๋ ํ์
- ํ๋กฌํํธ์ ๋ชจ๋ ๊ตฌ์ฑ ์์๊ฐ ํฌํจ๋ผ์ผ ํ๋ ๊ฒ์ X
- ์ถ๊ฐ์ ์ผ๋ก AI ๋ชจ๋ธ์ ์ ๋ฌํ ์ง์ ์ฌํญ/์ง๋ฌธ, ์ ๋ ฅ/์์ ๊ฐ์ ๊ธฐํ ์ธ๋ถ ์ ๋ณด๋ ํฌํจ๋ ์ ์์
- ๊ฒฐ๊ณผ์ ํ์ง์ ํ๋กฌํํธ๊ฐ ์ผ๋ง๋ ๋ง์ ์ ๋ณด๋ฅผ ์ ๊ณตํ๊ณ , ํ๋กฌํํธ๊ฐ ์ผ๋ง๋ ์ ๊ตฌ์ฑ๋ผ ์๋์ง์ ๋ฐ๋ผ ๋ฌ๋ ค์์
→ ํ ์คํธ ์์ฝ, ์ ๋ณด ์ถ์ถ, ์ง์์๋ต, ํ ์คํธ ๋ถ๋ฅ, ์ฝ๋ ์์ฑ, ์ถ๋ก ๋ฑ์ ์์ ์์ ์ธ์ด ๋ชจ๋ธ์ ์ฑ๋ฅ์ ํฅ์ํ ์ ์์
ํ๋กฌํํธ ์์ง๋์ด๋ง์ด ์ค์ํ ์ด์
- ํ๋กฌํํธ ์์ง๋์ด: ์ต์ข
์ฌ์ฉ์์ ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ ๊ฐ์ ๊ฒฉ์ฐจ๋ฅผ ํด์
- ๋ค์ํ ์ ํ์ ์ ๋ ฅ์ ์คํํ์ฌ ์ ํ๋ฆฌ์ผ์ด์ ๊ฐ๋ฐ์๊ฐ ๋ค์ํ ์๋๋ฆฌ์ค์์ ์ฌ์ฌ์ฉํ ์ ์๋ ํ๋กฌํํธ ๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ฅผ ๊ตฌ์ถ
- → AI ์ ํ๋ฆฌ์ผ์ด์ ์ ํจ์จ์ฑ๊ณผ ํจ๊ณผ๋ฅผ ๋์
- ์ผ๋ฐ์ ์ผ๋ก ๊ฐ๋ฐฉํ ์ฌ์ฉ์ ์ ๋ ฅ์ AI ๋ชจ๋ธ๋ก ์ ๋ฌํ๊ธฐ ์ ์ ํ๋กฌํํธ ๋ด์ ์บก์ํ ํจ
ํ๋กฌํํธ ์์ง๋์ด๋ง์ ์ด์
- ๊ฐ๋ฐ์์ ์ ์ด ๋ฅ๋ ฅ ๊ฐํ: ์ฌ์ฉ์์ AI์ ์ํธ ์์ฉ์ ๋ณด๋ค ํจ๊ณผ์ ์ผ๋ก ์ ์ด
- AI ์ค์ฉ, AI๊ฐ ์์ง ๋ชปํ๊ฑฐ๋ ์ ํํ๊ฒ ์ฒ๋ฆฌํ ์ ์๋ ์์ฒญ ๋ฐฉ์ง
- ex) ๋น์ฆ๋์ค AI ์ ํ๋ฆฌ์ผ์ด์ ์์ ๋ถ์ ์ ํ ์ฝํ ์ธ ๋ฅผ ์์ฑํ์ง ๋ชปํ๋๋ก ์ ํํ ์ ์์
- → AI๋ ์ถ๋ ฅ์ ์ธ๋ถํํ๊ณ ํ์ํ ํ์์ผ๋ก ๊ฐ๊ฒฐํ๊ฒ ํ์ํ ์ ์์
- ๊ฐ์ ๋ ์ฌ์ฉ์ ๊ฒฝํ: ์ํ์ฐฉ์ค๋ฅผ ํผํ๋ฉฐ ์ผ๊ด๋๊ณ ์ ํํ๋ฉฐ ์ ์ ํ ์๋ต์ ์ป์ ์ ์์
- ์ธ๊ฐ์ ํธ๊ฒฌ์ผ๋ก ์ธํด ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ์ ํ๋ จ ๋ฐ์ดํฐ์ ์กด์ฌํ ์ ์๋ ํธ๊ฒฌ์ ์ํํ๋ ๋ฐ ๋์์ด ๋จ
- ์ต์ํ์ ์ ๋ ฅ์ผ๋ก๋ ์ฌ์ฉ์์ ์๋๋ฅผ ์ดํดํ๋๋ก ํจ
- ex) ๋ฒ๋ฅ ๋ฌธ์์ ๋ด์ค ๊ธฐ์ฌ๋ฅผ ์์ฝํด ๋ฌ๋ผ๋ ์์ฒญ → ์คํ์ผ๊ณผ ์ด์กฐ์ ๋ฐ๋ผ ๊ฒฐ๊ณผ๊ฐ ์กฐ์
- ์ ์ฐ์ฑ ํฅ์: ๋
ผ๋ฆฌ์ ์ฐ๊ฒฐ๊ณผ ๊ด๋ฒ์ํ ํจํด์ ๊ฐ์กฐํ๋ ๋๋ฉ์ธ ์ค๋ฆฝ์ ์ง์นจ์ ํฌํจํ๋ ํ๋กฌํํธ ์ ์ → ๊ฐ๋จํ๊ฒ ์ฌ์ฌ์ฉ ๊ฐ๋ฅ
- ์ถ์ํ ์์ค์ด ๋์์๋ก AI ๋ชจ๋ธ์ด ๊ฐ์ ๋๊ณ , ์กฐ์ง์ด ๋ณด๋ค ์ ์ฐํ ๋๊ตฌ๋ฅผ ๋๊ท๋ชจ๋ก ๋ง๋ค ์ ์์
- ex) ํ๋ก์ธ์ค ์ต์ ํ๋ฅผ ์ํ ๊ธฐํ๋ฅผ ์ฐพ๊ธฐ ์ํด ์ํฉ๋ณ ๋ฐ์ดํฐ ๋์ ๊ด๋ฒ์ํ ์ ํธ๋ฅผ ์ฌ์ฉํ์ฌ ๋นํจ์จ์ฑ์ ์ฐพ๋๋ก AI ๋ชจ๋ธ์ ํ๋ จํ๋ ๋ค์ํ ํ๋กฌํํธ๋ฅผ ๋ง๋ค ์ ์์ → ๋ค์ํ ํ๋ก์ธ์ค์ ์ฌ์ ๋ถ์ ์ฌ์ฉ ๊ฐ๋ฅ
A Taxonomy of Prompt Modifiers for Text-To-Image Generation (2023)
ABSTRACT
- ํ๋กฌํํธ ์์์ด์ 6๊ฐ์ง ์ ํ์ ๊ตฌ๋ถํจ
- subject terms, image prompts, style modifiers, quality boosters, repeating terms, and magic terms
- → ์จ๋ผ์ธ ์ปค๋ฎค๋ํฐ์ ์ค๋ฌด์๋ค์ ๋์์ผ๋ก 3๊ฐ์ ๊ฐ์ ๋ฏผ์กฑ์งํ์ ์ฐ๊ตฌ๋ฅผ ์งํํ์์
TAXONOMY OF PROMPT MODIFIERS
Subject terms (์ฃผ์ ์ด)
- ์ํ๋ ์ด๋ฏธ์ง์ ์ฃผ์
- ์ด๋ฏธ์ง ์์ฑ ๊ณผ์ ์ control์ ์ํด ํ์์ ์
- ex) “a landscape”, “an old car in a meadow”
- BUT Text-to-Image ์์คํ ์ด ํน์ ํ ์คํธ์ ๋ํ ์ฐ๊ด ์ด๋ฏธ์ง ํ๋ จ์ด ๋ ๋์ด ์๋ ๊ฒฝ์ฐ subject terms์ด ๊ฒฐ๊ณผ๋ฌผ์ ์ ๋ฐ์๋์ง ์์ ์ ์์
Style modifiers (์คํ์ผ)
- ํน์ ์คํ์ผ์ ์ด๋ฏธ์ง๋ฅผ ์์ฑํ๊ธฐ ์ํด ํ๋กฌํํธ์ ์ถ๊ฐ๋ ์ ์์
- ๋ฏธ์ ์๋, ํํ, ์คํ์ผ๋ฟ๋ง ์๋๋ผ ๋ฏธ์ ์ฌ๋ฃ, ๋งค์ฒด, ๊ธฐ๋ฒ, ์๊ฐ์ ๊ด๋ จํ ์ ๋ณด๋ฅผ ๋ฃ์ ์ ์์
- ex) “by Francisco Goya”: ์คํ์ธ ๋ฏธ์ ๊ฐ์ธ ํ๋์์ค์ฝ ๊ณ ์ผ์ ์คํ์ผ๋ก ์ด๋ฏธ์ง ์์ฑ
Image prompts (์ด๋ฏธ์ง ํ๋กฌํํธ)
- ์ฃผ์ ์ ์คํ์ผ์ ๊ดํ (visual) target์ ์ ๊ณตํจ
- ์ด๋ฏธ์ง๋ฅผ ํ๋กฌํํธ ์
๋ ฅ์ผ๋ก ๋ฐ๋ ๊ฒ
- ํ๋ ๋๋ ์ฌ๋ฌ ๊ฐ์ URL๋ก ํ ์คํธ ํ๋กฌํํธ์ ์ถ๊ฐ๋จ
- ๋ณ๋์ ๋ฐฐ์ด๋ก ์ถ๊ฐ๋จ
- initial images์๋ ๋ค๋ฅธ ๊ฐ๋
์
- image prompt: ์ฌ๋ฌ ์ฅ์ ์ด๋ฏธ์ง๋ฅผ ํฌํจํ ์ ์์
- initial image: ์ด๋ฏธ์ง ์์ฑ์ ์์์ , ํ๋์ฌ์ผ ํจ
- ex) for the purpose of enhancing or distorting the initial image
Quality boosters (ํ๋ฆฌํฐ ๋ถ์คํฐ)
- ์ด๋ฏธ์ง์ ๋ฏธ์ ํ์ง๊ณผ level of detail์ ๋์ด๋๋ฐ ์ฌ์ฉ
- ๋ํ์ ์ธ ์ฉ์ด: “trending on artstation,” “award-winning,” “masterpiece,” “highly detailed”, “awesome,” “#wow,” “epic,”, “rendered in Unreal Engine.”
- ex) “painting of an exploding heart” → “highly detailed, eclectic, fiery, vfx, rendered in octane, postprocessing, 8k.”
- “extra fluff”์ ํํ๋ก ํ๋กฌํํธ์ ์ถ๊ฐ๋ ์ ์์
- BUT ์์ฑ๋๋ ์ด๋ฏธ์ง์ ๋ํ ์ผ๊ณผ ์ ๋ฐ์ ์ธ ํ๋ฆฌํฐ๋ ํฅ์ํ ์ ์์ง๋ง, subject์ ๋ฐ์๋๊ฐ ๋ฎ์์ง ์ ์์
Repeating terms (์ฉ์ด ๋ฐ๋ณต)
- ์๋ก ๋ค๋ฅธ phrasing๊ณผ synonyms์ ์ฌ์ฉํจ
- ex) “space whale. a whale in space”
- ์์ฑ ์์คํ ์ด ํ์ฑํ assciations๋ฅผ ๊ฐํํ ์ ์์
- ๋ฐ๋ณต๋๋ ์ฉ์ด๋ ๋ชจ๋ธ๋ค์ด positive feedback loops์ ๊ฐํ๋๋ก ํ ๊ฐ๋ฅ์ฑ์ด ์๊ธฐ ๋๋ฌธ์ด๋ผ๋ ๊ธฐ์ ์ ์ค๋ช ์ด ๊ฐ๋ฅ
Magic terms (๋ง๋ฒ ์ฉ์ด)
- ์ด๋ฏธ์ง์ ๋๋ค์ฑ์ ๊ฐํํจ
- ex) “orchestra conductor leading a chorus of sound wave audio waveforms swirling around him on the orchestral stage”์ “control the soul”์ ์ถ๊ฐํจ
- ๋์ฑ ๋ค์ํ ๊ฒฐ๊ณผ๋ฌผ์ ์ป๊ณ ์ ํ๋ ์๋์์ ์ฌ์ฉ๋จ
- ํ๋กฌํํธ์ main subject์ semantically ๊ฑฐ๋ฆฌ๊ฐ ์๋ ์ฉ์ด์ผ ์ ์์
- non-visual qualities์ผ ์ ์์
- ์ด๊ฐ (somatosensory), ์ฒญ๊ฐ (auditory), ํ๊ฐ (olfactory), ๋ฏธ๊ฐ (gustatory) ๋ฑ
- ex) “feed the soul”, “feel the sound”
- ์ด๊ฐ (somatosensory), ์ฒญ๊ฐ (auditory), ํ๊ฐ (olfactory), ๋ฏธ๊ฐ (gustatory) ๋ฑ
→ ์ ์ฉ์ด๋ค์ ํด์ํ๊ทธ์ ํํ (ex. “#wow”), attribution phrases (ex. “by [artist]”)์ ํํ, ์ข ๋ ๋ณต์กํ composite statements (e.g., “in the style of [artist]”)์ ํํ๋ก ํ๋กฌํํธ์ ๋ฐ์๋ ์ ์์
CONCLUSION
- ํ๋กฌํํธ ์์์ด์ ์ ํ์ ๊ตฌ๋ถํจ ํตํด ๊ตฌ์กฐํ๋ ํ๋กฌํํธ ์์ฑ์ ๋์์ด ๋ ์ ์์ผ๋ฉฐ, Gen AI์ ๊ณ ์ ํ ํ๋์ ๋์ฑ์ ๊ฐ์กฐํด ํ๋กฌํํธ ์์ง๋์ด๋ง์ ๋ณด๋ค ๋ช ํํ๊ฒ ์ดํดํ๊ฒ ํจ
์ฐธ๊ณ
์์ฑํ AI ๋ชจ๋ธ๊ณผ ๋ํํ๋ ํ๋กฌํํธ ์์ง๋์ด๋ง(Prompt Engineering)
์์ฑํ AI๋ ๋ฌด์์ธ๊ฐ์?
ํ๋กฌํํธ ์์ง๋์ด๋ง์ด๋ ๋ฌด์์ธ๊ฐ์?
๋น์ฅ ์จ๋จน์ ์ ์๋ Text to Image AI ํ์ฉ๋ฒ #1
'๐ Paper > ๐ Prompt Engineering' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
RePrompt: Automatic Prompt Editing to Refine AI-Generative Art Towards Precise Expressions (2) | 2023.11.22 |
---|