Prompt 黄金公式——6 大构件
写过几天 prompt 的人都遇到过这个场景:
输入 a girl drinking coffee,按生成键,出来 8 张图——3 张室内 3 张室外,光线一张暖一张冷,构图有半身有特写,调色有日系有美式。每张都"像",但没一张能用。然后改一个词重新跑,又出来 8 张完全不同的版本。如此循环。
很多人第一反应是"AI 不稳定"。错了。AI 一点都不"不稳定"——它非常诚实地把你没说的部分自己补上了。你只给了 3 件信息(主体、动作、动作的延伸),剩下 7 件信息(在哪、怎么拍、什么光、什么风格、镜头、画质、约束)模型按训练数据的"平均口味"猜。"平均口味"在不同维度上方差很大,所以每次猜的方向不一样——这不是 bug,这是你 prompt 留的空白被自动填补了。
OpenAI Cookbook 的官方 prompting guide 给了一个推荐顺序——Subject → Setting → Style → Composition → Lighting → Technical specs。这章把这 6 个构件拆开来讲:每个构件什么意思、缺了会怎样、怎么写才不踩坑、JR 自己用这套公式省了多少时间。
6 大构件速查表
| 构件 | 是什么 | 关键词例子 |
|---|---|---|
| Subject 主体 | 谁 / 什么 | A young Asian woman in her 20s holding a latte cup |
| Setting 环境 | 在哪里 + 时间 | cozy Sydney café by a large window, autumn afternoon |
| Style 风格 | 什么"画法" | photorealistic editorial photography / 3D Pixar render / oil painting |
| Composition 构图 | 怎么取景 | medium close-up, slightly angled from below, rule of thirds |
| Lighting 光线 | 什么光、什么方向 | warm golden hour light through window, soft rim light from left |
| Technical 技术规格 | 像什么镜头/介质 | 50mm prime lens, f/1.8 shallow DOF, slight 35mm film grain |
把 prompt 想成给摄影师下任务单:你不会只说"拍个女孩喝咖啡",你会说在哪、什么光、用什么镜头、什么风格——6 大构件就是这张任务单的 6 列。哪一列空着,摄影师(也就是模型)就按"上次拍的那种"自由发挥,结果当然就是 8 张图 8 个味儿。
完整公式模板
[Subject], [Setting].
Composition: [framing / camera angle].
Lighting: [time of day / quality / direction / mood].
Style: [aesthetic / artist reference / medium].
Technical: [lens / film grain / detail level].
[Constraints: no extra text, exact aspect ratio, etc.]
不一定每行都按这个顺序,但 6 件都得有。下面 A/B 对比就是少 3 件的代价。
A/B 实战对比
弱 prompt(只有 3 件)
A girl drinking coffee, café, photorealistic.
出图实际表现:8 张里 5 张室内 3 张露台、4 张俯拍 4 张平视、调色冷暖各半。看着每张都过得去,但拼成一组发小红书 carousel 立刻穿帮——风格不统一。
为什么?因为你只指定了 Subject、半个 Setting(café 但没说哪种 café 哪个时间)、Style(photorealistic 但 photorealistic 涵盖一切现实主义照片)。Composition / Lighting / Technical / Constraints 全空,模型自由发挥。
强 prompt(6 件齐全)
A young Asian woman in her 20s holding a latte cup,
sitting by a large window in a cozy Sydney café in autumn.
Composition: medium close-up, slightly angled from below,
subject occupies right two-thirds, left third is window light.
Lighting: warm afternoon golden hour through window,
soft rim light on her hair, warm color temperature ~3200K.
Style: photorealistic editorial photography,
slight 35mm film grain, warm autumn palette,
inspired by Annie Leibovitz portraiture.
Technical: 50mm prime lens, f/1.8 shallow depth of field,
crisp foreground subject, dreamy bokeh background.
No text overlay, exact 3:4 vertical aspect ratio.
出图:8 张全部金色暖调、全部 medium close-up、全部窗光、人物年龄妆容服饰几乎一致——可以整组拿来发 carousel,这 8 张就是你的"风格锚"。后面想出第 9 张同风格图,把这套 prompt 改两个字(换季节 / 换饮品)就行。
每个构件的高阶用法
Subject 主体——具体身份比抽象描述准 3 倍。a person / a girl 模型按训练数据均值猜(多半是西方白人面孔);a young Asian woman in her 20s 直接锁定族裔、年龄、性别。再升级:加职业、表情、姿态——a tired junior developer in her 20s, focused expression, slightly hunched over laptop。这层"具体到职业 + 情绪"的描述能让人物从"路人"变成"故事里的角色"。
Setting 环境——别只说"在咖啡馆",加上光源方向和时段。cozy Sydney café → 模糊;cozy Sydney café by a large window, warm afternoon golden hour through window → 光源、时间、城市感全有。城市名(Sydney / Tokyo / Paris)比泛指(city)更稳,因为模型训练时见过这些具体地标对应的视觉记忆。
Style 风格——这是决定整张调性的开关。editorial photography(杂志感)/ oil painting(油画)/ 3D Pixar render(皮克斯三维)/ studio Ghibli illustration(吉卜力)—— medium 关键词换一个,画面气质完全不同。可以叠艺术家名:inspired by Annie Leibovitz / in the style of Wes Anderson,模型对著名摄影师/导演的视觉签名学得很扎实,叠上去出图调性瞬间锁定。
Composition 构图——用专业术语,模型听得更懂。wide shot / medium close-up / extreme close-up / overhead top-down / dutch angle。位置用 rule of thirds, subject on right two-thirds,远比"主体偏右"准。shot from below 给英雄感、shot from above 给俯视感——视角本身就是情绪。
Lighting 光线——三件套:温度(warm / cool / neutral)+ 方向(from left / rim light / backlight)+ 质感(soft / hard / diffused)。最常翻车是写 good lighting 这种空话——这等于没写,模型按默认照(多半是平淡环境光,看着像手机直出)。具体到色温(warm 3200K)会更稳。
Technical 技术规格——35mm film / 50mm prime / 85mm portrait 是不同镜头语言,模型见过大量摄影师 EXIF metadata 训练时学过这些差别。f/1.8 shallow depth of field 给浅景深;8K detail / ultra-sharp 给高清;slight film grain 给胶片颗粒——三个一起堆是"电影感"通用配方。
缺哪个构件会翻什么车
| 缺的构件 | 实际后果 |
|---|---|
| 没 Subject 细节 | 模型瞎猜主体——8 张图人脸全不一样,没法做 carousel |
| 没 Setting 光源 | 出图昏暗 / 平淡 / 像证件照 |
| 没 Style | 默认偏向"sd-1.5 写实味",但不一定是你要的写实 |
| 没 Composition | 取景 8 张 8 个角度,没法批量复用 |
| 没 Lighting | 整张图"没气氛",看着像手机直出 |
| 没 Technical | 镜头语言混乱,深景广角混着浅景特写 |
| 没 Constraints | 文字 / 比例 / 多余元素全部失控 |
翻车实录
翻车 1:Style 放最后。 第一次写完整版 prompt,按"主体 → 环境 → 构图 → 光线 → 技术 → 风格"顺序,出图风格漂移得厉害——明明写了 oil painting,出来一半还是写实照片。后来才知道——前 50 词权重最高(下章细讲),Style 这种决定整张调性的关键词必须前置,不能等到第 5 段才出现。现在我们的模板里 Style 关键词会塞在 Subject 段或 Setting 段里,让它在前 50 词内就被读到。
翻车 2:Subject 写 a person。 给一个客户做小红书 carousel,5 张 prompt 都用 a person sitting at desk——出图 5 张人物完全不同,男女老少族裔混在一起,根本不像同一个故事。改成 a young Chinese woman in her late 20s 立刻收敛——5 张里有 4 张是同一个"人设"。
翻车 3:good lighting 这种废话词。 写过一次 studio with good lighting,出来是平光证件照——既不"好"也不"studio"。改成 studio with soft key light from upper left, warm fill light from right, subtle rim light from behind 立刻"有片场感"。模糊的形容词不传递信息,模型只能按默认照——而它的默认值往往是最平庸的那一档。
翻车 4:6 件都写了但顺序乱。 把 Technical 写在 Subject 前面(50mm shot of a woman drinking coffee...),出图反而权重错位——镜头语言被强调,主体被弱化,出来 8 张图镜头味很重但人物表情都很僵。顺序也是信息——这点跟 LLM prompt 一样,前面的 token 权重高。
JR Academy 我们的经验
我们做 vibe-coding bootcamp 春季 KV 海报,第一周还在 try-and-error 写 prompt——一张图改 4-5 轮才能用。第二周强制用 6 件公式(写之前对照速查表逐项填,缺哪件补哪件),第一张图就过审。客户反馈"调性像专业团队拍的"。
那次省下的不是出图时间(出图本来就快,几秒一张),是沟通时间——之前每改一轮要跟客户来回确认"是不是要这个感觉",prompt 模糊客户脑子里的画面也模糊,验收必扯皮。现在 prompt 写得够具体,客户在 prompt 阶段就能想象出大概样子,验收时分歧少 80%。一周做 8 个 bootcamp 各 5 张共 40 张图,从 60 小时压到 5 小时——省下的 55 小时大半是沟通成本,不是 PS 成本。
教训:6 件公式不是"写得更长",是"少猜一点"。每补一件构件,模型少猜一个维度,输出就稳一点。
下一步
公式齐全只是基础。真正决定出图稳定性的还有一个隐藏规则——前 50 词法则。同样 6 件构件,把"风格"放第 1 词和放第 50 词,权重差 3 倍,出图完全两个调性。换句话说:写齐 6 件让你不再瞎猜,但顺序写对才让你拿到稳定可复用的风格锚。下一章 Ch 05 把这个机制拆开讲——为什么前 50 词权重最高、哪些信息必须挤进前 50 词、哪些可以放后面。
📷 长 prompt 实测案例(6 件齐全的极致版)
一个真实"超长详细 prompt"案例,来自 awesome-gpt-image(CC BY 4.0)。看完你会理解为什么"6 件构件 + 显式约束"能稳出商业级出图。
案例: 日式温泉旅馆人像(300+ 词的完整 prompt)
Prompt(节选完整版前半段):
35mm film photography, warm vintage Japanese onsen ryokan aesthetic,
soft ambient wooden lantern lighting mixed with gentle natural window light,
subtle film grain, gentle color shift, high atmosphere editorial style,
intimate medium shot, early 20s beautiful Chinese female idol with
ultra-realistic delicate refined Chinese features...
[continues with 200+ more words covering pose, lighting direction,
fabric texture, skin rendering, anti-AI defects clauses]
注意这条 prompt 的结构 —— Style 在第一句(35mm film photography, warm vintage Japanese onsen ryokan aesthetic)就锁定了风格基调,Lighting 在第二句(soft ambient wooden lantern lighting mixed with gentle natural window light)紧接,Composition / Subject 在第三、四句。这就是本章 6 大构件公式的"豪华版"——300 词 prompt 把每件构件都展开写到极致。
为什么这种长 prompt 出图稳定?因为模型完全没有"猜"的空间——每个变量都被锁死。这是商业摄影 / 高质量出图的标准写法。
📷 创作者:@BubbleBrain · 收录:awesome-gpt-image
❓ 常见问题
关于本章主题最常被搜索的问题,点击展开答案
gpt-image-2 prompt 公式是什么?
OpenAI Cookbook 官方推荐 6 大构件:Subject 主体 + Setting 环境 + Style 风格 + Composition 构图 + Lighting 光线 + Technical specs 技术规格。6 件齐全 = 出图稳定可复用。
prompt 缺哪个构件最翻车?
缺 Lighting 出图昏暗 / 平淡;缺 Subject 模型瞎猜(人脸全不一样);缺 Style 默认偏写实味;缺 Constraints 文字 / 比例失控。每缺一件,模型多猜一个维度。
prompt 越长越好吗?
不是。6 大构件齐全比堆砌长 prompt 准。前 50 词权重最高(约 50%),关键元素必须前置。装饰性细节放后面就行。