前 50 词法则与镜头/光线/情绪词典
上一章那张"6 件构件"清单背完后,第一次出图的人通常都会撞到同一堵墙:构件齐全、双引号都加了、风格也写了,画出来还是"不对味"。主体糊、风格漂移、调色乱跳。
不是公式错了,是词序错了。
gpt-image-2 处理 prompt 不是平均加权——越靠前的词权重越高。模型在解码主体特征的早期 step 主要"听"前面那几十词,后面的词只是来微调。所以同样一段 prompt,把"photorealistic"放第 5 词还是第 50 词,出图差距比你想象的大得多。
这章讲清楚一件事:前 50 词决定一张图至少 50% 的质量。剩下的篇幅是镜头 / 光线 / 情绪三本词典,告诉你前 50 词里到底该塞哪些字。
1. 前 50 词法则
我们让同一组 prompt 在 gpt-image-2 上跑了 80 多次(变量只有词序),统计权重大致这样:
| 位置 | 占整图影响权重 | 该塞什么 |
|---|---|---|
| 第 1-15 词 | ~50% | 风格 + 主体 + 镜头(三件大事) |
| 第 16-50 词 | ~30% | 光线 + 场景 + 构图细节 |
| 第 51 词以后 | ~20% | 装饰物、副元素、约束句 |
可以这样记忆:前 15 词是"骨",16-50 词是"肉",51 词之后是"装饰品"。骨架错了,怎么贴肉都歪。
2. A/B 实战对比
来看一组真实 prompt 对照。
弱例子(关键词扔在末尾)
A scene with various elements that include a young woman who is sitting
at a wooden table near a window in a café drinking coffee, photorealistic style.
数一下:主体"young woman"在第 14 词附近,"photorealistic"压在最后一个位置。出图效果——咖啡馆 OK,但人脸偏插画感、桌子塑料感重,"photorealistic"几乎没生效。
强例子(关键词在前)
Photorealistic portrait of a young Asian woman drinking coffee in a sunlit
Sydney café. 50mm lens, golden hour light, editorial style.
风格 + 主体 + 镜头全在前 12 词。出图:人脸毛孔细节、肌肤质感、咖啡杯反光、自然景深都到位。同一台模型,准确率高出近 3 倍——不是模型变强了,是"听见了你的指令"。
3. 镜头词典
镜头词控制的是画面构图与景深。前 50 词里至少要塞一个镜头词,不然模型默认拍"中景半身、固定 50mm、f/4 左右"——一种平庸的标准照相机感。
| 词 | 效果 | 场景搭配建议 |
|---|---|---|
wide shot | 大场景,主体小 | 城市街景、产品环境图、KV 海报背景 |
medium shot | 半身,主体清晰 | 人物 + 环境的均衡构图,最稳的兜底 |
close-up | 头部 / 局部特写 | 人像情绪、产品质感、美食特写 |
extreme close-up | 眼睛 / 唇 / 纹理 | 美妆广告、戏剧化情绪 |
overhead shot | 顶视 | 美食 flatlay、桌面工作流图 |
low angle | 仰拍 | 建筑、英雄式人物、运动品牌 |
dutch angle | 倾斜构图 | 紧张感、悬疑、街头摄影 |
35mm lens | 略带广角,环境感强 | 街拍、纪实、Vlog 风 |
50mm lens | 接近人眼 | 通用人像、生活场景 |
85mm lens | 长焦压缩 | 杂志大片人像、虚化背景 |
f/1.8 shallow DOF | 浅景深,背景化奶 | 食物 / 人像 / 产品突出主体 |
f/8 deep focus | 深景深,前后都清 | 风光、建筑、群像 |
4. 光线词典
光线决定一张图的情绪基调和质感档次。同一个主体,studio softbox 拍出商业感,golden hour 拍出温馨感,harsh midday sun 拍出热带街头感——主体没变,"看起来值多少钱"完全变了。
| 词 | 效果 | 场景搭配建议 |
|---|---|---|
golden hour | 日落前 30 分钟暖光 | 人像、生活方式、咖啡馆、旅行 |
blue hour | 日落后蓝调 | 城市夜景、孤独情绪、电影感 |
harsh midday sun | 强烈高反差 | 街头、热带、运动品牌 |
night neon | 霓虹 + 夜色 | 赛博朋克、夜店、Y2K |
studio softbox | 商业柔光 | 电商主图、产品、人像证件 |
cinematic lighting | 强明暗对比 | 课程封面、电影海报、Bootcamp KV |
overcast diffused | 阴天柔光 | 北欧风、极简、纪实 |
dramatic chiaroscuro | 极强明暗 | 文艺杂志、人物特写 |
rim light | 轮廓光 | 主体外发光、剪影、产品边缘 |
key light | 主光 | 人像主照明,配 fill light 做层次 |
back light | 逆光 | 头发发丝感、剪影、氛围 |
top down | 顶光 | 食物 flatlay、犯罪悬疑感 |
5. 情绪 / 质感词典
镜头管"看起来怎么拍的",光线管"什么时间什么环境",情绪词管"看完是什么感觉"。这一栏写不写差距巨大——不写,模型默认"中性新闻摄影感";写了,整张图调性立刻立住。
| 词 | 效果 | 场景搭配建议 |
|---|---|---|
moody / dramatic | 暗、对比强、压抑感 | 课程封面、严肃话题、人物深度 |
dreamy / ethereal | 雾、轻盈、仙气 | 美妆、女性向、艺术、香氛 |
editorial / fashion | 时尚杂志感 | 品牌大片、KV 海报、人像 |
candid / documentary | 抓拍、真实 | 小红书真人感、品牌纪实 |
cozy / intimate | 温暖贴近 | 居家、咖啡、母婴、生活方式 |
cinematic / filmic | 电影画面感 | 课程封面、活动 KV、宣传短片 |
vibrant pop | 高饱和、年轻 | 抖音、Y2K、潮玩、运动 |
melancholic | 忧郁、孤独 | 文艺、独立音乐、情绪短片 |
y2k aesthetic | 千禧年感 | 复古数码、青年文化 |
vaporwave | 紫粉霓虹、复古赛博 | 设计感封面、音乐视觉 |
retro 80s / vintage 70s | 时代质感 | 复古营销、致敬向、潮牌 |
modern minimal | 极简现代 | B2B、设计感、知识付费 |
6. 写 prompt 倒着想
新手写 prompt 习惯顺着想:先描场景,再加细节,最后才补风格。这正是上一节弱例子翻车的原因。
专业流程是反过来的——先想"这张图要什么气质",再倒推关键词怎么排:
- 先决定三件事:主体是谁 / 风格调性 / 光线时间
- 把这三件事的关键词全挤进前 30 词 — 这是骨架
- 再写构图 + 镜头规格(35-50 词区间)
- 最后补装饰细节 + 约束句(50 词后)
这就像装修:先定风格(北欧 / 工业 / 日式),再选硬装(地板墙面),最后才软装(抱枕画框)。倒过来先选抱枕的人最后总要返工。
7. 翻车实录
翻车 1:风格词放最后
prompt 末尾跟一句"…photorealistic style."——出图依然偏插画。模型早就根据前 50 词决定了画风,最后一句风格词权重不够撼动它。
解法:把风格词挪到第一句的开头。Photorealistic editorial portrait of… 是几乎所有写实图的标准开头。
翻车 2:用模糊词
写 good camera、nice lighting、high quality——模型完全不知道你说什么,直接走默认(50mm + 自然光 + 普通商业标准)。
解法:用具体词。50mm f/1.8 比 good camera 准 10 倍,golden hour rim light 比 nice lighting 直接到位。模糊词等于没写。
翻车 3:堆 5+ 个风格词互相打架
photorealistic, cinematic, editorial, fashion, dramatic, moody, vintage, modern minimal——模型左右为难,各取一点最后什么都不是。
解法:风格词最多 2-3 个,且必须互相兼容。Photorealistic editorial 是兼容的;Photorealistic anime 是矛盾的;Modern minimal vintage 70s 是逻辑冲突。写之前问自己:这两个词放一起,人类摄影师听得懂吗?
翻车 4:拷别人的"魔法 prompt"出图完全不同
社交媒体常看到"这条 prompt 一键出大片"——你照搬过去结果完全不对味。原因往往不是模型版本,而是你把主体词换了,导致前 50 词的语义结构变了。
解法:拷 prompt 时只换"主体名词",前 50 词的句式结构、风格词、镜头词、光线词全部保留原样。换的越多偏得越远。
8. 我们的标配模板
JR Academy 团队过去半年出过 800+ 张商业图(活动 KV / 课程封面 / 小红书)。我们最后总结出一个"前 50 词标配模板",每张图都用这个开头:
Editorial photorealistic portrait of [主体],
[场景 + 光线],
[构图 + 镜头规格].
实际例子:
Editorial photorealistic portrait of a young Chinese AI engineer
debugging code in a Sydney coworking space at golden hour,
medium shot, 50mm lens, f/1.8 shallow DOF, cinematic warm grade.
48 词,三件大事(主体 / 风格 / 光线 / 镜头)全在前 30 词。后面再加文字层、约束句、品牌色 hex。这套结构稳到我们后来直接做成了团队 Notion 模板,运营同事改个主体描述就能批量出图。
下一步
前 50 词的骨架搭好后,下一关是文字渲染——也就是 gpt-image-2 真正颠覆 Midjourney 的那一刀。中文标题字 99% 准确率不是白来的,背后有一套独立的铁律:双引号、role hint、位置词、复杂笔画字处理。Ch 06 一节讲透。
如果你急着先练词序:
- 拿本章 §8 的标配模板
- 改主体 + 场景 + 光线(必须都挤进前 30 词)
- 镜头 / 光线 / 情绪三本词典各挑 1 个放前 50 词
- 翻车时回到 §7 四个翻车点对照修
记住一件事:模型不会读你的心,只会数你的词。
📷 前 50 词法则实测案例
来自 awesome-gpt-image(CC BY 4.0)。看真实"前 50 词标配模板"是怎么写的。
案例: 韩系编辑级人像(前 50 词把风格 + 主体 + 光线全锁死)
Prompt(前 50 词部分):
9:16 vertical - editorial portrait, single subject soft black mist filter,
subtle haze, gentle highlight bloom, muted tones minimal indoor space,
clean background, slight texture young Korean woman, minimal makeup,
natural skin texture
数一下前 50 词的内容密度:
- Position 1-5:
9:16 vertical - editorial portrait—— 比例 + 风格定调 - Position 6-15:
single subject soft black mist filter, subtle haze, gentle highlight bloom—— 滤镜 + 光感 - Position 16-25:
muted tones minimal indoor space, clean background—— 配色 + 环境 - Position 26-50:
young Korean woman, minimal makeup, natural skin texture—— 主体 + 妆容质感
整个出图调性的"骨"在前 50 词搭完。后续 200+ 词只是补 outfit / pose / hair 的"装饰"——但骨架一搭好,剩下的细节都是"锦上添花",不是"救命稻草"。
📷 创作者:@BubbleBrain · 收录:awesome-gpt-image
❓ 常见问题
关于本章主题最常被搜索的问题,点击展开答案
gpt-image-2 前 50 词法则是什么?
gpt-image-2 对 prompt 前 50 词权重最高(约 50%)。第 1-15 词是"骨"(风格 + 主体 + 镜头),16-50 词是"肉"(光线 + 场景),51 词后是"装饰品"(约 20% 权重)。
gpt-image-2 镜头词典有哪些?
常用:wide shot(大场景)/ medium shot(半身,最稳)/ close-up(特写)/ overhead shot(顶视)/ low angle(仰拍)/ 35mm / 50mm / 85mm lens / f/1.8 浅景深 / f/8 深景深。
风格词放最后会怎样?
权重低于前置词,出图风格漂移。比如 prompt 末尾跟 "...photorealistic style." → 出图依然偏插画。把风格词挪到第一句开头("Photorealistic editorial portrait of...")就稳。