文字渲染——gpt-image-2 真正的杀手锏

⏱️ 20分钟

设计师朋友圈这两年最火的吐槽：做一张中文海报，30% 的工作时间花在文字层。Midjourney 出底图 30 秒，然后导进 Photoshop，找字体、调字距、改颜色、加阴影、客户回一句"再大一点"——一下午没了。

为什么这么烦？因为 MJ / Flux 时代，AI 不会写中文字。出来的"汉字"基本是看着像汉字的乱码笔画，必须靠人手在 PS 里把文字层补上去。

gpt-image-2 把这件事干掉了。99% 字符级准确率，覆盖 Latin / 中日韩 / Hindi / Bengali 四大字符体系——这是 vs Midjourney 最大的差异化，也是 OpenAI Cookbook 第一个反复强调的能力。

但要把 99% 真正稳住，光把文字粘进 prompt 没用。必须遵守四条铁律——任何一件偷懒，准确率就掉到 75% 左右。这章把四条铁律拆开讲，每条配对错对比，最后给一个完整的中英混排 prompt 模板。

铁律 1：字面文字必须用双引号

❌ Headline says 30 days to learn ChatGPT
✅ Headline (top, bold): "30 天学会 ChatGPT"

第一种写法，模型把"30 days to learn ChatGPT"理解成描述——它会"自己想"这句话该怎么呈现，可能翻译成中文、可能换措辞、可能干脆漏掉。

双引号是给模型的硬指令："这部分按字粘出，不许翻译，不许变形，不许加字。"OpenAI Cookbook 在文字渲染章节用了大量篇幅强调这一点，社区实测也一致：双引号包字面文字，文字准确率从 60% 跳到 90%+。

中文标题尤其要遵守。Headline says 30 天学会 ChatGPT 没有引号，模型有 30% 概率给你出成"30 天学会 chatgpt"小写或夹英文。

铁律 2：用 role hint 控制字号 / 层级

不写 role hint = 模型自由发挥 = 字号乱跳。

写 role hint 的本质是告诉模型这段文字在版面里的角色，模型会用印刷设计的常识反推字号、字重、位置、对齐。

Role Hint	用途	模型一般给的字号档
`headline`	主标题，最大字	占图高 1/8 ~ 1/3
`subhead`	副标题，次大	headline 的 50-60%
`body` / `caption`	正文 / 说明	中字号
`footer`	底部小字 / 日期 / 版权	最小字号
`stat card`	数据块	数字大、说明小
`sidebar item`	侧栏项	列表风格

❌ Add a big title and a small subtitle
✅ Headline (top center): "AI 训练营"
✅ Subhead (below headline): "30 天交付一个 AI 应用"
✅ Footer (bottom): "2026.05.20 开班"

第一种"big title + small subtitle"模型只能猜——"big"是多大？是 headline 还是 display？写明确了，第一次出图层级就稳。

铁律 3：显式位置 + 颜色 + 字体风格

❌ Title at the top
✅ Headline (top center, large bold, white with subtle shadow)

这条是文字渲染翻车率最高的一条。"Title at the top"——top 是哪里？左上、正上、右上？大字还是小字？什么颜色？——模型 8 张图给你 8 种位置 8 种颜色。

正确写法是5 件齐全：位置 + 大小 + 字重 + 颜色 + 阴影 / 描边。

完整范例：

Headline (top center, large bold, white with thin black outline)
Subhead (directly below headline, centered, medium gray)
Footer (bottom right, small dark gray)

颜色尽量用 hex 码（#FF5757）而不是形容词（bright red）——这点在海报章里详细讲过，文字层同样适用。

铁律 4：加约束词防止额外文字

四句话，prompt 末尾必加：

Exact text only.
No extra words.
No duplicate text.
No background watermarks.

为什么必须加？因为模型见过太多带文字的训练图——海报、广告、电影字幕、版权水印——它有"装饰性补字"的习惯。你只想要一行标题，它给你顺手加一行虚化的英文 tagline 在角落，看着像水印。

这四句加完，能挡掉 90% 这类翻车。我们 JR 团队第一个月没加这四句，每天都在删多余文字；加完之后这类翻车基本绝迹。

一个比喻：双引号是告诉模型"念这段台词"，role hint 是告诉模型"演什么角色"，位置颜色是"站哪里穿什么"，约束词是"别加戏"。四件事齐了，模型才知道你要的是什么。

中文专项（重点）

中文渲染比英文难。原因是中文字结构复杂，笔画密度高，模型必须分配更多"细节预算"给每个字符。把下面五条记住：

1. 用 high quality 档——中文笔画清晰需要更高细节预算。Medium 档出"AI 训练营"还行，出"匠人学院"或"鬱"这种笔画密的字，medium 偶尔笔画断、笔画错位。Low 档基本不要碰中文。一张 high 档图 $0.211（约人民币 1.5 元）——做正式海报这点钱省不得。

2. 不要"翻译"——直接粘中文 glyph，不要写 "Chinese title that says 30 days to learn ChatGPT"。这种写法等于让模型自己翻译再渲染，多一道工序多一倍翻车率。直接 Headline: "30 天学会 ChatGPT"。

3. 字体提示词识别——gpt-image-2 能听懂中文字体词：楷体 / 宋体 / 黑体 / 行书 / kai font / serif Chinese 都识别。比如 Headline in 宋体 bold 出来真的是宋体调性，不是默认黑体。

4. 避开国家级风格词——这是最隐蔽的坑。Japanese aesthetic 听起来很安全，但模型理解成"包括日文元素"，会把"だ" / "ろ" / "ん"等假名混进你的中文标题。改成 Chinese minimalist 或 editorial Asian aesthetic，或者干脆只写元素（光线、调色），不写国家级风格词。

5. 复杂字慎用——笔画过密的字（"嬴" / "龘" / "鬱" / "灪"）准确率掉到 80%。能用同义简单字代替就代替；非用不可就高质量档 + 出图后 200% 放大逐字核对。

中英混排示例（完整 prompt）

Poster, 16:9 banner.

Top bold headline (Chinese, large): "AI 视觉创作"
Sub-line (English, smaller): "30-Day GPT-Image-2 Cover Mastery"
Footer date: "2026.05.01"

Style: minimal flat design, dark navy + warm yellow.

Exact text only.
No extra words.
No duplicate text.
No background watermarks.

模型一次出图，三层文字都对位、不串、不漏。中文用 high 档基本一遍过，英文层永远 99%+ 准确。

如果要再保险一点，每行 role hint 后面加位置：(top center) / (below headline, centered) / (bottom right)——把铁律 3 也补全。

翻车救援工作流

写得再仔细也会偶尔翻车。下面三种救援方法按"代价从低到高"排序：

情况 A：某个汉字笔画错——别重出整张。打开 ChatGPT 对刚出的图说："keep everything the same, only fix the headline character X to Y"。多轮编辑模型会保留其他元素只改指定字。一次救不回来就再说一遍，三轮基本能改对。

情况 B：多张图里同一文字渲染不一致——这个是 reference 模式的固有问题。第 1-3 张你靠 reference 锚定调性，第 4-5 张文字开始飘。解法是每 2-3 张重新粘完整 prompt，不要全靠 "same style as previous"。这个办法在小红书 carousel 章里也讲过，是同一个原理。

情况 C：反复救不回来——别和模型死磕。Photopea / Figma 在底图上覆盖打字：AI 出底图时 prompt 写 no text，文字层用专业工具加。这是终极兜底，特别适合复杂中文字 + 印刷海报。我们做过一张 A3 印刷海报，标题里有"嬴"字，gpt-image-2 试了 12 张笔画都不对，最后改成"AI 出底图 + Figma 加字"5 分钟搞定。

A/B 实战对比

同一个需求："做一张 AI Bootcamp 招生海报，标题'AI 训练营'，副标题'30 天交付一个 AI 应用'"。

弱写法（违反铁律 1+3）：

Make a poster about AI bootcamp with a Chinese title at the top
and a subtitle below it. Modern style, blue and red.

一次出 8 张：4 张文字位置乱、3 张中文笔画错、1 张连标题都没有。能用率 0/8。

强写法（四铁律齐全）：

Wide horizontal banner, 16:9, 1920×1080.

Background: a young diverse team in a modern office,
laptops open, brainstorming session, warm afternoon light.

Headline (top center, huge bold, red #FF5757 with white outline):
"AI 训练营"
Subhead (directly below headline, medium white):
"30 天交付一个 AI 应用"
Footer (bottom center, small dark gray):
"2026.05.20 开班 · 线上直播"

Style: editorial corporate photography, slight film grain.

Exact text only. No extra words. No duplicate text. No watermarks.

一次出 8 张：7 张文字完全正确，1 张副标题位置略偏（再补一句 centered horizontally 重出即解决）。能用率 7/8。

差别就这么大——同一个模型，同一个用户，同一个主题，因为 prompt 写法不同，能用率从 0% 到 87.5%。

翻车实录（4 个真实坑）

翻车 1：Japanese aesthetic 串入片假名——给中文 AI 工具海报写了 Japanese aesthetic, minimal layout。出图标题"AI 工具集"里混入"だ" / "ろ" / "ん"。原因前面讲过：国家级风格词会让模型加该国文字元素。改成 editorial Asian aesthetic 或只写 minimal layout 就好。

翻车 2：副标题位置词不够明确——写 Subhead below the headline。8 张图里 3 张副标题跑到了右下角，因为"below"在版面设计里有"下方某处"的歧义。改成 Subhead (directly below headline, centered horizontally, 30px gap) 就稳。位置词越具体越准。

翻车 3：medium 档出复杂中文字——为了省钱用 medium 档出"匠人学院"四个字。"匠"字右下笔画错乱，"院"字左边的耳朵旁多了一笔。换 high 档重出，4 个字全部正确。这就是为什么中文 + 重要场景必须 high 档。

翻车 4：去掉一句约束词——为了 prompt 短一点，约束段去掉了 No duplicate text。结果出图标题区域出现两个一模一样的"AI 训练营"——一个在正常位置，另一个虚化在背景里像水印。四句约束词一句都不能省。

一句话记忆

双引号 + role hint + 位置颜色 + 约束词

四件事都做，准确率 99%；任意一件偷懒，掉到 75%。

写完 prompt 自检的时候，按这四条逐项过一遍。少哪条补哪条，几乎不会翻车。

JR Academy 的真实经验

我们 4 周内做了 200+ 张含中文文字的图（海报、小红书封面、课程 banner、内文配图）。文字准确率的进步曲线：

周次	中文文字准确率	主要原因
第 1 周	78%	prompt 全靠直觉写，铁律 3 / 4 经常漏
第 2 周	86%	团队整理出"四铁律 checklist"，每张图前对照
第 3 周	92%	加上 hex 颜色 + 位置词具体化
第 4 周	96%	复杂中文字一律 high 档 + 200% 放大核对

提升 18 个百分点，全部原因不是模型变强——4 周里 gpt-image-2 没更新过——是 prompt 写法收敛到这四条铁律。换句话说，准确率从 78% 涨到 96% 是写法红利，不是模型红利。

意思是：你今天读完这章，不需要等模型升级，只需要把这四条铁律刻进 prompt 习惯，明天写出来的图就比今天高 15-20% 准确率。

下一步

文字渲染掌握了，下一个最该练的就是海报。Ch 07 把这套文字铁律应用到三类海报：活动 KV / 电商主图 / 课程封面，每类给完整 prompt 模板和翻车救援。看完你能在 6 分钟内做出可上线的中文海报。

如果你急着先练文字渲染：

拿本章中英混排示例的完整 prompt
改标题文字 + 副标题 + 风格段
一次出 8 张，挑 1 张
文字错了对照"4 个翻车实录"逐项排查
形成肌肉记忆后，铁律 1-4 写起来就像呼吸一样自然

📷 文字渲染实测案例

下面 3 组真实出图来自 awesome-gpt-image（CC BY 4.0）。每组都是文字渲染领域的"边界测试"——证明这套铁律真能压到 99% 准确率。

案例 1: 一粒米上的微缩文字（极限测试）

Rice Grain Micro Typography

Prompt：

A massive pile of rice, and on one single grain of rice there is tiny text that reads "wOw"

这是文字渲染的极限测试 —— 一粒米上写 "wOw"。模型不仅画对了，连大小写 W-o-W 的混写都精确。这种像素级别的文字精度，前代模型从未做到。"wOw" 用了铁律 1（双引号包字面文字），prompt 里没有 role hint 或位置词，因为场景太微缩——这是简单 prompt 配合极致 reasoning 能力的典范。

📷 创作者：@adonis_singh · 收录：awesome-gpt-image

案例 2: 中文书法字帖（4 种书体）

王羲之体	草书	行书	楷书

Prompt：

Generate a calligraphy copybook practice sheet in [script style]

把 [script style] 替换成具体书体（王羲之体 / 草书 / 行书 / 楷书），就能出 4 种不同书法风格的字帖。中文笔画结构 + 章法布白 + 字体特征都对得上 —— 这种细粒度的字体语言，模型已经"懂"了。这是中文专项 §3 字体词典的实战演示。

📷 创作者：@MrLarus · 收录：awesome-gpt-image

案例 3: 密集中文版面压力测试

校园周报	餐厅菜单	教科书页	老黄历

Prompt：

Generate an image of [scene / content]

四种中文密集排版场景：周报 / 菜单 / 教科书页 / 老黄历。这种"全图都是字"的场景，可以用 99% 准确率出能用版本。生产用时建议传入精确文案（菜单内容）或参考图，效果会更稳。

📷 创作者：@MrLarus · 收录：awesome-gpt-image

❓ 常见问题

关于本章主题最常被搜索的问题，点击展开答案

gpt-image-2 怎么写中文不出错？

四条铁律：① 字面文字必须用双引号 ② 用 role hint 控制层级（headline / subhead / footer）③ 显式位置 + 颜色 + 字体风格 ④ 末尾加 4 句约束（exact text only / no extra words / no duplicate / no watermarks）。

复杂中文字怎么稳？

用 high quality 档（$0.211/张）+ 出图后 200% 放大逐字核对 + 必要时 Photopea / Figma 后期覆盖打字层。复杂笔画字（"嬴" / "鬱" / "龘"）准确率掉到 80%，能用同义简单字代替就代替。

中文海报为什么不要写 Japanese aesthetic？

国家级风格词会让模型加该国文字元素。"Japanese aesthetic" 触发模型在中文标题里混入 "だ" / "ろ" / "ん" 等假名。改成 "Chinese minimalist" 或 "editorial Asian aesthetic" 就避开。