logo
06

文字渲染——gpt-image-2 真正的杀手锏

⏱️ 20分钟

设计师朋友圈这两年最火的吐槽:做一张中文海报,30% 的工作时间花在文字层。Midjourney 出底图 30 秒,然后导进 Photoshop,找字体、调字距、改颜色、加阴影、客户回一句"再大一点"——一下午没了。

为什么这么烦?因为 MJ / Flux 时代,AI 不会写中文字。出来的"汉字"基本是看着像汉字的乱码笔画,必须靠人手在 PS 里把文字层补上去。

gpt-image-2 把这件事干掉了。99% 字符级准确率,覆盖 Latin / 中日韩 / Hindi / Bengali 四大字符体系——这是 vs Midjourney 最大的差异化,也是 OpenAI Cookbook 第一个反复强调的能力。

但要把 99% 真正稳住,光把文字粘进 prompt 没用。必须遵守四条铁律——任何一件偷懒,准确率就掉到 75% 左右。这章把四条铁律拆开讲,每条配对错对比,最后给一个完整的中英混排 prompt 模板。


铁律 1:字面文字必须用双引号

❌ Headline says 30 days to learn ChatGPT
✅ Headline (top, bold): "30 天学会 ChatGPT"

第一种写法,模型把"30 days to learn ChatGPT"理解成描述——它会"自己想"这句话该怎么呈现,可能翻译成中文、可能换措辞、可能干脆漏掉。

双引号是给模型的硬指令:"这部分按字粘出,不许翻译,不许变形,不许加字。"OpenAI Cookbook 在文字渲染章节用了大量篇幅强调这一点,社区实测也一致:双引号包字面文字,文字准确率从 60% 跳到 90%+。

中文标题尤其要遵守。Headline says 30 天学会 ChatGPT 没有引号,模型有 30% 概率给你出成"30天学会chatgpt"小写或夹英文。

铁律 2:用 role hint 控制字号 / 层级

不写 role hint = 模型自由发挥 = 字号乱跳。

写 role hint 的本质是告诉模型这段文字在版面里的角色,模型会用印刷设计的常识反推字号、字重、位置、对齐。

Role Hint用途模型一般给的字号档
headline主标题,最大字占图高 1/8 ~ 1/3
subhead副标题,次大headline 的 50-60%
body / caption正文 / 说明中字号
footer底部小字 / 日期 / 版权最小字号
stat card数据块数字大、说明小
sidebar item侧栏项列表风格
❌ Add a big title and a small subtitle
✅ Headline (top center): "AI 训练营"
✅ Subhead (below headline): "30 天交付一个 AI 应用"
✅ Footer (bottom): "2026.05.20 开班"

第一种"big title + small subtitle"模型只能猜——"big"是多大?是 headline 还是 display?写明确了,第一次出图层级就稳。

铁律 3:显式位置 + 颜色 + 字体风格

❌ Title at the top
✅ Headline (top center, large bold, white with subtle shadow)

这条是文字渲染翻车率最高的一条。"Title at the top"——top 是哪里?左上、正上、右上?大字还是小字?什么颜色?——模型 8 张图给你 8 种位置 8 种颜色。

正确写法是5 件齐全:位置 + 大小 + 字重 + 颜色 + 阴影 / 描边。

完整范例:

Headline (top center, large bold, white with thin black outline)
Subhead (directly below headline, centered, medium gray)
Footer (bottom right, small dark gray)

颜色尽量用 hex 码(#FF5757)而不是形容词(bright red)——这点在海报章里详细讲过,文字层同样适用。

铁律 4:加约束词防止额外文字

四句话,prompt 末尾必加:

Exact text only.
No extra words.
No duplicate text.
No background watermarks.

为什么必须加?因为模型见过太多带文字的训练图——海报、广告、电影字幕、版权水印——它有"装饰性补字"的习惯。你只想要一行标题,它给你顺手加一行虚化的英文 tagline 在角落,看着像水印。

这四句加完,能挡掉 90% 这类翻车。我们 JR 团队第一个月没加这四句,每天都在删多余文字;加完之后这类翻车基本绝迹。

一个比喻:双引号是告诉模型"念这段台词",role hint 是告诉模型"演什么角色",位置颜色是"站哪里穿什么",约束词是"别加戏"。四件事齐了,模型才知道你要的是什么。


中文专项(重点)

中文渲染比英文难。原因是中文字结构复杂,笔画密度高,模型必须分配更多"细节预算"给每个字符。把下面五条记住:

1. 用 high quality 档——中文笔画清晰需要更高细节预算。Medium 档出"AI 训练营"还行,出"匠人学院"或"鬱"这种笔画密的字,medium 偶尔笔画断、笔画错位。Low 档基本不要碰中文。一张 high 档图 $0.211(约人民币 1.5 元)——做正式海报这点钱省不得。

2. 不要"翻译"——直接粘中文 glyph,不要写 "Chinese title that says 30 days to learn ChatGPT"。这种写法等于让模型自己翻译再渲染,多一道工序多一倍翻车率。直接 Headline: "30 天学会 ChatGPT"

3. 字体提示词识别——gpt-image-2 能听懂中文字体词:楷体 / 宋体 / 黑体 / 行书 / kai font / serif Chinese 都识别。比如 Headline in 宋体 bold 出来真的是宋体调性,不是默认黑体。

4. 避开国家级风格词——这是最隐蔽的坑。Japanese aesthetic 听起来很安全,但模型理解成"包括日文元素",会把"だ" / "ろ" / "ん"等假名混进你的中文标题。改成 Chinese minimalisteditorial Asian aesthetic,或者干脆只写元素(光线、调色),不写国家级风格词。

5. 复杂字慎用——笔画过密的字("嬴" / "龘" / "鬱" / "灪")准确率掉到 80%。能用同义简单字代替就代替;非用不可就高质量档 + 出图后 200% 放大逐字核对。


中英混排示例(完整 prompt)

Poster, 16:9 banner.

Top bold headline (Chinese, large): "AI 视觉创作"
Sub-line (English, smaller): "30-Day GPT-Image-2 Cover Mastery"
Footer date: "2026.05.01"

Style: minimal flat design, dark navy + warm yellow.

Exact text only.
No extra words.
No duplicate text.
No background watermarks.

模型一次出图,三层文字都对位、不串、不漏。中文用 high 档基本一遍过,英文层永远 99%+ 准确。

如果要再保险一点,每行 role hint 后面加位置:(top center) / (below headline, centered) / (bottom right)——把铁律 3 也补全。


翻车救援工作流

写得再仔细也会偶尔翻车。下面三种救援方法按"代价从低到高"排序:

情况 A:某个汉字笔画错——别重出整张。打开 ChatGPT 对刚出的图说:"keep everything the same, only fix the headline character X to Y"。多轮编辑模型会保留其他元素只改指定字。一次救不回来就再说一遍,三轮基本能改对。

情况 B:多张图里同一文字渲染不一致——这个是 reference 模式的固有问题。第 1-3 张你靠 reference 锚定调性,第 4-5 张文字开始飘。解法是每 2-3 张重新粘完整 prompt,不要全靠 "same style as previous"。这个办法在小红书 carousel 章里也讲过,是同一个原理。

情况 C:反复救不回来——别和模型死磕。Photopea / Figma 在底图上覆盖打字:AI 出底图时 prompt 写 no text,文字层用专业工具加。这是终极兜底,特别适合复杂中文字 + 印刷海报。我们做过一张 A3 印刷海报,标题里有"嬴"字,gpt-image-2 试了 12 张笔画都不对,最后改成"AI 出底图 + Figma 加字"5 分钟搞定。


A/B 实战对比

同一个需求:"做一张 AI Bootcamp 招生海报,标题'AI 训练营',副标题'30 天交付一个 AI 应用'"。

弱写法(违反铁律 1+3):

Make a poster about AI bootcamp with a Chinese title at the top
and a subtitle below it. Modern style, blue and red.

一次出 8 张:4 张文字位置乱、3 张中文笔画错、1 张连标题都没有。能用率 0/8。

强写法(四铁律齐全):

Wide horizontal banner, 16:9, 1920×1080.

Background: a young diverse team in a modern office,
laptops open, brainstorming session, warm afternoon light.

Headline (top center, huge bold, red #FF5757 with white outline):
"AI 训练营"
Subhead (directly below headline, medium white):
"30 天交付一个 AI 应用"
Footer (bottom center, small dark gray):
"2026.05.20 开班 · 线上直播"

Style: editorial corporate photography, slight film grain.

Exact text only. No extra words. No duplicate text. No watermarks.

一次出 8 张:7 张文字完全正确,1 张副标题位置略偏(再补一句 centered horizontally 重出即解决)。能用率 7/8。

差别就这么大——同一个模型,同一个用户,同一个主题,因为 prompt 写法不同,能用率从 0% 到 87.5%。


翻车实录(4 个真实坑)

翻车 1:Japanese aesthetic 串入片假名——给中文 AI 工具海报写了 Japanese aesthetic, minimal layout。出图标题"AI 工具集"里混入"だ" / "ろ" / "ん"。原因前面讲过:国家级风格词会让模型加该国文字元素。改成 editorial Asian aesthetic 或只写 minimal layout 就好。

翻车 2:副标题位置词不够明确——写 Subhead below the headline。8 张图里 3 张副标题跑到了右下角,因为"below"在版面设计里有"下方某处"的歧义。改成 Subhead (directly below headline, centered horizontally, 30px gap) 就稳。位置词越具体越准。

翻车 3:medium 档出复杂中文字——为了省钱用 medium 档出"匠人学院"四个字。"匠"字右下笔画错乱,"院"字左边的耳朵旁多了一笔。换 high 档重出,4 个字全部正确。这就是为什么中文 + 重要场景必须 high 档。

翻车 4:去掉一句约束词——为了 prompt 短一点,约束段去掉了 No duplicate text。结果出图标题区域出现两个一模一样的"AI 训练营"——一个在正常位置,另一个虚化在背景里像水印。四句约束词一句都不能省。


一句话记忆

双引号 + role hint + 位置颜色 + 约束词

四件事都做,准确率 99%;任意一件偷懒,掉到 75%。

写完 prompt 自检的时候,按这四条逐项过一遍。少哪条补哪条,几乎不会翻车。


JR Academy 的真实经验

我们 4 周内做了 200+ 张含中文文字的图(海报、小红书封面、课程 banner、内文配图)。文字准确率的进步曲线:

周次中文文字准确率主要原因
第 1 周78%prompt 全靠直觉写,铁律 3 / 4 经常漏
第 2 周86%团队整理出"四铁律 checklist",每张图前对照
第 3 周92%加上 hex 颜色 + 位置词具体化
第 4 周96%复杂中文字一律 high 档 + 200% 放大核对

提升 18 个百分点,全部原因不是模型变强——4 周里 gpt-image-2 没更新过——是 prompt 写法收敛到这四条铁律。换句话说,准确率从 78% 涨到 96% 是写法红利,不是模型红利。

意思是:你今天读完这章,不需要等模型升级,只需要把这四条铁律刻进 prompt 习惯,明天写出来的图就比今天高 15-20% 准确率。


下一步

文字渲染掌握了,下一个最该练的就是海报。Ch 07 把这套文字铁律应用到三类海报:活动 KV / 电商主图 / 课程封面,每类给完整 prompt 模板和翻车救援。看完你能在 6 分钟内做出可上线的中文海报。

如果你急着先练文字渲染:

  1. 拿本章中英混排示例的完整 prompt
  2. 改标题文字 + 副标题 + 风格段
  3. 一次出 8 张,挑 1 张
  4. 文字错了对照"4 个翻车实录"逐项排查
  5. 形成肌肉记忆后,铁律 1-4 写起来就像呼吸一样自然

📷 文字渲染实测案例

下面 3 组真实出图来自 awesome-gpt-image(CC BY 4.0)。每组都是文字渲染领域的"边界测试"——证明这套铁律真能压到 99% 准确率。

案例 1: 一粒米上的微缩文字(极限测试)

Rice Grain Micro Typography

Prompt:

A massive pile of rice, and on one single grain of rice there is tiny text that reads "wOw"

这是文字渲染的极限测试 —— 一粒米上写 "wOw"。模型不仅画对了,连大小写 W-o-W 的混写都精确。这种像素级别的文字精度,前代模型从未做到。"wOw" 用了铁律 1(双引号包字面文字),prompt 里没有 role hint 或位置词,因为场景太微缩——这是简单 prompt 配合极致 reasoning 能力的典范。

📷 创作者:@adonis_singh · 收录:awesome-gpt-image

案例 2: 中文书法字帖(4 种书体)

王羲之体草书行书楷书
Wang XizhiCursiveRunningRegular

Prompt:

Generate a calligraphy copybook practice sheet in [script style]

[script style] 替换成具体书体(王羲之体 / 草书 / 行书 / 楷书),就能出 4 种不同书法风格的字帖。中文笔画结构 + 章法布白 + 字体特征都对得上 —— 这种细粒度的字体语言,模型已经"懂"了。这是中文专项 §3 字体词典的实战演示。

📷 创作者:@MrLarus · 收录:awesome-gpt-image

案例 3: 密集中文版面压力测试

校园周报餐厅菜单教科书页老黄历
DailyMenuTextbookAlmanac

Prompt:

Generate an image of [scene / content]

四种中文密集排版场景:周报 / 菜单 / 教科书页 / 老黄历。这种"全图都是字"的场景,可以用 99% 准确率出能用版本。生产用时建议传入精确文案(菜单内容)或参考图,效果会更稳。

📷 创作者:@MrLarus · 收录:awesome-gpt-image

❓ 常见问题

关于本章主题最常被搜索的问题,点击展开答案

gpt-image-2 怎么写中文不出错?

四条铁律:① 字面文字必须用双引号 ② 用 role hint 控制层级(headline / subhead / footer)③ 显式位置 + 颜色 + 字体风格 ④ 末尾加 4 句约束(exact text only / no extra words / no duplicate / no watermarks)。

复杂中文字怎么稳?

用 high quality 档($0.211/张)+ 出图后 200% 放大逐字核对 + 必要时 Photopea / Figma 后期覆盖打字层。复杂笔画字("嬴" / "鬱" / "龘")准确率掉到 80%,能用同义简单字代替就代替。

中文海报为什么不要写 Japanese aesthetic?

国家级风格词会让模型加该国文字元素。"Japanese aesthetic" 触发模型在中文标题里混入 "だ" / "ろ" / "ん" 等假名。改成 "Chinese minimalist" 或 "editorial Asian aesthetic" 就避开。