logo
01

gpt-image-2 是什么

⏱️ 15分钟

做小红书封面、做公众号头图、做活动海报——用过 Midjourney 的人都熟悉同一个流程:MJ 出图 → 导进 Photoshop → 手动加中文标题字 → 调位置 → 调字号 → 改 5 版。原因只有一个:Midjourney 写不了中文字。"30 天学会 ChatGPT" 这八个字,MJ v6/v7 出来基本是乱码,能看懂一两个字算运气好。

这件事卡了 AI 出图圈两年。Flux 1.1 Pro 中文略好但仍然不能直接用,DALL-E 3 长文本经常错位,Nano Banana 中文中等不稳定。整个生态默认了"AI 出图 + 人工加字"是必选项——直到 2026-04-21。

那天 OpenAI 发布 gpt-image-2(产品名 ChatGPT Images 2.0),中文渲染准确率干到 99%。"中文海报一次出图直接用"这件事,从这天开始才真正成立。这是第一章,先把它的家底交代清楚。


一页看懂的核心数据

维度数据
发布日2026-04-21
ChatGPT Plus / Pro 可用2026-04-22 起
开发者 API 开放2026-05 初
BackboneGPT-5.4(与 ChatGPT 文本端共用 reasoning pipeline)
分辨率上限4K(4096×4096)
单次出图数最多 8 张连贯
比例支持3:1 ~ 1:3 自由
文字渲染准确率~99%(Latin / 中日韩 / Hindi / Bengali)
API 单价(1024×1024)Low $0.006 · Medium $0.053 · High $0.211

几个常见误区先纠正:上限是 4K 不是 2K(很多早期发布会后的二手文章写错了,源头是有人把 GPT Image 1.5 时代的 2048 数据搬过来),它取代 DALL-E 3 但不叫 DALL-E 4,定价是按图分三档不是固定单价(Low/Medium/High 价格相差 35 倍,乱选档会直接打爆 API 账单)。

术语:Backbone(底层模型)——指生成图像前负责"理解 prompt + 推理意图"的那个大模型。gpt-image-2 用的是 GPT-5.4,和你在 ChatGPT 里聊天的那个是同一个脑子。这意味着它"听得懂"的程度和 ChatGPT 一样,复杂指令、多语言、隐含意图都能解析。


+242 分意味着什么

发布后 12 小时内,gpt-image-2 在 Image Arena 榜单(社区盲测投票)上拿了 #1,领先第二名 242 分

这个数字单独看没感觉,对比一下就知道分量:之前 Image Arena 上的最大领先优势在 80-100 分之间——Midjourney v6 刚发布、Flux 1.1 Pro 上线时都属于这个区间。242 分意味着它直接把"主流第一梯队"和"其他人"的距离拉开了两倍以上

而且这 242 分不是某一类目的偏科——写实、艺术、文字、人物、场景五个评测维度全部第一。Image Arena 历史上没有哪个模型做到过通杀。

实战意义只有一个:今天做封面 / 海报 / 信息图,gpt-image-2 是默认选项,其他模型变成"特定场景才用"。这个排序在过去两年没变过——MJ 一直是 #1,Flux 偶尔追平——直到 4 月 21 号被一次性掀翻。


三个真正的差异化(不是营销话术)

OpenAI 自己列了一堆功能,但实际拉开和 MJ/Flux/Nano Banana 距离的就这三件事。

1. 原生 reasoning:生成前会"想"

gpt-image-2 走与 ChatGPT 文本端同一条 reasoning pipeline:生成前先想清楚用户到底要什么,必要时联网搜参考图,生成后还会自检输出准不准。

Reasoning 像老师当场在黑板上想,边想边写;非 reasoning 模型像直接报答案——你说 A 它给 B,错了你也不知道哪一步错。

举个具体例子:你写 "画一张 2025 上海车展现场,比亚迪展台",MJ 会编一个像车展的场景——展台是想象出来的,灯光是默认棚拍,地面是通用瓷砖。gpt-image-2 会先搜真实的上海车展照片作参考,然后生成的展台风格、灯光、地面铺设都对得上现场,连展台 LED 屏的常见比亚迪宣传语风格都接近。Midjourney / Flux / Imagen 都没有这个能力——它们的训练截止日就是知识上限。

2. 文字 99%:中文海报第一次能直接用

99% 准确率覆盖 Latin / 中日韩 / Hindi / Bengali 四大字符体系,多语言混排也能稳。TechCrunch 评测原话:"surprisingly good at generating text"。

对比 MJ:把"30 天学会 ChatGPT"这八个字塞进 prompt,MJ v7 出来要么变成乱码笔画,要么变成日文片假名"だ"。Photoshop 加字的环节,gpt-image-2 时代可以省掉。

这一点是所有中文内容创作者的刚需差异化。后面所有讲小红书封面、公众号头图、活动 KV 的章节都建立在这一条之上。

3. 多轮编辑:保留上下文,只改你指定的部分

第一张图出来后,你直接对话:"把背景换成日落,其他不动"——模型保留人物、文字、构图、调色,只换背景。再来一句"文字调大 30%",它只改字号。

这能力让 gpt-image-2 从"生图工具"升级成"图像协作伙伴"。不用每次重写 prompt 重摇 8 张图,30 张同风格 carousel 可以用 reference + 短指令链式生成。MJ 也有 vary region,但只能在原图局部重画一块,没法做"保留人物,把整个背景从咖啡店换成日落海边"这种语义级编辑。


它是什么、不是什么

先说不是什么:它不叫 DALL-E 4

OpenAI 2025 年中先发了过渡产品 GPT Image 1.5,跑了不到一年。gpt-image-2 把 DALL-E 3 和 GPT Image 1.5 同时取代,把"DALL-E 这个旧系列"和"GPT Image 1.x 这个过渡系列"两条线合并成一条——以 GPT 系列文本能力为根的新图像产品线。所以严格说它是 OpenAI 图像模型的第三代,不是 DALL-E 的第四代。

为什么这么改名?因为 backbone 换了。DALL-E 3 用的是独立的扩散模型,和 GPT 文本端是两个东西,prompt 进来要先翻译成扩散模型听得懂的格式。gpt-image-2 把生成主干迁到 GPT-5.4,文本侧的 reasoning 能力直接传到图像侧——这才是"99% 文字渲染"和"原生 reasoning"两个能力的根。"-2"指的是 GPT 统一图像架构的第二代,不是 DALL-E 的编号续接。理解这一点对后面选型有用:你不是在选 DALL-E 4,你是在选第一个 GPT 系列原生图像模型


我们在 JR Academy 用了一周

发布第三天我们就把内容产线切了一部分到 gpt-image-2。第一个测试场景:做 4 月底 AI Engineer Bootcamp 的活动 KV 海报(横版 banner,中文标题"30 天从 0 到 1 上手 AI Engineering"+ 副标题 + 课程亮点四个 icon + 班期信息)。

旧流程(Midjourney + PS):MJ 出底图 15 分钟(试 4-5 版风格)→ PS 抠图加字调位置 25 分钟 → 内部 review 改字 5 分钟,45 分钟一张

gpt-image-2:写一条带角色提示词(headline / subhead / icon caption)的 prompt → 一次出 4 张 → 选最顺眼的一张 → 用多轮编辑把"AI Engineering"调成"AI Engineer 训练营",6 分钟一张

省了 39 分钟。一周做了大概 20 张活动图、12 张课程封面、8 张公众号头图,总时间从原本的 30 小时压到 4 小时。

但有一个前期成本没省——第一天我们花了 2 小时摸 prompt 公式(双引号包字面文字、role hint 控制层级、前 50 词 front-load 关键元素)。第一张活动图试了 7 次才把"班期 04-30 启动"这行字调到不漂位置。这部分钱必须先付,第二章会把这个公式拆清楚——一旦摸熟,后面每张图就稳定在 5-8 分钟出可用版本。

还有一个没说出口的副作用:内容产线一旦切到 6 分钟一张,运营会本能地"多做几张"——以前一周 5 张活动图的预算,现在变成一周 30 张。表面上效率提升了 6 倍,实际多产出去的图都得人审、都要走渠道发,运营时间反而被反噬。第二周我们就开始限产能:每个活动最多 3 张主视觉,不要因为便宜就泛滥。


下一步

下一章讲选型对比——什么时候用 gpt-image-2、什么时候 Midjourney 仍然小优、什么时候 Flux/Nano Banana 是更划算的选择。不是"gpt-image-2 全场最强"那种偷懒结论,是按"文字密集 / 极致写实 / 艺术氛围 / 免费量产"四个维度逐项过一遍。

如果你只想先动手出第一张:跳到 Ch 03(5 分钟出第一张图),回来再看选型也行。


📷 真实出图速览

两个真实案例,来自 awesome-gpt-image(CC BY 4.0)。直观感受 gpt-image-2 的两个核心能力:reasoning 联网 + 文字渲染。

案例 1: 苹果发布会人群视角(reasoning + 联网搜参考图)

Apple Park Keynote Crowd Shot

Prompt:

Amateur iPhone photo at Apple Park during the iPhone 20 keynote, Tim Cook presenting on stage. Shot from the crowd at a distance

模型生成前先搜了真实 Apple Park 发布会的现场照片作参考,再生成"人群视角"出图——构图、灯光、舞台都接近真实事件。这就是 §3 讲的原生 reasoning的实战表现:MJ / Flux 没有这个能力。

📷 创作者:@patrickassale · 收录:awesome-gpt-image

案例 2: 100 个科技主题大网格(一次出图覆盖 100 个不同物体 + 准确文字)

100 Technology Topics Grid

Prompt(节选):

Create a 10 × 10 grid of 100 different topics representing recent technological progress.
Use a realistic, polished editorial illustration style.
Each topic should appear in its own square with a short clear label underneath.

10×10 = 100 个不同科技主题一次出图,每个 cell 都有正确文字标签。这种 1 次 prompt 出 100 个不同小图 + 文字全准的能力,就是 GPT-5.4 backbone reasoning + 99% 文字渲染叠加的体现。

📷 创作者:@chetaslua · 收录:awesome-gpt-image

❓ 常见问题

关于本章主题最常被搜索的问题,点击展开答案

gpt-image-2 是什么?

OpenAI 2026-04-21 发布的图像生成模型,取代 DALL-E 3 和 GPT Image 1.5。底层 GPT-5.4 backbone,支持 4K 分辨率、99% 文字渲染准确率(含中文 / 日韩 / Hindi / Bengali)、单次最多 8 张连贯图,原生集成 reasoning + 多轮编辑。

gpt-image-2 价格多少?

1024×1024 三档价格:低 $0.006 / 中 $0.053 / 高 $0.211 每张。或 ChatGPT Plus $20/月、Pro $200/月包月不限张(有公平使用限制)。开发者 API 2026-05 初开放。

gpt-image-2 是 DALL-E 4 吗?

不是。它取代了 DALL-E 3 但不叫 DALL-E 4,是 OpenAI 图像模型第三代(基于 GPT 系列文本能力的统一架构)。"-2" 指 GPT 统一图像架构的第二代,不是 DALL-E 编号续接。