gpt-image-2 是什么

⏱️ 15分钟

做小红书封面、做公众号头图、做活动海报——用过 Midjourney 的人都熟悉同一个流程：MJ 出图 → 导进 Photoshop → 手动加中文标题字 → 调位置 → 调字号 → 改 5 版。原因只有一个：Midjourney 写不了中文字。"30 天学会 ChatGPT" 这八个字，MJ v6/v7 出来基本是乱码，能看懂一两个字算运气好。

这件事卡了 AI 出图圈两年。Flux 1.1 Pro 中文略好但仍然不能直接用，DALL-E 3 长文本经常错位，Nano Banana 中文中等不稳定。整个生态默认了"AI 出图 + 人工加字"是必选项——直到 2026-04-21。

那天 OpenAI 发布 gpt-image-2（产品名 ChatGPT Images 2.0），中文渲染准确率干到 99%。"中文海报一次出图直接用"这件事，从这天开始才真正成立。这是第一章，先把它的家底交代清楚。

一页看懂的核心数据

维度	数据
发布日	2026-04-21
ChatGPT Plus / Pro 可用	2026-04-22 起
开发者 API 开放	2026-05 初
Backbone	GPT-5.4（与 ChatGPT 文本端共用 reasoning pipeline）
分辨率上限	4K（4096×4096）
单次出图数	最多 8 张连贯
比例支持	3:1 ~ 1:3 自由
文字渲染准确率	~99%（Latin / 中日韩 / Hindi / Bengali）
API 单价（1024×1024）	Low $0.006 · Medium $0.053 · High $0.211

几个常见误区先纠正：上限是 4K 不是 2K（很多早期发布会后的二手文章写错了，源头是有人把 GPT Image 1.5 时代的 2048 数据搬过来），它取代 DALL-E 3 但不叫 DALL-E 4，定价是按图分三档不是固定单价（Low/Medium/High 价格相差 35 倍，乱选档会直接打爆 API 账单）。

术语：Backbone（底层模型）——指生成图像前负责"理解 prompt + 推理意图"的那个大模型。gpt-image-2 用的是 GPT-5.4，和你在 ChatGPT 里聊天的那个是同一个脑子。这意味着它"听得懂"的程度和 ChatGPT 一样，复杂指令、多语言、隐含意图都能解析。

+242 分意味着什么

发布后 12 小时内，gpt-image-2 在 Image Arena 榜单（社区盲测投票）上拿了 #1，领先第二名 242 分。

这个数字单独看没感觉，对比一下就知道分量：之前 Image Arena 上的最大领先优势在 80-100 分之间——Midjourney v6 刚发布、Flux 1.1 Pro 上线时都属于这个区间。242 分意味着它直接把"主流第一梯队"和"其他人"的距离拉开了两倍以上。

而且这 242 分不是某一类目的偏科——写实、艺术、文字、人物、场景五个评测维度全部第一。Image Arena 历史上没有哪个模型做到过通杀。

实战意义只有一个：今天做封面 / 海报 / 信息图，gpt-image-2 是默认选项，其他模型变成"特定场景才用"。这个排序在过去两年没变过——MJ 一直是 #1，Flux 偶尔追平——直到 4 月 21 号被一次性掀翻。

三个真正的差异化（不是营销话术）

OpenAI 自己列了一堆功能，但实际拉开和 MJ/Flux/Nano Banana 距离的就这三件事。

1. 原生 reasoning：生成前会"想"

gpt-image-2 走与 ChatGPT 文本端同一条 reasoning pipeline：生成前先想清楚用户到底要什么，必要时联网搜参考图，生成后还会自检输出准不准。

Reasoning 像老师当场在黑板上想，边想边写；非 reasoning 模型像直接报答案——你说 A 它给 B，错了你也不知道哪一步错。

举个具体例子：你写 "画一张 2025 上海车展现场，比亚迪展台"，MJ 会编一个像车展的场景——展台是想象出来的，灯光是默认棚拍，地面是通用瓷砖。gpt-image-2 会先搜真实的上海车展照片作参考，然后生成的展台风格、灯光、地面铺设都对得上现场，连展台 LED 屏的常见比亚迪宣传语风格都接近。Midjourney / Flux / Imagen 都没有这个能力——它们的训练截止日就是知识上限。

2. 文字 99%：中文海报第一次能直接用

99% 准确率覆盖 Latin / 中日韩 / Hindi / Bengali 四大字符体系，多语言混排也能稳。TechCrunch 评测原话："surprisingly good at generating text"。

对比 MJ：把"30 天学会 ChatGPT"这八个字塞进 prompt，MJ v7 出来要么变成乱码笔画，要么变成日文片假名"だ"。Photoshop 加字的环节，gpt-image-2 时代可以省掉。

这一点是所有中文内容创作者的刚需差异化。后面所有讲小红书封面、公众号头图、活动 KV 的章节都建立在这一条之上。

3. 多轮编辑：保留上下文，只改你指定的部分

第一张图出来后，你直接对话："把背景换成日落，其他不动"——模型保留人物、文字、构图、调色，只换背景。再来一句"文字调大 30%"，它只改字号。

这能力让 gpt-image-2 从"生图工具"升级成"图像协作伙伴"。不用每次重写 prompt 重摇 8 张图，30 张同风格 carousel 可以用 reference + 短指令链式生成。MJ 也有 vary region，但只能在原图局部重画一块，没法做"保留人物，把整个背景从咖啡店换成日落海边"这种语义级编辑。

它是什么、不是什么

先说不是什么：它不叫 DALL-E 4。

OpenAI 2025 年中先发了过渡产品 GPT Image 1.5，跑了不到一年。gpt-image-2 把 DALL-E 3 和 GPT Image 1.5 同时取代，把"DALL-E 这个旧系列"和"GPT Image 1.x 这个过渡系列"两条线合并成一条——以 GPT 系列文本能力为根的新图像产品线。所以严格说它是 OpenAI 图像模型的第三代，不是 DALL-E 的第四代。

为什么这么改名？因为 backbone 换了。DALL-E 3 用的是独立的扩散模型，和 GPT 文本端是两个东西，prompt 进来要先翻译成扩散模型听得懂的格式。gpt-image-2 把生成主干迁到 GPT-5.4，文本侧的 reasoning 能力直接传到图像侧——这才是"99% 文字渲染"和"原生 reasoning"两个能力的根。"-2"指的是 GPT 统一图像架构的第二代，不是 DALL-E 的编号续接。理解这一点对后面选型有用：你不是在选 DALL-E 4，你是在选第一个 GPT 系列原生图像模型。

我们在 JR Academy 用了一周

发布第三天我们就把内容产线切了一部分到 gpt-image-2。第一个测试场景：做 4 月底 AI Engineer Bootcamp 的活动 KV 海报（横版 banner，中文标题"30 天从 0 到 1 上手 AI Engineering"+ 副标题 + 课程亮点四个 icon + 班期信息）。

旧流程（Midjourney + PS）：MJ 出底图 15 分钟（试 4-5 版风格）→ PS 抠图加字调位置 25 分钟 → 内部 review 改字 5 分钟，45 分钟一张。

gpt-image-2：写一条带角色提示词（headline / subhead / icon caption）的 prompt → 一次出 4 张 → 选最顺眼的一张 → 用多轮编辑把"AI Engineering"调成"AI Engineer 训练营"，6 分钟一张。

省了 39 分钟。一周做了大概 20 张活动图、12 张课程封面、8 张公众号头图，总时间从原本的 30 小时压到 4 小时。

但有一个前期成本没省——第一天我们花了 2 小时摸 prompt 公式（双引号包字面文字、role hint 控制层级、前 50 词 front-load 关键元素）。第一张活动图试了 7 次才把"班期 04-30 启动"这行字调到不漂位置。这部分钱必须先付，第二章会把这个公式拆清楚——一旦摸熟，后面每张图就稳定在 5-8 分钟出可用版本。

还有一个没说出口的副作用：内容产线一旦切到 6 分钟一张，运营会本能地"多做几张"——以前一周 5 张活动图的预算，现在变成一周 30 张。表面上效率提升了 6 倍，实际多产出去的图都得人审、都要走渠道发，运营时间反而被反噬。第二周我们就开始限产能：每个活动最多 3 张主视觉，不要因为便宜就泛滥。

下一步

下一章讲选型对比——什么时候用 gpt-image-2、什么时候 Midjourney 仍然小优、什么时候 Flux/Nano Banana 是更划算的选择。不是"gpt-image-2 全场最强"那种偷懒结论，是按"文字密集 / 极致写实 / 艺术氛围 / 免费量产"四个维度逐项过一遍。

如果你只想先动手出第一张：跳到 Ch 03（5 分钟出第一张图），回来再看选型也行。

📷 真实出图速览

两个真实案例，来自 awesome-gpt-image（CC BY 4.0）。直观感受 gpt-image-2 的两个核心能力：reasoning 联网 + 文字渲染。

案例 1: 苹果发布会人群视角（reasoning + 联网搜参考图）

Apple Park Keynote Crowd Shot

Prompt：

Amateur iPhone photo at Apple Park during the iPhone 20 keynote, Tim Cook presenting on stage. Shot from the crowd at a distance

模型生成前先搜了真实 Apple Park 发布会的现场照片作参考，再生成"人群视角"出图——构图、灯光、舞台都接近真实事件。这就是 §3 讲的原生 reasoning的实战表现：MJ / Flux 没有这个能力。

📷 创作者：@patrickassale · 收录：awesome-gpt-image

案例 2: 100 个科技主题大网格（一次出图覆盖 100 个不同物体 + 准确文字）

100 Technology Topics Grid

Prompt（节选）：

Create a 10 × 10 grid of 100 different topics representing recent technological progress.
Use a realistic, polished editorial illustration style.
Each topic should appear in its own square with a short clear label underneath.

10×10 = 100 个不同科技主题一次出图，每个 cell 都有正确文字标签。这种 1 次 prompt 出 100 个不同小图 + 文字全准的能力，就是 GPT-5.4 backbone reasoning + 99% 文字渲染叠加的体现。

📷 创作者：@chetaslua · 收录：awesome-gpt-image

❓ 常见问题

关于本章主题最常被搜索的问题，点击展开答案

gpt-image-2 是什么？

OpenAI 2026-04-21 发布的图像生成模型，取代 DALL-E 3 和 GPT Image 1.5。底层 GPT-5.4 backbone，支持 4K 分辨率、99% 文字渲染准确率（含中文 / 日韩 / Hindi / Bengali）、单次最多 8 张连贯图，原生集成 reasoning + 多轮编辑。

gpt-image-2 价格多少？

1024×1024 三档价格：低 $0.006 / 中 $0.053 / 高 $0.211 每张。或 ChatGPT Plus $20/月、Pro $200/月包月不限张（有公平使用限制）。开发者 API 2026-05 初开放。

gpt-image-2 是 DALL-E 4 吗？

不是。它取代了 DALL-E 3 但不叫 DALL-E 4，是 OpenAI 图像模型第三代（基于 GPT 系列文本能力的统一架构）。"-2" 指 GPT 统一图像架构的第二代，不是 DALL-E 编号续接。