logo
02

选型对比 vs Midjourney / Flux / Nano Banana / DALL-E 3

⏱️ 12分钟

做小红书封面用谁?做活动 KV 海报用谁?做艺术插画又用谁?真实做内容的人都明白一件事——没有"最强模型",只有"最适合任务"

gpt-image-2 在 Image Arena 发布 12 小时拿了 #1,领先第二名 242 分(史上最大领先优势)。但这不代表它每个场景都是首选。Midjourney v7 在艺术氛围依然小有优势,Flux 1.1 Pro 写实人像更稳,Nano Banana 免费额度对个人用户够用。

这章把五个主流模型摊在桌上,给你一张能直接拿来用的对照表 + 一棵决策树。


1. 核心对比矩阵

维度gpt-image-2Midjourney v7Flux 1.1 ProNano BananaDALL-E 3
文字渲染99% 准确经常错中等较好有限
中文字⭐⭐⭐⭐⭐❌ 几乎不可用⭐⭐⭐⭐⭐
写实质感⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
艺术风格⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
Reasoning⭐⭐⭐⭐⭐ 唯一
多轮编辑⭐⭐⭐⭐⭐有限有限有限
单张价格$0.006-0.211$10/月订阅$0.04 / 张免费 + 付费已停用
API2026-05 开放仅第三方官方官方已停用

数据按 2026-04 当下情况写。Image Arena 排名半年一变,但"文字 / Reasoning / 多轮编辑"这三栏的代差,短期内不会反转。


2. 决策树(任务驱动选模型)

任务里有大量文字(标题/中文/Logo)吗?
├─ 是 → gpt-image-2
└─ 否 → 要极致艺术氛围 / 电影感吗?
        ├─ 是 → Midjourney v7
        └─ 否 → 要极致写实人像(产品 / 真人摄影)?
                ├─ 是 → Flux 1.1 Pro
                └─ 否 → 预算敏感 / 个人玩 → Nano Banana

注:DALL-E 3 已停用,老项目还在调用的,迁到 gpt-image-2。

记不住矩阵?记一句话就够:

  • gpt-image-2 = 听话的多面手(reasoning + 文字 + 多轮)
  • Midjourney v7 = 气氛大师(电影感拉满,但中文字写不对)
  • Flux 1.1 Pro = 技术派写实(人像皮肤毛发是它的舒适区)
  • Nano Banana = 免费够用(个人玩 / 概念验证)
  • DALL-E 3 = 历史(已被 gpt-image-2 取代)

打个比方:Midjourney 像气氛 DJ,氛围拉满但你点歌它不一定听;gpt-image-2 像听话的同事,你说什么它做什么,包括把"30 天学会 ChatGPT"这九个汉字一笔不错地写在图上。


3. 真实场景对照

场景 1:小红书封面(中文标题 + 真人感)

我会选 gpt-image-2。原因不是它"质量最高",是它把"中文标题字直接渲染"这一步干掉了。MJ 时代博主每张封面都要导进 PS 加字,3 张图 30 分钟没了。gpt-image-2 一次出 8 张候选,标题就在图上、就是对的。

场景 2:活动 KV 海报(中文 Slogan + 留白放 Logo)

依然 gpt-image-2。可以显式让它"top-left 留 200×100 干净区给 Logo"——其他模型给这种指令大概率忽略。

场景 3:艺术插画 / 概念图 / 杂志大片

Midjourney v7。这是 MJ 真正没被替代的护城河。同一个 prompt,gpt-image-2 出来调性偏"商业",MJ 出来有种说不清的"灵气"——光线层次和构图直觉更接近顶级摄影师。

场景 4:真人写实摄影(电商人像 / 产品摄影 / 模特)

Flux 1.1 Pro。皮肤纹理、头发毛发、手部细节这些"恐怖谷"重灾区,Flux 处理得最干净。gpt-image-2 仍偶发"6 根手指"的老毛病。


4. 组合工作流(这才是高阶玩法)

实战中我们几乎不"二选一",是三者搭配

举个真实例子。上个月做一张"AI 训练营"活动主视觉:

  1. gpt-image-2 出底图 —— 中文标题"AI 训练营"和副标题"30 天从 0 到部署"一次到位,文字精准、Logo 留白干净
  2. Midjourney 出艺术变体 —— 同一个 brief 让 MJ 跑一版氛围更浓的备选,挑了一张作为投流封面 B 测
  3. Flux 补人像细节 —— 主视觉里有个"开发者敲键盘"的特写镜头,用 Flux 单独生成后合成进去

三个模型不是替代关系,是"工具箱里的三把不同的刀"。学完不同的刀法,做内容的效率才能拉开差距。


5. 翻车实录

翻车 1:用 Midjourney 做中文海报

设计师朋友坚持 MJ "氛围最好",活动 KV 上的"AI 工程师训练营"九个字全错——"训"少笔画、"师"成日文片假名混排。最后只能 PS 抹掉重打,单张多花 15 分钟。结论:MJ 出底图但禁止它写中文,文字层在 PS / Photopea / gpt-image-2 里另做。

翻车 2:用 gpt-image-2 做艺术插画

让 gpt-image-2 画一张"赛博朋克东京街头夜景",构图很对——但调性偏"广告片商业感",不像 MJ 那种带点电影颗粒感的氛围。结论:纯氛围 / 艺术 / 概念图回到 MJ,gpt-image-2 不强求。

翻车 3:用 Nano Banana 做商用素材

团队同事图免费用 Nano Banana 给客户做了一套电商主图,客户法务一查商用许可——卡了。结论:Nano Banana 适合个人玩 / 内部 demo / 概念验证,商用前务必读一遍当时的 license 条款,别想当然。

翻车 4:DALL-E 3 还在调

某个老项目里还有 model: "dall-e-3" 的 API 调用没改。2026 年 5 月之后这个 endpoint 会陆续下线。结论:今天就把代码里的 dall-e-3 全替换成 gpt-image-2,参数兼容(size / quality 都能映射),别等线上 500 才改。


6. 我们的实战数据

JR Academy 4 周内测了 200 张图做产能基准(封面 / 海报 / 课程 banner / 朋友圈图),三个模型分配比例:

模型占比用途
gpt-image-270%中文标题、海报、Logo、封面、信息图
Midjourney v725%艺术氛围图、概念视觉、电影感场景
Flux 1.1 Pro5%真人写实、电商主图人像特写

不是说 gpt-image-2 比 MJ "强 3 倍"——是我们的内容里中文 + 文字密集场景占了 7 成。如果你做的是壁纸号 / 艺术博主 / 摄影社,比例会反过来:MJ 占 70% 都正常。

选模型不是看排行榜,是看你自己的内容到底是什么形态。


7. 下一步

下一章 quickstart 讲怎么开始用 gpt-image-2——5 分钟从开通账号到出第一张可用图。包括 ChatGPT Plus / Codex / API 三个入口的差别、第一张图建议怎么写 prompt、以及国内访问的几条合规路径。

如果你已经有账号想直接跳:

  1. 拿本章 §3 的"真实场景对照"找你最像的场景
  2. 选定主用模型(大概率是 gpt-image-2)
  3. 翻 Ch 03 quickstart 看 5 分钟出第一张图
  4. 之后再回来用 §2 决策树判断什么时候该切到 MJ / Flux

模型不是越多越好。先把一把刀用熟,再开始组合。


📷 选型对比实测案例

下面真实出图对比来自 awesome-gpt-image(CC BY 4.0)社区收录。直观感受不同模型 / 不同代际的真实落差。

案例 1: GTA San Andreas 截图 — GPT Image 1.5 vs gpt-image-2

GPT Image 1.5gpt-image-2
1.5 版v2

Prompt:

gameplay screenshot of a lion fighting against an npc in gta san andreas

社区原作者评价:1.5 版"画风全错、UI 是假的、像低质 GTA mod",gpt-image-2 则"看起来就是它该看起来的样子"。这是同一个 prompt 在前代和当代的真实落差,直观说明为什么"DALL-E 3 老调用要赶紧迁移"。

📷 创作者:@flowersslop · 收录:awesome-gpt-image

案例 2: 90 年代点拍质感

第一张第二张第三张第四张
1234

Prompt:

90s + point-and-shoot camera quality

7 个词的极简 prompt,一次出 4 张高度统一调性的"90 年代傻瓜机"质感。这种"短 prompt + 强风格词锚"能力是 Midjourney 之外的模型很难稳定复刻的——风格词权重 + reasoning 缺一不可。

📷 创作者:@sunyunran · 收录:awesome-gpt-image

❓ 常见问题

关于本章主题最常被搜索的问题,点击展开答案

gpt-image-2 vs Midjourney 选哪个?

看任务:文字密集场景(海报 / 中文标题 / Logo)选 gpt-image-2,艺术氛围 / 电影感选 Midjourney v7。Midjourney 中文字几乎不可用,gpt-image-2 99% 准确率是最大差异化。

Flux 1.1 Pro 适合什么场景?

极致写实人像、电商产品摄影、皮肤纹理 / 头发毛发 / 手部细节这些"恐怖谷"重灾区。Flux 处理得最干净,适合商业摄影场景。

DALL-E 3 还能用吗?

已停用。OpenAI 用 gpt-image-2 取代 DALL-E 3。老项目里的 model: "dall-e-3" API 调用要迁移到 gpt-image-2,参数兼容(size / quality 都能映射)。