2026年4月7日，Z.ai把754亿参数的 GLM-5.1 扔上了 GitHub，MIT 许可证，SWE-Bench Pro 跑出58.4%。17天之后的4月24日，DeepSeek V4 Pro带着1.6万亿参数落地。中间还挤进来 MiniMax M2.7 和 Moonshot 的 Kimi K2.6。四家公司，四个大模型，全部开源，全部瞄准软件工程任务，全部定价在 Claude Opus 4.7 的零头以内。

这不是巧合。

舞台：一个赌注超过三万亿美元的赛道

先说清楚 SWE-Bench 测的是什么。它把真实的 GitHub issue——程序员在线改 bug 的任务——抽出来让 AI 跑，看能解决多少。SWE-Bench Verified 的高分意味着 AI 能接近 GitHub 上最强人类贡献者的水平；SWE-Bench Pro 更难，专门刁难代码库理解和多步推理。

换句话说，它测的不是 AI 能不能背诗——它测的是 AI 能不能让你少雇一个工程师。

全球软件工程师薪资市场体量超过3万亿美元。把编程模型的推理成本从每百万 token $5 打到 $0.14，就是在说：雇一个 AI 完成代码审查的成本，从"买一台 MacBook Pro"变成"买一个无线鼠标"。

这就是为什么这17天值得认真分析。

四发：模型、数字、架构

GLM-5.1（Z.ai，4月7日）

Z.ai 前身是清华大学 KEG 实验室孵化的智谱 AI。GLM-5.1 是它的旗舰开源模型：754亿参数，Mixture-of-Experts 架构，200K 上下文。SWE-Bench Pro 58.4%，Terminal-Bench 2.0 63.5%，AIME 2026 数学题集 95.3%。

关键是 MIT 许可证。企业可以下载全量权重本地部署，不受商业限制，也不向任何第三方 API 泄露源代码。这一点对处理敏感代码库的金融和医疗客户有决定性意义。

MiniMax M2.7（MiniMax，4月中旬）

最激进的架构设计。230亿总参数，但每次推理只激活约100亿参数。SWE-Bench Pro 56.22%，Terminal Bench 2.0 57.0%。定价 $0.30/百万输入 token。MiniMax 还宣称 M2.7 具备"自我进化"能力，模型上线后持续从交互中更新自身——这个功能目前没有被独立机构验证过。

Kimi K2.6（Moonshot AI，4月20日）

这轮里成绩最高的一个。1万亿总参数，每个 token 激活320亿参数，256K 上下文，MIT 许可证。SWE-Bench Pro 58.6%，SWE-Bench Verified 80.2%，在所有公开评测中是目前开源模型的最高分。对比数字：GPT-5.4 在 SWE-Bench Pro 上是57.7%，Claude Opus 4.6 是53.4%，Gemini 3.1 Pro 是54.2%。

Kimi K2.6 以低于 Claude Opus 4.7 十二分之一的价格，在编程基准上跑赢了 GPT-5.4。

DeepSeek V4（DeepSeek，4月24日）

两个版本：V4-Pro（1.6万亿总参数，490亿激活，支持100万 token 上下文）和 V4-Flash（2840亿总参数，130亿激活）。DeepSeek 为 V4 引入了 Compressed Sparse Attention 架构：在满上下文推理时，FLOP 消耗只有上一代 V3.2 的27%，KV 缓存内存只需10%。这是被迫出的招——出口管制卡住了 A100/H100，逼得 DeepSeek 只能在算法层面省计算量。

上线定价：V4-Flash 每百万输入 token $0.14，深度缓存命中价格低至 $0.004。

价格差：这不是优化，是降维

数字摆出来看一眼。

Claude Opus 4.7：$5/百万输入，$25/百万输出。Anthropic 今年还换了一个新 tokenizer，相同文本产出的 token 数量增加最多35%——也就是说实际账单可能比标价再高三分之一。

对照组：

Kimi K2.6：$0.60/百万输入——是 Opus 4.7 的12%
MiniMax M2.7：$0.30/百万输入——是 Opus 4.7 的6%
DeepSeek V4-Flash：$0.14/百万输入——是 Opus 4.7 的2.8%

这不是某一家企业靠效率优化出来的价差。这是系统性的、跨越四家独立公司的、在同一时间段内集体呈现的价差。背后必然有结构性原因。

为什么这种价格能成立？

说白了，中国 AI 实验室的成本函数和西方公司不一样。

Anthropic 的 $5/百万 token 里包含什么？年薪$300K 到 $700K 的美国 AI 安全研究员，旧金山的写字楼，监管合规，Constitutional AI 和 RLHF 的长期研究投入——这些都是直接烧钱、没有短期商业回报的方向。Anthropic 需要靠 API 收入支撑整条研究线。

DeepSeek 和 Kimi 的成本函数呢？人力成本更低，被出口管制倒逼出了更省计算量的架构，不需要在旧金山租地，背后有国家级资本注入且不要求短期盈利。

翻译成人话：Anthropic 在用 API 收入交叉补贴安全研究，DeepSeek 在用国家资本支撑价格战。这是两套不同的激励结构在同一个市场里碰撞。

成本函数更低的那一方，可以无限期维持低价——直到对手活不下去，或者游戏规则发生改变。

但这里有明确的 trade-off。

中国四个模型的"便宜"是有代价的。开源只开了权重，训练数据、微调配方、对齐流程全部是黑盒。你可以下载 Kimi K2.6 的权重本地跑，但你不知道它的安全评测是否可信，也无法独立复现它的能力。GLM-5.1 的200K 上下文在百万行代码库面前还是不够用。DeepSeek V4 的100万 token 上下文在理论上够用，但激进的 KV 缓存压缩对超长距离依赖的影响目前还没有被系统评测过。

对于处理敏感代码的企业客户，"MIT 许可证"不等于"可以信任"。

西方的应对

Anthropic 没有正面回应这轮价格竞争，但行动已经说明立场：今年推出的批量处理 API，叠加缓存最高可把 Opus 4.7 的有效成本压缩到约5%，也就是进入 $0.25/百万 token 的区间。差距从12倍收窄到了近乎持平——但前提是你的使用场景高度适合批量处理和缓存命中。

OpenAI 的策略是速度而非价格。5月5日发布的 GPT-5.5 Instant 主打降低幻觉率（比前代降低52.5%）和推理速度，没有跟进价格战。

这个判断背后的逻辑是：他们认为企业最终会为"可审计的供应链"溢价付费。美国政府已经开始推动 AI 供应链审查，主要针对数据主权和模型可追溯能力。如果监管层面强制要求使用可审计的 AI 服务，中国模型的价格优势就会被合规成本部分抵消。

这个赌注不是没有根据，但在相应监管法规落地之前，它只是一个假设。

基础设施战的终局逻辑

四家中国 AI 实验室17天的集体行动，表面上是性能竞赛，本质上是在争夺全球开发者的 API 账单流向。更深一层看，这是一场对"谁来定义 AI 编程基础设施标准"的争夺。

这是一个经典的基础设施竞争剧本：先打价格换流量，再用流量换技术锁定，最后用锁定换定价权。MIT 许可证让模型迁移的门槛趋近于零，但工程依赖和使用习惯让实际迁移成本指数级上升。当全球一半的编程 agent 工作流嵌入了 DeepSeek 或 Kimi 的 API，再谈"切换"就不只是改一行 API key 的问题了。

西方闭源模型需要在"信任溢价"被价格压垮之前找到新的护城河。否则有一天会发现：自己的客户不是被竞争对手抢走的，而是在算成本的时候，慢慢地、安静地、自己换掉了供应商。

钱不说谎。

数据来源

JR Academy · Blog职业洞察

17天四发：中国AI实验室用开源编程模型打响定价战

2026年4月，Z.ai、MiniMax、Moonshot、DeepSeek在17天内接连发布四个开源编程大模型，全部触及西方顶级闭源模型的基准天花板，但推理成本只有Claude Opus 4.7的几十分之一。这不是技术比赛，是一场有国家资本兜底的成本结构战。

发布日期2026-05-19

阅读时长2 分钟

作者

快速导航

舞台：一个赌注超过三万亿美元的赛道
四发：模型、数字、架构
价格差：这不是优化，是降维
为什么这种价格能成立？
西方的应对
基础设施战的终局逻辑
数据来源

这不是巧合。

舞台：一个赌注超过三万亿美元的赛道

换句话说，它测的不是 AI 能不能背诗——它测的是 AI 能不能让你少雇一个工程师。

这就是为什么这17天值得认真分析。

四发：模型、数字、架构

GLM-5.1（Z.ai，4月7日）

MiniMax M2.7（MiniMax，4月中旬）

Kimi K2.6（Moonshot AI，4月20日）

Kimi K2.6 以低于 Claude Opus 4.7 十二分之一的价格，在编程基准上跑赢了 GPT-5.4。

DeepSeek V4（DeepSeek，4月24日）

上线定价：V4-Flash 每百万输入 token $0.14，深度缓存命中价格低至 $0.004。

价格差：这不是优化，是降维

数字摆出来看一眼。

对照组：

Kimi K2.6：$0.60/百万输入——是 Opus 4.7 的12%
MiniMax M2.7：$0.30/百万输入——是 Opus 4.7 的6%
DeepSeek V4-Flash：$0.14/百万输入——是 Opus 4.7 的2.8%

这不是某一家企业靠效率优化出来的价差。这是系统性的、跨越四家独立公司的、在同一时间段内集体呈现的价差。背后必然有结构性原因。

为什么这种价格能成立？

说白了，中国 AI 实验室的成本函数和西方公司不一样。

翻译成人话：Anthropic 在用 API 收入交叉补贴安全研究，DeepSeek 在用国家资本支撑价格战。这是两套不同的激励结构在同一个市场里碰撞。

成本函数更低的那一方，可以无限期维持低价——直到对手活不下去，或者游戏规则发生改变。

但这里有明确的 trade-off。

对于处理敏感代码的企业客户，"MIT 许可证"不等于"可以信任"。

西方的应对

OpenAI 的策略是速度而非价格。5月5日发布的 GPT-5.5 Instant 主打降低幻觉率（比前代降低52.5%）和推理速度，没有跟进价格战。

这个赌注不是没有根据，但在相应监管法规落地之前，它只是一个假设。

基础设施战的终局逻辑

钱不说谎。

数据来源

作者

一键分享或复制链接

舞台：一个赌注超过三万亿美元的赛道

四发：模型、数字、架构

价格差：这不是优化，是降维

为什么这种价格能成立？

西方的应对

基础设施战的终局逻辑

数据来源

17天四发：中国AI实验室用开源编程模型打响定价战

舞台：一个赌注超过三万亿美元的赛道

四发：模型、数字、架构

价格差：这不是优化，是降维

为什么这种价格能成立？

西方的应对

基础设施战的终局逻辑

数据来源

相关文章推荐

GitHub Copilot 实战指南 — 常见问题、定价与选型建议

GitHub Copilot 实战指南 — 进阶玩法：Coding Agent、自定义指令与 MCP

GitHub Copilot 实战指南 — 核心功能深度解析：补全、Chat 与 Agent Mode

GitHub Copilot 实战指南 — 快速上手：注册免费版 + 第一次 AI 编程

GitHub Copilot 实战指南 — GitHub Copilot 是什么：全球最大的 AI 编程助手

Continue 实战手册：开源 AI 编程助手完全指南 — Continue 常见问题 FAQ：避坑指南与选型建议