logo

这周 AI 圈的节奏又被拉到满格。周四 Anthropic 把 Claude Opus 4.7 扔进生产环境,Agentic 编码基准反超 GPT-5.4 和 Gemini 3.1 Pro;Stanford 的年度 AI Index 同时出炉,一句话结论是"中国追上来了,只差 2.7%"。上游模型端更热闹:Google 的 Gemma 4 把 Apache 2.0 开源一路推到手机端,DeepSeek V4 在华为 Ascend 上已经跑起来等公开发布,Meta 的 Muse Spark 第一次让 Alexandr Wang 带队的超级智能实验室拿出能打的东西。

---

1. Anthropic 发布 Claude Opus 4.7:Agentic 编码一口气反超 GPT-5.4

Claude Opus 4.7 Anthropic agentic 编码模型发布

一句话: 周四 Anthropic 把 Opus 4.7 推上生产,代码、视觉、工具调用三项基准全部重新夺回榜首,价格跟 4.6 一样都是 $5/$25 per MTok。

Opus 4.7 最直接的变化有三个:一是新加的 xhigh effort 档位介于 high 和 max 之间,给你多一档"多烧钱换精度"的选项;二是视觉支持长边 2576 像素,比之前直接翻 3 倍多,以前要手动切图的架构图、高清截图现在一次能喂完;三是内置了自我复查机制,Anthropic 说模型会在给最终答案前自己过一遍逻辑。SWE-Bench Verified、Terminal-Bench 2.0、Tau-Bench 这几个 agentic 硬骨头,Opus 4.7 都拿回了第一,直接盖过 GPT-5.4 和 Gemini 3.1 Pro。

商业层面这次落地速度超过以往。AWS Bedrock 同一天开放所有客户自助接入,覆盖 27 个区域;Vertex AI 和 Microsoft Foundry 也同步上架。更关键的是 Anthropic 在同一份 release notes 里承认:Claude Mythos 还在小范围内测(Project Glasswing 联盟),比 Opus 4.7 强但太危险,公开版本暂时不会有。

对开发者的影响: 已经在用 Opus 4.6 的团队今天就可以切版本——价格没变、tokenizer 有更新,Anthropic 说有 breaking change,升级前看一眼 migration guide 就行。Claude Code 和 Cursor 的用户会第一批吃到 agentic 提升的红利,尤其是长跑的编码 agent。个人开发者关心的是配额:4.7 发布当天限流会涨一波,过两天缓过来再跑大任务比较稳。

> 来源: Anthropic Release Notes | VentureBeat | Axios | AWS Blog

---

2. Stanford 2026 AI Index:中美模型差距只剩 2.7%,美国 AI 人才流失 80%

Stanford 2026 AI Index 中美差距数据图表

一句话: Stanford HAI 本周发布 2026 AI Index 年报,SWE-Bench 一年从 60 飙到接近 100,生成式 AI 三年覆盖 53% 人口,中国的顶尖模型离美国只剩 2.7%。

报告里最刺眼的一组数字是人才流动。2017 到 2026 年,选择去美国工作的 AI 研究员下降了 89%,其中 80% 的降幅发生在过去这一年。对照的是私营投资:美国 2025 年私人 AI 投资 2859 亿美元,中国只有 124 亿,差了 23 倍——但中国靠政府牵引的算力 + 开源生态把差距硬是拉回到了个位数百分点。Anthropic 的 Claude Opus 4.6 目前领先,中国 Dola-Seed 2.0 紧追,Arena 分差 39 分,对应 2.7% 的能力差。

另外几个让人眼前一亮的点:AI 数据中心全球峰值功率 29.6 GW,够整个纽约州用电高峰;GPT-4o 一年的水资源消耗超过 120 万人的饮用水需求;生成式 AI 给美国消费者创造的每年价值约 1720 亿美元,人均价值一年翻了 3 倍。负面信号也有——AI 事故数据库记录的事件从 2024 年 233 起涨到 362 起,透明度指数平均分从 58 掉到 40。

对开发者的影响: 这份报告的实用价值在于它给你一个"世界地图"。如果你在挑技术栈,现在押注国产开源模型(GLM、Qwen、DeepSeek)已经不是性价比问题,而是性能第一梯队的选择;如果你在找工作,AI 基建岗位(算力调度、推理优化、数据中心)薪资曲线比应用层更陡;如果你在做产品,53% 的人口渗透率意味着用户已经默认 AI 存在,产品没有 AI 反而要解释。

> 来源: Stanford HAI | IEEE Spectrum | The Decoder | Fortune

---

3. Google Gemma 4 开源发布:Apache 2.0 + 256K 上下文,能跑在 Raspberry Pi 上

Google Gemma 4 开源大模型 Apache 2.0 边缘部署

一句话: Google DeepMind 4 月 2 日正式发布 Gemma 4 开源模型家族,E2B / E4B / 26B MoE / 31B Dense 四个版本,全系 Apache 2.0 商用许可,256K 上下文,支持 140+ 语言,并且能完全离线跑在手机、Raspberry Pi、Jetson Orin Nano 上。

Gemma 4 把"能开源就开源"的路线推到了新高度。E2B 和 E4B 这两个小版本推理时只激活 20 亿和 40 亿参数,其它权重在需要时再加载,目的就是在移动端和边缘设备上省内存省电。31B Dense 在一些硬基准上据说已经能打 Llama 4 的 400B 版本——官方没有直接说,但 HuggingFace 上已经有几家第三方的对比数据支持这个结论。原生多模态,吃文本、图像、音频,输出文本。

商业意义比性能本身更重要。Apache 2.0 意味着你可以把模型权重塞进商业产品里不用交授权费,改都没问题。上一代 Gemma 全球下载超 4 亿次,Gemmaverse 里衍生了 10 万多个变体;这一代的下载曲线大概率会更陡。Google Cloud 同步上架了 Gemma 4 的 Vertex AI 托管推理,想一键切换、自己不想管算力的可以直接走 Google Cloud。

对开发者的影响: 如果你在做端侧 AI(手机 App、IoT、本地 Copilot),Gemma 4 E2B/E4B 值得马上测一轮。比 Llama 的在端侧表现更稳、许可证更干净。如果你做 SaaS 但算力预算紧,31B Dense 是目前性价比最高的自部署选项之一,一张 80GB A100 / H100 能舒服跑起来。Raspberry Pi + Gemma 4 E2B 做家庭 AI 助手的 demo 估计会在 GitHub trending 霸榜好几周。

> 来源: Google Blog | Google DeepMind | HuggingFace | Analytics Vidhya

---

4. DeepSeek V4 在华为芯片上跑起来了:1T 参数 MoE,1M 上下文

DeepSeek V4 华为昇腾芯片 MoE 大模型训练

一句话: Reuters 引 The Information 消息,DeepSeek V4 将在 4 月底前发布,1T 总参数但每次只激活约 37B,1M token 原生上下文,训练和推理都跑在华为 Ascend 上,故意没给 Nvidia 早期访问权。

这条新闻硬核的地方不是参数而是芯片。DeepSeek 团队和华为、寒武纪一起重写了模型 stack 的底层,让 V4 既能在华为 Ascend 910C 上训练,也能在同一套硬件上推理。MoE 架构只激活 3.7% 的参数,实际计算量跟 37B 密集模型差不多,这样国产硬件的算力瓶颈被绕过去。泄漏的基准跑出 90% HumanEval 和 80%+ SWE-bench Verified,大致跟 Claude Opus 4.6 一个水平。

战略层面这件事比模型本身更值得关注。美国对 Nvidia H100/H200 的出口管制假设就是"没高端 GPU 你中国就做不了前沿模型";DeepSeek V4 如果跑通了,这个假设被直接掀翻。加上 V4 是开源权重(V3 也是),相当于把"国产芯片 + 开源模型"的组合推到所有国家面前——对要不要买美国 GPU 犹豫中的中东、东南亚国家,这是一个真实的替代方案。

对开发者的影响: 短期内你能用上的是 API 和权重。V3 已经在 OpenRouter 上能跑,V4 大概率一周内跟进,且价格会比 Claude / GPT 便宜一大截。中期如果你在做 coding agent、长文档 RAG,可以把 DeepSeek V4 纳入 evaluation;1M 原生上下文 + 代码能力接近 SOTA,是一个不错的成本 baseline。长期要考虑的是供应链——云厂商如果转向 Ascend 推理卡,部署生态会跟 CUDA 体系分叉。

> 来源: TechNode | FindSkill | NxCode | Gizchina

---

5. Meta Muse Spark 首秀:Alexandr Wang 带队后第一张牌

Meta Muse Spark AI 模型 Superintelligence Labs

一句话: 4 月 8 日 Meta 发布 Muse Spark,这是 Alexandr Wang 去年加入后 Meta Superintelligence Labs 的首个旗舰模型,小体量 + 多模态推理 + 多 agent 并行思考,目前已上线 Meta AI、未来几周进 WhatsApp / Instagram / Facebook / 雷朋智能眼镜。

Muse Spark 的定位很有意思——Meta 没有往大参数方向堆,而是做了一个"小而快但能深度推理"的模型。输入吃语音、文本、图片,输出文本。最亮眼的是 Contemplating 模式:它会派多个 agent 并行推理同一个问题,再汇总答案。按 Meta 官方公布的数字,Humanity's Last Exam 拿 58%,FrontierScience Research 拿 38%,已经能跟 Gemini Deep Think、GPT Pro 的极限推理模式掰手腕。

战略意义在于 Meta 想重新拿回声誉。之前 Llama 4 在 Maverick 和 Behemoth 上踩了几个坑,Zuckerberg 花 143 亿美金把 Scale AI 的 Alexandr Wang 挖过来主导 MSL(Meta Superintelligence Labs),结果就是 Muse Spark。这次 Muse Spark 是闭源的 API 访问——Meta 之前一直在"开源旗手"和"商业闭源"之间摇摆,这次明确选了后者,未来版本"希望开源"说明短期内不开。

对开发者的影响: Muse Spark 目前只在 Meta 产品和合作伙伴 API 里能用,不是 developer-first 的模型。真正值得关注的是 Meta 2026 AI capex 砸到了 1150–1350 亿美元,这笔钱会落到 Llama 后续版本、自研芯片、数据中心。如果你在做多 agent 系统,Contemplating 模式的架构(并行 agent + 聚合)是一个值得抄的设计——不用等 Meta,Claude + OpenAI + LangGraph 已经能拼出类似效果。

> 来源: TechCrunch | Meta AI Blog | CNBC | Simon Willison

---

今日速览

  • Claude Mythos 仍锁在 Project Glasswing 联盟内测,Anthropic 4 月 14 日宣布 Sonnet 4 / Opus 4 老版本 6 月 15 日退役,推荐迁移到 Sonnet 4.6 和 Opus 4.7
  • Advisor Tool 4 月 9 日公测,把慢而聪明的 advisor 模型和快而便宜的 executor 模型配对,agentic 长任务能在接近 advisor 质量的前提下少烧 token
  • OpenAI 最新融资轮从 1100 亿涨到 1220 亿美元,估值 8520 亿,年化营收突破 250 亿,内部已经在讨论 2026 年底 IPO 的节奏
  • Microsoft Foundry 上 Anthropic 的 Claude 全家桶能用 Azure 账单付款,覆盖 /anthropic/v1/messages 统一端点
  • Cerebras 递交 IPO 申请,目标 350 亿美金估值、融资 30 亿美金,继 Anthropic 之后又一个冲 IPO 的硬件玩家
JR Academy · Blog职业洞察

AI 日报 2026-04-18:Claude Opus 4.7 编码登顶,Stanford AI Index 揭中美差距 2.7%

今日 AI 五大热点:Anthropic 发布 Claude Opus 4.7 编码反超 GPT-5.4、Stanford AI Index 2026 显示中美差距只剩 2.7%、Google Gemma 4 开源登陆 Apache 2.0、DeepSeek V4 跑在华为芯片上即将发布、Meta Muse Spark 首秀超级智能实验室第一枪

发布日期
阅读时长3 分钟
作者

这周 AI 圈的节奏又被拉到满格。周四 Anthropic 把 Claude Opus 4.7 扔进生产环境,Agentic 编码基准反超 GPT-5.4 和 Gemini 3.1 Pro;Stanford 的年度 AI Index 同时出炉,一句话结论是"中国追上来了,只差 2.7%"。上游模型端更热闹:Google 的 Gemma 4 把 Apache 2.0 开源一路推到手机端,DeepSeek V4 在华为 Ascend 上已经跑起来等公开发布,Meta 的 Muse Spark 第一次让 Alexandr Wang 带队的超级智能实验室拿出能打的东西。

---

1. Anthropic 发布 Claude Opus 4.7:Agentic 编码一口气反超 GPT-5.4

Claude Opus 4.7 Anthropic agentic 编码模型发布

一句话: 周四 Anthropic 把 Opus 4.7 推上生产,代码、视觉、工具调用三项基准全部重新夺回榜首,价格跟 4.6 一样都是 $5/$25 per MTok。

Opus 4.7 最直接的变化有三个:一是新加的 xhigh effort 档位介于 high 和 max 之间,给你多一档"多烧钱换精度"的选项;二是视觉支持长边 2576 像素,比之前直接翻 3 倍多,以前要手动切图的架构图、高清截图现在一次能喂完;三是内置了自我复查机制,Anthropic 说模型会在给最终答案前自己过一遍逻辑。SWE-Bench Verified、Terminal-Bench 2.0、Tau-Bench 这几个 agentic 硬骨头,Opus 4.7 都拿回了第一,直接盖过 GPT-5.4 和 Gemini 3.1 Pro。

商业层面这次落地速度超过以往。AWS Bedrock 同一天开放所有客户自助接入,覆盖 27 个区域;Vertex AI 和 Microsoft Foundry 也同步上架。更关键的是 Anthropic 在同一份 release notes 里承认:Claude Mythos 还在小范围内测(Project Glasswing 联盟),比 Opus 4.7 强但太危险,公开版本暂时不会有。

对开发者的影响: 已经在用 Opus 4.6 的团队今天就可以切版本——价格没变、tokenizer 有更新,Anthropic 说有 breaking change,升级前看一眼 migration guide 就行。Claude Code 和 Cursor 的用户会第一批吃到 agentic 提升的红利,尤其是长跑的编码 agent。个人开发者关心的是配额:4.7 发布当天限流会涨一波,过两天缓过来再跑大任务比较稳。

> 来源: Anthropic Release Notes | VentureBeat | Axios | AWS Blog

---

2. Stanford 2026 AI Index:中美模型差距只剩 2.7%,美国 AI 人才流失 80%

Stanford 2026 AI Index 中美差距数据图表

一句话: Stanford HAI 本周发布 2026 AI Index 年报,SWE-Bench 一年从 60 飙到接近 100,生成式 AI 三年覆盖 53% 人口,中国的顶尖模型离美国只剩 2.7%。

报告里最刺眼的一组数字是人才流动。2017 到 2026 年,选择去美国工作的 AI 研究员下降了 89%,其中 80% 的降幅发生在过去这一年。对照的是私营投资:美国 2025 年私人 AI 投资 2859 亿美元,中国只有 124 亿,差了 23 倍——但中国靠政府牵引的算力 + 开源生态把差距硬是拉回到了个位数百分点。Anthropic 的 Claude Opus 4.6 目前领先,中国 Dola-Seed 2.0 紧追,Arena 分差 39 分,对应 2.7% 的能力差。

另外几个让人眼前一亮的点:AI 数据中心全球峰值功率 29.6 GW,够整个纽约州用电高峰;GPT-4o 一年的水资源消耗超过 120 万人的饮用水需求;生成式 AI 给美国消费者创造的每年价值约 1720 亿美元,人均价值一年翻了 3 倍。负面信号也有——AI 事故数据库记录的事件从 2024 年 233 起涨到 362 起,透明度指数平均分从 58 掉到 40。

对开发者的影响: 这份报告的实用价值在于它给你一个"世界地图"。如果你在挑技术栈,现在押注国产开源模型(GLM、Qwen、DeepSeek)已经不是性价比问题,而是性能第一梯队的选择;如果你在找工作,AI 基建岗位(算力调度、推理优化、数据中心)薪资曲线比应用层更陡;如果你在做产品,53% 的人口渗透率意味着用户已经默认 AI 存在,产品没有 AI 反而要解释。

> 来源: Stanford HAI | IEEE Spectrum | The Decoder | Fortune

---

3. Google Gemma 4 开源发布:Apache 2.0 + 256K 上下文,能跑在 Raspberry Pi 上

Google Gemma 4 开源大模型 Apache 2.0 边缘部署

一句话: Google DeepMind 4 月 2 日正式发布 Gemma 4 开源模型家族,E2B / E4B / 26B MoE / 31B Dense 四个版本,全系 Apache 2.0 商用许可,256K 上下文,支持 140+ 语言,并且能完全离线跑在手机、Raspberry Pi、Jetson Orin Nano 上。

Gemma 4 把"能开源就开源"的路线推到了新高度。E2B 和 E4B 这两个小版本推理时只激活 20 亿和 40 亿参数,其它权重在需要时再加载,目的就是在移动端和边缘设备上省内存省电。31B Dense 在一些硬基准上据说已经能打 Llama 4 的 400B 版本——官方没有直接说,但 HuggingFace 上已经有几家第三方的对比数据支持这个结论。原生多模态,吃文本、图像、音频,输出文本。

商业意义比性能本身更重要。Apache 2.0 意味着你可以把模型权重塞进商业产品里不用交授权费,改都没问题。上一代 Gemma 全球下载超 4 亿次,Gemmaverse 里衍生了 10 万多个变体;这一代的下载曲线大概率会更陡。Google Cloud 同步上架了 Gemma 4 的 Vertex AI 托管推理,想一键切换、自己不想管算力的可以直接走 Google Cloud。

对开发者的影响: 如果你在做端侧 AI(手机 App、IoT、本地 Copilot),Gemma 4 E2B/E4B 值得马上测一轮。比 Llama 的在端侧表现更稳、许可证更干净。如果你做 SaaS 但算力预算紧,31B Dense 是目前性价比最高的自部署选项之一,一张 80GB A100 / H100 能舒服跑起来。Raspberry Pi + Gemma 4 E2B 做家庭 AI 助手的 demo 估计会在 GitHub trending 霸榜好几周。

> 来源: Google Blog | Google DeepMind | HuggingFace | Analytics Vidhya

---

4. DeepSeek V4 在华为芯片上跑起来了:1T 参数 MoE,1M 上下文

DeepSeek V4 华为昇腾芯片 MoE 大模型训练

一句话: Reuters 引 The Information 消息,DeepSeek V4 将在 4 月底前发布,1T 总参数但每次只激活约 37B,1M token 原生上下文,训练和推理都跑在华为 Ascend 上,故意没给 Nvidia 早期访问权。

这条新闻硬核的地方不是参数而是芯片。DeepSeek 团队和华为、寒武纪一起重写了模型 stack 的底层,让 V4 既能在华为 Ascend 910C 上训练,也能在同一套硬件上推理。MoE 架构只激活 3.7% 的参数,实际计算量跟 37B 密集模型差不多,这样国产硬件的算力瓶颈被绕过去。泄漏的基准跑出 90% HumanEval 和 80%+ SWE-bench Verified,大致跟 Claude Opus 4.6 一个水平。

战略层面这件事比模型本身更值得关注。美国对 Nvidia H100/H200 的出口管制假设就是"没高端 GPU 你中国就做不了前沿模型";DeepSeek V4 如果跑通了,这个假设被直接掀翻。加上 V4 是开源权重(V3 也是),相当于把"国产芯片 + 开源模型"的组合推到所有国家面前——对要不要买美国 GPU 犹豫中的中东、东南亚国家,这是一个真实的替代方案。

对开发者的影响: 短期内你能用上的是 API 和权重。V3 已经在 OpenRouter 上能跑,V4 大概率一周内跟进,且价格会比 Claude / GPT 便宜一大截。中期如果你在做 coding agent、长文档 RAG,可以把 DeepSeek V4 纳入 evaluation;1M 原生上下文 + 代码能力接近 SOTA,是一个不错的成本 baseline。长期要考虑的是供应链——云厂商如果转向 Ascend 推理卡,部署生态会跟 CUDA 体系分叉。

> 来源: TechNode | FindSkill | NxCode | Gizchina

---

5. Meta Muse Spark 首秀:Alexandr Wang 带队后第一张牌

Meta Muse Spark AI 模型 Superintelligence Labs

一句话: 4 月 8 日 Meta 发布 Muse Spark,这是 Alexandr Wang 去年加入后 Meta Superintelligence Labs 的首个旗舰模型,小体量 + 多模态推理 + 多 agent 并行思考,目前已上线 Meta AI、未来几周进 WhatsApp / Instagram / Facebook / 雷朋智能眼镜。

Muse Spark 的定位很有意思——Meta 没有往大参数方向堆,而是做了一个"小而快但能深度推理"的模型。输入吃语音、文本、图片,输出文本。最亮眼的是 Contemplating 模式:它会派多个 agent 并行推理同一个问题,再汇总答案。按 Meta 官方公布的数字,Humanity's Last Exam 拿 58%,FrontierScience Research 拿 38%,已经能跟 Gemini Deep Think、GPT Pro 的极限推理模式掰手腕。

战略意义在于 Meta 想重新拿回声誉。之前 Llama 4 在 Maverick 和 Behemoth 上踩了几个坑,Zuckerberg 花 143 亿美金把 Scale AI 的 Alexandr Wang 挖过来主导 MSL(Meta Superintelligence Labs),结果就是 Muse Spark。这次 Muse Spark 是闭源的 API 访问——Meta 之前一直在"开源旗手"和"商业闭源"之间摇摆,这次明确选了后者,未来版本"希望开源"说明短期内不开。

对开发者的影响: Muse Spark 目前只在 Meta 产品和合作伙伴 API 里能用,不是 developer-first 的模型。真正值得关注的是 Meta 2026 AI capex 砸到了 1150–1350 亿美元,这笔钱会落到 Llama 后续版本、自研芯片、数据中心。如果你在做多 agent 系统,Contemplating 模式的架构(并行 agent + 聚合)是一个值得抄的设计——不用等 Meta,Claude + OpenAI + LangGraph 已经能拼出类似效果。

> 来源: TechCrunch | Meta AI Blog | CNBC | Simon Willison

---

今日速览

  • Claude Mythos 仍锁在 Project Glasswing 联盟内测,Anthropic 4 月 14 日宣布 Sonnet 4 / Opus 4 老版本 6 月 15 日退役,推荐迁移到 Sonnet 4.6 和 Opus 4.7
  • Advisor Tool 4 月 9 日公测,把慢而聪明的 advisor 模型和快而便宜的 executor 模型配对,agentic 长任务能在接近 advisor 质量的前提下少烧 token
  • OpenAI 最新融资轮从 1100 亿涨到 1220 亿美元,估值 8520 亿,年化营收突破 250 亿,内部已经在讨论 2026 年底 IPO 的节奏
  • Microsoft Foundry 上 Anthropic 的 Claude 全家桶能用 Azure 账单付款,覆盖 /anthropic/v1/messages 统一端点
  • Cerebras 递交 IPO 申请,目标 350 亿美金估值、融资 30 亿美金,继 Anthropic 之后又一个冲 IPO 的硬件玩家
作者
一键分享或复制链接

相关文章推荐

查看全部文章 →