1. Anthropic发布Claude Opus 4.8：更诚实、编码漏错率降约4倍，同价升级

Anthropic Claude Opus 4.8

一句话: 5月28日Anthropic发布旗舰模型Claude Opus 4.8，在Opus 4.7基础上全面升级且价格不变，主打「更诚实」——更主动标注不确定、更少做无依据断言，写代码时让自身缺陷蒙混过关的概率比前代低约4倍。

Opus 4.8这次升级的核心叙事不是「更大」，而是「更可靠」。Anthropic在公告中把重点放在两件事上：一是模型在终端编码（agentic terminal coding）、知识工作（knowledge work）和金融分析（agentic financial analysis）这几类Agentic任务上的基准提升最明显；二是「诚实度」——早期测试者反馈，Opus 4.8更倾向于主动标注自己对结果的不确定，也更少抛出没有依据的断言。具体到工程场景，官方给的量化指标是：Opus 4.8让自己写的代码里的缺陷不被指出、直接蒙混过关的概率，比前代低约4倍。

这对把Claude放进生产流水线的团队是实打实的收益。一个会主动说「这段我不确定」的模型，比一个永远自信满满的模型更适合放进CI、代码评审、金融数据引用这类高风险环节——因为它把「需要人复核」的信号显式地交还给了你，而不是用流畅的措辞掩盖风险。

伴随Opus 4.8，Anthropic还上线了几个配套能力：dynamic workflows（动态工作流，帮助拆解和处理超大规模问题）、对模型「思考用力程度」的控制开关，以及更快的fast mode——官方称fast mode比默认模式快2.5倍，且比此前便宜3倍。值得注意的是，Opus 4.8与Opus 4.7同价，意味着开发者无需额外预算即可拿到这轮提升。Anthropic同时预告，「Mythos级」（Mythos-class）模型将在未来几周向所有客户推出。

来源: Anthropic · Axios · 9to5Mac · Gizmodo

2. DeepSeek V4-Pro永久降价75%，同步官宣$50B首轮融资

DeepSeek V4-Pro pricing

一句话: DeepSeek将原定5月31日到期的限时优惠价锁定为永久价，每百万token输入降至$0.435、输出$0.87，并宣布由腾讯和「大基金三期」参与的$50B估值首轮外部融资即将完成。

DeepSeek这次的降价并非一次普通的促销续期。5月25-26日，DeepSeek官宣将V4-Pro的API价格从每百万token输入$0.0145/输出$3.48永久调整至$0.003625–$0.87，降幅正好75%。这意味着原本定于5月31日结束的「限时活动」，直接变成了新的市场基准定价。对比维度来看，这个价格约为Claude Opus 4.7同等编码分数场景下的1/11。

定价策略背后的逻辑是：DeepSeek在中国本土市场拥有极低的运营成本（服务器电价、人力），加上国产GPU（华为昇腾）的持续迭代降低了对NVIDIA高价GPU的依赖。此次永久降价的信号意义大于商业意义——DeepSeek在告诉市场，低成本高效能将是其长期策略，而非阶段性促销。

与此同时，DeepSeek的$50B估值首轮融资也将近尾声。参与方包括「国家集成电路产业投资基金三期」（大基金三期）旗下AI子基金，以及腾讯控股，融资规模在$30-40亿美元之间。这是DeepSeek成立以来首次对外募资，此前一直依赖幻方量化（创始团队）自有资金运营。此次引入国家战略资本，外界解读为DeepSeek正在从「技术实验室」向「国家AI基础设施」转型。

来源: AI Weekly · The Next Web · South China Morning Post · TechFundingNews

3. 谷歌I/O 2026：Gemini 3.5 Flash发布，比Pro快4倍，月活突破9亿

Google IO 2026 Gemini 3.5 Flash

一句话: Gemini 3.5 Flash在5月19日谷歌I/O上线，在编程和Agent基准上超越Gemini 3.1 Pro，同时输出速度快4倍、API价格便宜25%；Sundar Pichai公布Gemini月活已达9亿，一年内翻倍。

Gemini 3.5 Flash的发布延续了谷歌的「Flash优于前代Pro」策略——价格更低、速度更快、能力不降反升。API定价为每百万input token $1.50、output $9.00，较Gemini 3.1 Pro便宜约25%；输出token每秒速度快4倍，对实时对话和Agent循环场景尤为关键。更重要的是，谷歌在编程任务和Agent工作流基准上让Flash超越了更大的Pro模型，这在模型家族策略上是一次主动「自我革命」。

用户规模方面，Sundar Pichai在主题演讲中透露，Gemini应用的月活用户已超9亿，覆盖230个国家和70多种语言，相比2025年5月的4亿用户翻倍增长。这一数字意味着Gemini已从「追赶者」变成「与ChatGPT并驾的玩家」，在亚非拉市场的低成本渗透尤为明显。

订阅层面也有重大调整：Google AI Ultra从$249.99/月直降至$99.99/月，新增$100/月开发者版，Google AI Plus维持$7.99/月，Pro套餐$19.99/月。此外谷歌DeepMind以$80-90M的授权协议引入Contextual AI团队20+人（含CEO Douwe Kiela），强化企业级RAG和检索增强能力，明显针对Claude和GPT-4在企业知识库场景的优势地位。

来源: MarkTechPost · felloai.com · BetaNews · heygotrade.com

4. xAI发布Grok Build编程Agent + Custom Skills，拉拢华尔街测试Grok

xAI Grok Build coding agent

一句话: xAI在5月推出Grok Build 0.1编程Agent（256K上下文，专为Agent工作流训练）和Custom Skills自定义自动化功能，同时向阿波罗全球管理、摩根士丹利等华尔街机构推销Grok商业化版本。

5月14日，xAI在Grok 4.3上线（5月4日，内置推理+百万token上下文+原生视频）后迅速跟进，发布了Grok Build 0.1——一个专门为编程Agent工作流设计、从头训练的专用模型。它支持256K上下文窗口，接收文本和图像输入，初期向$300/月SuperGrok Heavy订阅用户开放早期访问。5月26日，xAI又上线Custom Skills：用户几秒内即可创建个性化可复用任务，设定每日触发，无需写代码。

Grok Build的技术定位有别于通用模型的编程能力——它不是在GPT-5.5 Instant或Gemini 3.5 Flash的底座上加工具调用，而是专为Agent循环（plan→code→test→debug反复迭代）的推理路径单独优化。这一路线与Anthropic的Claude专注编程的方向相似，但xAI将其作为独立产品线推出，而非模型能力的附属功能。

商业化方面，xAI正积极向华尔街机构（阿波罗全球管理、摩根士丹利已受邀测试）推广Grok金融版，计划在SpaceX ipo前为公司建立可见的企业收入来源。与此同时，xAI还上线了Connectors功能，深度集成SharePoint、Outlook、OneDrive、Google Workspace、Notion、GitHub、Linear等企业工具，让Grok可以端到端调用企业内部系统——这是向Copilot和Claude for Work直接发起挑战。

来源: Engadget · Basenor · The Japan Times

5. OpenAI GPT-5.5 Instant：幻觉减少52.5%，成ChatGPT默认模型

OpenAI GPT-5.5 Instant

一句话: GPT-5.5 Instant于5月5日成为ChatGPT新默认模型，在医疗/法律/金融等高风险场景中比GPT-5.3 Instant少产生52.5%的幻觉，并新增更细粒度的个性化控制。

OpenAI对「幻觉」问题的攻克已经持续了多个模型版本。GPT-5.5 Instant将这一改进量化为52.5%——在高风险提示词（涉及医疗建议、法律判断、金融数据引用）的内部评测中，比前代GPT-5.3 Instant减少52.5%的幻觉声明。这一数字的意义不只是统计，更是OpenAI在「企业合规」叙事中建立信任的关键支撑。

除幻觉改善外，GPT-5.5 Instant还内置更精细的个性化控制，用户可调整模型回应的语气、假设前提和详细程度。Pro用户（美国）已可测试个人财务功能：绑定账户后，ChatGPT会生成资产概览仪表盘，并接受自然语言财务问询——这是OpenAI向「超级应用」方向的明确探索。

同期，OpenAI的Codex进一步升级，可以在Mac处于锁屏状态时控制计算机执行任务，这是自主Agent能力的重大进展。OpenAI还与戴尔科技合作，将Codex引入混合云和本地企业部署场景，并被Gartner评为「企业编程Agent领导者」。在竞争局势日趋激烈的2026年，GPT-5.5 Instant向市场传递的信号很清晰：OpenAI的护城河不在速度和价格，而在于准确性和可信度。

来源: OpenAI · TechCrunch · OpenAI News

JR Academy · Blog职业洞察

Claude Opus 4.8发布 / DeepSeek永久降价 / Gemini 3.5 / Grok编程Agent / GPT-5.5

Anthropic发布最强Claude Opus 4.8，主打更诚实、编码漏错率降约4倍、同价升级，并预告Mythos级模型；DeepSeek V4-Pro永久降价75%；谷歌I/O发布Gemini 3.5 Flash；xAI推出Grok Build编程Agent；OpenAI GPT-5.5 Instant幻觉减少52.5%。

发布日期2026-05-29

阅读时长1 分钟

作者

快速导航

1. Anthropic发布Claude Opus 4.8：更诚实、编码漏错率降约4倍，同价升级
2. DeepSeek V4-Pro永久降价75%，同步官宣$50B首轮融资
3. 谷歌I/O 2026：Gemini 3.5 Flash发布，比Pro快4倍，月活突破9亿
4. xAI发布Grok Build编程Agent + Custom Skills，拉拢华尔街测试Grok
5. OpenAI GPT-5.5 Instant：幻觉减少52.5%，成ChatGPT默认模型

1. Anthropic发布Claude Opus 4.8：更诚实、编码漏错率降约4倍，同价升级

Anthropic Claude Opus 4.8

来源: Anthropic · Axios · 9to5Mac · Gizmodo

2. DeepSeek V4-Pro永久降价75%，同步官宣$50B首轮融资

DeepSeek V4-Pro pricing

来源: AI Weekly · The Next Web · South China Morning Post · TechFundingNews

3. 谷歌I/O 2026：Gemini 3.5 Flash发布，比Pro快4倍，月活突破9亿

Google IO 2026 Gemini 3.5 Flash

来源: MarkTechPost · felloai.com · BetaNews · heygotrade.com

4. xAI发布Grok Build编程Agent + Custom Skills，拉拢华尔街测试Grok

xAI Grok Build coding agent

来源: Engadget · Basenor · The Japan Times

5. OpenAI GPT-5.5 Instant：幻觉减少52.5%，成ChatGPT默认模型

OpenAI GPT-5.5 Instant

来源: OpenAI · TechCrunch · OpenAI News

作者

一键分享或复制链接

1. Anthropic发布Claude Opus 4.8：更诚实、编码漏错率降约4倍，同价升级

2. DeepSeek V4-Pro永久降价75%，同步官宣$50B首轮融资

3. 谷歌I/O 2026：Gemini 3.5 Flash发布，比Pro快4倍，月活突破9亿

4. xAI发布Grok Build编程Agent + Custom Skills，拉拢华尔街测试Grok

5. OpenAI GPT-5.5 Instant：幻觉减少52.5%，成ChatGPT默认模型

Claude Opus 4.8发布 / DeepSeek永久降价 / Gemini 3.5 / Grok编程Agent / GPT-5.5

1. Anthropic发布Claude Opus 4.8：更诚实、编码漏错率降约4倍，同价升级

2. DeepSeek V4-Pro永久降价75%，同步官宣$50B首轮融资

3. 谷歌I/O 2026：Gemini 3.5 Flash发布，比Pro快4倍，月活突破9亿

4. xAI发布Grok Build编程Agent + Custom Skills，拉拢华尔街测试Grok

5. OpenAI GPT-5.5 Instant：幻觉减少52.5%，成ChatGPT默认模型

相关文章推荐

AZ-204 四天后退役 AI-200 接班 · 免费 DP-600 考券截止 8/10 · Anthropic 认证上线 Pearson VUE

GitHub Copilot 实战指南 — 常见问题、定价与选型建议

GitHub Copilot 实战指南 — 进阶玩法：Coding Agent、自定义指令与 MCP

GitHub Copilot 实战指南 — 核心功能深度解析：补全、Chat 与 Agent Mode

GitHub Copilot 实战指南 — 快速上手：注册免费版 + 第一次 AI 编程

GitHub Copilot 实战指南 — GitHub Copilot 是什么：全球最大的 AI 编程助手