1. Anthropic发布Claude Opus 4.8:更诚实、编码漏错率降约4倍,同价升级
一句话: 5月28日Anthropic发布旗舰模型Claude Opus 4.8,在Opus 4.7基础上全面升级且价格不变,主打「更诚实」——更主动标注不确定、更少做无依据断言,写代码时让自身缺陷蒙混过关的概率比前代低约4倍。
Opus 4.8这次升级的核心叙事不是「更大」,而是「更可靠」。Anthropic在公告中把重点放在两件事上:一是模型在终端编码(agentic terminal coding)、知识工作(knowledge work)和金融分析(agentic financial analysis)这几类Agentic任务上的基准提升最明显;二是「诚实度」——早期测试者反馈,Opus 4.8更倾向于主动标注自己对结果的不确定,也更少抛出没有依据的断言。具体到工程场景,官方给的量化指标是:Opus 4.8让自己写的代码里的缺陷不被指出、直接蒙混过关的概率,比前代低约4倍。
这对把Claude放进生产流水线的团队是实打实的收益。一个会主动说「这段我不确定」的模型,比一个永远自信满满的模型更适合放进CI、代码评审、金融数据引用这类高风险环节——因为它把「需要人复核」的信号显式地交还给了你,而不是用流畅的措辞掩盖风险。
伴随Opus 4.8,Anthropic还上线了几个配套能力:dynamic workflows(动态工作流,帮助拆解和处理超大规模问题)、对模型「思考用力程度」的控制开关,以及更快的fast mode——官方称fast mode比默认模式快2.5倍,且比此前便宜3倍。值得注意的是,Opus 4.8与Opus 4.7同价,意味着开发者无需额外预算即可拿到这轮提升。Anthropic同时预告,「Mythos级」(Mythos-class)模型将在未来几周向所有客户推出。
2. DeepSeek V4-Pro永久降价75%,同步官宣$50B首轮融资
一句话: DeepSeek将原定5月31日到期的限时优惠价锁定为永久价,每百万token输入降至$0.435、输出$0.87,并宣布由腾讯和「大基金三期」参与的$50B估值首轮外部融资即将完成。
DeepSeek这次的降价并非一次普通的促销续期。5月25-26日,DeepSeek官宣将V4-Pro的API价格从每百万token输入$0.0145/输出$3.48永久调整至$0.003625–$0.87,降幅正好75%。这意味着原本定于5月31日结束的「限时活动」,直接变成了新的市场基准定价。对比维度来看,这个价格约为Claude Opus 4.7同等编码分数场景下的1/11。
定价策略背后的逻辑是:DeepSeek在中国本土市场拥有极低的运营成本(服务器电价、人力),加上国产GPU(华为昇腾)的持续迭代降低了对NVIDIA高价GPU的依赖。此次永久降价的信号意义大于商业意义——DeepSeek在告诉市场,低成本高效能将是其长期策略,而非阶段性促销。
与此同时,DeepSeek的$50B估值首轮融资也将近尾声。参与方包括「国家集成电路产业投资基金三期」(大基金三期)旗下AI子基金,以及腾讯控股,融资规模在$30-40亿美元之间。这是DeepSeek成立以来首次对外募资,此前一直依赖幻方量化(创始团队)自有资金运营。此次引入国家战略资本,外界解读为DeepSeek正在从「技术实验室」向「国家AI基础设施」转型。
来源: AI Weekly · The Next Web · South China Morning Post · TechFundingNews
3. 谷歌I/O 2026:Gemini 3.5 Flash发布,比Pro快4倍,月活突破9亿
一句话: Gemini 3.5 Flash在5月19日谷歌I/O上线,在编程和Agent基准上超越Gemini 3.1 Pro,同时输出速度快4倍、API价格便宜25%;Sundar Pichai公布Gemini月活已达9亿,一年内翻倍。
Gemini 3.5 Flash的发布延续了谷歌的「Flash优于前代Pro」策略——价格更低、速度更快、能力不降反升。API定价为每百万input token $1.50、output $9.00,较Gemini 3.1 Pro便宜约25%;输出token每秒速度快4倍,对实时对话和Agent循环场景尤为关键。更重要的是,谷歌在编程任务和Agent工作流基准上让Flash超越了更大的Pro模型,这在模型家族策略上是一次主动「自我革命」。
用户规模方面,Sundar Pichai在主题演讲中透露,Gemini应用的月活用户已超9亿,覆盖230个国家和70多种语言,相比2025年5月的4亿用户翻倍增长。这一数字意味着Gemini已从「追赶者」变成「与ChatGPT并驾的玩家」,在亚非拉市场的低成本渗透尤为明显。
订阅层面也有重大调整:Google AI Ultra从$249.99/月直降至$99.99/月,新增$100/月开发者版,Google AI Plus维持$7.99/月,Pro套餐$19.99/月。此外谷歌DeepMind以$80-90M的授权协议引入Contextual AI团队20+人(含CEO Douwe Kiela),强化企业级RAG和检索增强能力,明显针对Claude和GPT-4在企业知识库场景的优势地位。
来源: MarkTechPost · felloai.com · BetaNews · heygotrade.com
4. xAI发布Grok Build编程Agent + Custom Skills,拉拢华尔街测试Grok
一句话: xAI在5月推出Grok Build 0.1编程Agent(256K上下文,专为Agent工作流训练)和Custom Skills自定义自动化功能,同时向阿波罗全球管理、摩根士丹利等华尔街机构推销Grok商业化版本。
5月14日,xAI在Grok 4.3上线(5月4日,内置推理+百万token上下文+原生视频)后迅速跟进,发布了Grok Build 0.1——一个专门为编程Agent工作流设计、从头训练的专用模型。它支持256K上下文窗口,接收文本和图像输入,初期向$300/月SuperGrok Heavy订阅用户开放早期访问。5月26日,xAI又上线Custom Skills:用户几秒内即可创建个性化可复用任务,设定每日触发,无需写代码。
Grok Build的技术定位有别于通用模型的编程能力——它不是在GPT-5.5 Instant或Gemini 3.5 Flash的底座上加工具调用,而是专为Agent循环(plan→code→test→debug反复迭代)的推理路径单独优化。这一路线与Anthropic的Claude专注编程的方向相似,但xAI将其作为独立产品线推出,而非模型能力的附属功能。
商业化方面,xAI正积极向华尔街机构(阿波罗全球管理、摩根士丹利已受邀测试)推广Grok金融版,计划在SpaceX ipo前为公司建立可见的企业收入来源。与此同时,xAI还上线了Connectors功能,深度集成SharePoint、Outlook、OneDrive、Google Workspace、Notion、GitHub、Linear等企业工具,让Grok可以端到端调用企业内部系统——这是向Copilot和Claude for Work直接发起挑战。
来源: Engadget · Basenor · The Japan Times
5. OpenAI GPT-5.5 Instant:幻觉减少52.5%,成ChatGPT默认模型
一句话: GPT-5.5 Instant于5月5日成为ChatGPT新默认模型,在医疗/法律/金融等高风险场景中比GPT-5.3 Instant少产生52.5%的幻觉,并新增更细粒度的个性化控制。
OpenAI对「幻觉」问题的攻克已经持续了多个模型版本。GPT-5.5 Instant将这一改进量化为52.5%——在高风险提示词(涉及医疗建议、法律判断、金融数据引用)的内部评测中,比前代GPT-5.3 Instant减少52.5%的幻觉声明。这一数字的意义不只是统计,更是OpenAI在「企业合规」叙事中建立信任的关键支撑。
除幻觉改善外,GPT-5.5 Instant还内置更精细的个性化控制,用户可调整模型回应的语气、假设前提和详细程度。Pro用户(美国)已可测试个人财务功能:绑定账户后,ChatGPT会生成资产概览仪表盘,并接受自然语言财务问询——这是OpenAI向「超级应用」方向的明确探索。
同期,OpenAI的Codex进一步升级,可以在Mac处于锁屏状态时控制计算机执行任务,这是自主Agent能力的重大进展。OpenAI还与戴尔科技合作,将Codex引入混合云和本地企业部署场景,并被Gartner评为「企业编程Agent领导者」。在竞争局势日趋激烈的2026年,GPT-5.5 Instant向市场传递的信号很清晰:OpenAI的护城河不在速度和价格,而在于准确性和可信度。
来源: OpenAI · TechCrunch · OpenAI News