2026 年 5 月 19 日,谷歌在加州山景城发布 Gemini 3.5 Flash,把它放在 Google I/O 主舞台中央。但所有人都知道,它不是当前最智能的大模型——就在三周前,Claude Opus 4.7 在真实工程代码修复基准 SWE-bench Pro 上拿到 64.3%;GPT-5.5 在 Terminal-Bench 2.0 上跑出 82.7%。谷歌心知肚明,还是把 Flash 推上了主角位。

这是一个有意的选择,不是没有选择。

两年前输掉的那场仗

要理解这次 I/O,得先看谷歌过去两年在这个赛道上怎么输的。

2023 年底,GPT-4 打穿用户心智,谷歌以行业一号位的身份仓皇应战。Gemini 1.0 发布时演示造假被抓,公司市值单日跌掉 1000 亿美元。之后两年,谷歌确实补了课——Gemini 1.5 的百万 token 上下文窗口是真实技术突破,Gemini 2.0 开始喊 agent-first。但在开发者那里,「用 Claude 写代码,用 GPT 做产品」几乎已经成了默认习惯。

2026 年 5 月,OpenAI 年化营收突破 250 亿美元,Anthropic 逼近 190 亿。谷歌的 AI 业务没有公开独立数字,但多份第三方报告显示 Gemini API 的开发者调用量在三大模型里排第三。

坐在第三的谷歌,在 5 月 19 日选择了一种反直觉的应对方式:不发更强的模型,发了一个更便宜更快的。

Flash 不是妥协,是宣言

Gemini 3.5 Flash 的数字很具体:Terminal-Bench 2.1(测试 agent 能否在真实终端环境里完成编程任务)跑出 76.2%;MCP Atlas(测试模型在多工具调用链中的表现)83.6%;GDPval-AA 1656 Elo;CharXiv 多模态推理 84.2%。推理速度是同级 frontier 模型的 4 倍;定价输入 $1.50 / 百万 token、输出 $9 / 百万 token,标配 100 万 token 上下文,成本不到可比模型的一半。

这几个数字凑在一起,说明谷歌在优化什么——不是「更聪明」,是「更能干活」。

拆解一下原理:Transformer 的 Attention 机制就像教室里所有同学互相偷看,每个词都要找和自己相关的词。上下文越长,这个计算量呈平方级增长,这是为什么大多数模型要么上下文短、要么慢、要么贵。谷歌在 Flash 上同时压住速度和价格,靠的是 TPU-8T 和 TPU-8I 新一代芯片加专用架构优化。这不是模型更聪明,是工程做得更好。

翻译成人话:如果 AI Agent 要完成一项任务,需要调用大模型 200 次、500 次甚至更多——每次推理、每次工具调用、每次重新规划——那每次调用的成本就直接决定这件事跑不跑得起来。Gemini 3.5 Flash 的定价是在说:谷歌认为 AI 的主战场是高频调用,而高频调用里便宜和快比聪明更值钱。

谷歌在 I/O 推 Flash 而不是 Pro(Pro 据称下个月才发布),是在向开发者说:当前阶段,我认为这才是你们真正需要的东西。

Agent 基础设施,才是真正的武器

Gemini 3.5 Flash 本身只是序章。5 月 19 日,谷歌同步发布了一整套 Agent 基础设施:

Antigravity 2.0 从 Web IDE 升级成独立桌面 App,配套 Antigravity CLI 和 agentic browser,把开发者的工作环境迁移到谷歌的平台里。CLI 整合了来自 Gemini CLI 用户数据的工程经验,开箱即用。

Managed Agents API 一次 API 调用就可以在 Google Cloud 托管环境里部署并运行自定义 Agent——每个任务独立的临时虚拟机,自带 DLP(数据防泄漏)执行和加密凭证管理,开发者不用自己搭安全基础设施。

Gemini Spark 全天候在后台运行的个人 AI Agent,跨 Google Workspace、Microsoft SharePoint、OneDrive、ServiceNow 等平台处理多步骤任务。高风险操作需要明确授权,跑在 Google Cloud 隔离沙箱里。

CodeMender 自主发现代码安全漏洞、生成修复方案、测试补丁、等待授权后应用,多家企业已在测试。

把这四个东西加在一起,谷歌不是在发布产品,是在建护城河。开发者在 Antigravity 上开发,用 Gemini Flash API 调用,在 Google Cloud 上运行,Spark 处理日常工作流,CodeMender 做安全维护。待在里面越久,切换成本越高。这是亚马逊在 2006 年用 AWS 干过的事,谷歌在 2026 年把这个逻辑复制到 AI Agent 上。

这场赌注的代价

说清楚谷歌在赌什么,就得说清楚代价在哪。

谷歌的赌注是:AI 进入 Agent 时代之后,模型被大量调用的主要场景是任务执行而非深度推理,所以「够用的智能 + 极低价格 + 极高速度」会打败「最顶尖的智能 + 高价格」。

这个逻辑有历史支撑。PC 打败大型机,不是因为 PC 更强,是因为把计算普及了——从一台价值几百万美元的机器变成一台几千块的桌面机。AWS 打败私有 IDC,不是因为亚马逊的服务器性能更好,是因为把基础设施的获取门槛降到近乎为零。当某种资源变成基础设施,拼的是规模效益和生态锁定,不是前沿性能。

但这个逻辑有一个反例:OpenAI 一直在押「frontier pays premium」。GPT-5.5 Pro 是为那些愿意为「对的答案」付溢价的企业客户设计的。Anthropic 用 Claude Opus 4.7 的 SWE-bench Pro 成绩收割工程师市场溢价,单月 API 调用量持续增长。他们的判断是:越复杂的任务,越需要真正的推理能力,用廉价模型犯一次错,成本远超 API 调用费。

谷歌面临的另一个矛盾更棘手:推进 AI Agent 的同时,它在加速侵蚀自己的核心业务。每一次 Gemini Spark 帮用户直接给出答案,谷歌就少一次搜索广告的展示。Gemini 越好用,谷歌的搜索收入越危险。这个内在矛盾,谷歌没有在 I/O 上公开回答过。

赢了基础设施,不等于赢了战争

技术史上每次赛道切换,最后赢的那一方几乎都不是当时最聪明的,而是先占住基础设施的。这个规律在 PC、云计算、移动互联网上都成立。但它每次成立,都有一个前提:那个新赛道必须足够大,而且得先有人证明「够用的智能」真的够用。

谷歌现在的押注,恰好在这个节点上:如果 Agent 的未来是真实的,而且 Agent 的主要调用场景确实是「廉价快速」比「昂贵精准」更重要——那建好水管的人,才是最后赚钱的那个。

等 Gemini 3.5 Pro 下个月发布,真正的问题才会浮出水面:谷歌在便宜快之外,有没有能力也做到足够聪明。如果 Pro 不够强,这次 I/O 的战略转型就只是向下兼容,而不是向上突破。

便宜赢了基础设施,不等于赢了市场。

数据来源

JR Academy · Blog职业洞察

Google 押注 Agent,放弃 Chatbot:Gemini 3.5 Flash 的真实用意

2026 年 Google I/O,谷歌把速度 4 倍于竞品、价格不到竞品一半的 Gemini 3.5 Flash 推上主舞台。这不是谷歌认输,是换赛道——从模型智能比赛转向 AI Agent 基础设施之战。

发布日期
阅读时长1 分钟
作者

2026 年 5 月 19 日,谷歌在加州山景城发布 Gemini 3.5 Flash,把它放在 Google I/O 主舞台中央。但所有人都知道,它不是当前最智能的大模型——就在三周前,Claude Opus 4.7 在真实工程代码修复基准 SWE-bench Pro 上拿到 64.3%;GPT-5.5 在 Terminal-Bench 2.0 上跑出 82.7%。谷歌心知肚明,还是把 Flash 推上了主角位。

这是一个有意的选择,不是没有选择。

两年前输掉的那场仗

要理解这次 I/O,得先看谷歌过去两年在这个赛道上怎么输的。

2023 年底,GPT-4 打穿用户心智,谷歌以行业一号位的身份仓皇应战。Gemini 1.0 发布时演示造假被抓,公司市值单日跌掉 1000 亿美元。之后两年,谷歌确实补了课——Gemini 1.5 的百万 token 上下文窗口是真实技术突破,Gemini 2.0 开始喊 agent-first。但在开发者那里,「用 Claude 写代码,用 GPT 做产品」几乎已经成了默认习惯。

2026 年 5 月,OpenAI 年化营收突破 250 亿美元,Anthropic 逼近 190 亿。谷歌的 AI 业务没有公开独立数字,但多份第三方报告显示 Gemini API 的开发者调用量在三大模型里排第三。

坐在第三的谷歌,在 5 月 19 日选择了一种反直觉的应对方式:不发更强的模型,发了一个更便宜更快的。

Flash 不是妥协,是宣言

Gemini 3.5 Flash 的数字很具体:Terminal-Bench 2.1(测试 agent 能否在真实终端环境里完成编程任务)跑出 76.2%;MCP Atlas(测试模型在多工具调用链中的表现)83.6%;GDPval-AA 1656 Elo;CharXiv 多模态推理 84.2%。推理速度是同级 frontier 模型的 4 倍;定价输入 $1.50 / 百万 token、输出 $9 / 百万 token,标配 100 万 token 上下文,成本不到可比模型的一半。

这几个数字凑在一起,说明谷歌在优化什么——不是「更聪明」,是「更能干活」。

拆解一下原理:Transformer 的 Attention 机制就像教室里所有同学互相偷看,每个词都要找和自己相关的词。上下文越长,这个计算量呈平方级增长,这是为什么大多数模型要么上下文短、要么慢、要么贵。谷歌在 Flash 上同时压住速度和价格,靠的是 TPU-8T 和 TPU-8I 新一代芯片加专用架构优化。这不是模型更聪明,是工程做得更好。

翻译成人话:如果 AI Agent 要完成一项任务,需要调用大模型 200 次、500 次甚至更多——每次推理、每次工具调用、每次重新规划——那每次调用的成本就直接决定这件事跑不跑得起来。Gemini 3.5 Flash 的定价是在说:谷歌认为 AI 的主战场是高频调用,而高频调用里便宜和快比聪明更值钱。

谷歌在 I/O 推 Flash 而不是 Pro(Pro 据称下个月才发布),是在向开发者说:当前阶段,我认为这才是你们真正需要的东西。

Agent 基础设施,才是真正的武器

Gemini 3.5 Flash 本身只是序章。5 月 19 日,谷歌同步发布了一整套 Agent 基础设施:

Antigravity 2.0 从 Web IDE 升级成独立桌面 App,配套 Antigravity CLI 和 agentic browser,把开发者的工作环境迁移到谷歌的平台里。CLI 整合了来自 Gemini CLI 用户数据的工程经验,开箱即用。

Managed Agents API 一次 API 调用就可以在 Google Cloud 托管环境里部署并运行自定义 Agent——每个任务独立的临时虚拟机,自带 DLP(数据防泄漏)执行和加密凭证管理,开发者不用自己搭安全基础设施。

Gemini Spark 全天候在后台运行的个人 AI Agent,跨 Google Workspace、Microsoft SharePoint、OneDrive、ServiceNow 等平台处理多步骤任务。高风险操作需要明确授权,跑在 Google Cloud 隔离沙箱里。

CodeMender 自主发现代码安全漏洞、生成修复方案、测试补丁、等待授权后应用,多家企业已在测试。

把这四个东西加在一起,谷歌不是在发布产品,是在建护城河。开发者在 Antigravity 上开发,用 Gemini Flash API 调用,在 Google Cloud 上运行,Spark 处理日常工作流,CodeMender 做安全维护。待在里面越久,切换成本越高。这是亚马逊在 2006 年用 AWS 干过的事,谷歌在 2026 年把这个逻辑复制到 AI Agent 上。

这场赌注的代价

说清楚谷歌在赌什么,就得说清楚代价在哪。

谷歌的赌注是:AI 进入 Agent 时代之后,模型被大量调用的主要场景是任务执行而非深度推理,所以「够用的智能 + 极低价格 + 极高速度」会打败「最顶尖的智能 + 高价格」。

这个逻辑有历史支撑。PC 打败大型机,不是因为 PC 更强,是因为把计算普及了——从一台价值几百万美元的机器变成一台几千块的桌面机。AWS 打败私有 IDC,不是因为亚马逊的服务器性能更好,是因为把基础设施的获取门槛降到近乎为零。当某种资源变成基础设施,拼的是规模效益和生态锁定,不是前沿性能。

但这个逻辑有一个反例:OpenAI 一直在押「frontier pays premium」。GPT-5.5 Pro 是为那些愿意为「对的答案」付溢价的企业客户设计的。Anthropic 用 Claude Opus 4.7 的 SWE-bench Pro 成绩收割工程师市场溢价,单月 API 调用量持续增长。他们的判断是:越复杂的任务,越需要真正的推理能力,用廉价模型犯一次错,成本远超 API 调用费。

谷歌面临的另一个矛盾更棘手:推进 AI Agent 的同时,它在加速侵蚀自己的核心业务。每一次 Gemini Spark 帮用户直接给出答案,谷歌就少一次搜索广告的展示。Gemini 越好用,谷歌的搜索收入越危险。这个内在矛盾,谷歌没有在 I/O 上公开回答过。

赢了基础设施,不等于赢了战争

技术史上每次赛道切换,最后赢的那一方几乎都不是当时最聪明的,而是先占住基础设施的。这个规律在 PC、云计算、移动互联网上都成立。但它每次成立,都有一个前提:那个新赛道必须足够大,而且得先有人证明「够用的智能」真的够用。

谷歌现在的押注,恰好在这个节点上:如果 Agent 的未来是真实的,而且 Agent 的主要调用场景确实是「廉价快速」比「昂贵精准」更重要——那建好水管的人,才是最后赚钱的那个。

等 Gemini 3.5 Pro 下个月发布,真正的问题才会浮出水面:谷歌在便宜快之外,有没有能力也做到足够聪明。如果 Pro 不够强,这次 I/O 的战略转型就只是向下兼容,而不是向上突破。

便宜赢了基础设施,不等于赢了市场。

数据来源

作者
一键分享或复制链接

相关文章推荐

查看全部文章 →