logo

GPT-5.4 AI Agent 自动操作电脑超越人类基准

AI 操作电脑超过人类意味着什么

3 月 5 日,OpenAI 发布 GPT-5.4,在 OSWorld-Verified 基准测试中拿到 75.0% 的通过率。这个数字本身不算炸裂——炸裂的是人类专家基准是 72.4%。这是历史上第一次,一个 AI 模型在真实桌面操作任务中,系统性地超越了人类专家。

OSWorld 不是那种选择题式的学术 benchmark。它在一个真实的操作系统环境中(Linux 桌面),给模型一系列任务:打开特定应用、在网页上填写表单、操作文件系统、完成多步骤工作流。模型只能通过截图"看"屏幕,然后输出键盘和鼠标操作。没有 API,没有捷径——跟你坐在电脑前一样。

GPT-5.2 的成绩是 47.3%。一代之间跳了将近 28 个百分点。这种加速度说明 Computer Use 不是在线性进步,而是在指数级突破。

为什么你应该关注 Computer Use

传统 RPA(机器人流程自动化)已经是一个 $30B+ 的市场,但它的核心痛点从来没解决过:脆弱。界面改个按钮位置,整条自动化链路就断了。RPA 脚本本质上是硬编码的坐标点击序列。

AI Computer Use 完全不同。模型通过视觉理解屏幕内容,通过推理决定下一步操作。按钮换了位置?没关系,它能"看到"新位置。界面语言变了?没关系,它能"读懂"新语言。这是从"写死脚本"到"理解意图"的范式跳跃。

目前三大主流 Computer Use 方案:

| 方案 | 模型 | OSWorld 成绩 | 优势 | 劣势 | |------|------|-------------|------|------| | OpenAI GPT-5.4 | GPT-5.4 Pro | 75.0% | 最高准确率、1M 上下文 | 贵、API 限制多 | | Anthropic Computer Use | Claude Sonnet 4.6 | ~62% | 最成熟 API、安全控制好 | 准确率次于 GPT-5.4 | | Google Mariner | Gemini 3.1 | ~55% | 与 Chrome 深度集成 | 仅限浏览器场景 |

实操指南:用 AI Agent 自动化你的工作流

方案一:OpenAI Computer Use API(最高准确率)

from openai import OpenAI

client = OpenAI()

创建一个 Computer Use session

response = client.responses.create( model="gpt-5.4", tools=[{ "type": "computer_use_preview", "display_width": 1920, "display_height": 1080, "environment": "browser" }], input="打开 Google Sheets,创建一个新表格,在 A1 填入'项目名称',在 B1 填入'状态'" )

模型会返回一系列操作指令

for action in response.output: if action.type == "computer_call": print(f"操作: {action.action.type}") # 执行操作并截图反馈

方案二:Anthropic Computer Use(最佳安全控制)

import anthropic

client = anthropic.Anthropic()

response = client.messages.create( model="claude-sonnet-4-6-20260401", max_tokens=4096, tools=[{ "type": "computer_20250124", "name": "computer", "display_width_px": 1920, "display_height_px": 1080 }], messages=[{ "role": "user", "content": "帮我在终端里运行 git status,然后截图发给我" }] )

方案三:开源自建(最灵活)

如果不想依赖闭源 API,可以用 Gemma 4 31B + 开源 Computer Use 框架:

# 安装 OpenHands(前身 OpenDevin)
pip install openhands-ai

配置使用本地 Gemma 4 模型

export LLM_MODEL="google/gemma-4-31b" export LLM_BASE_URL="http://localhost:11434/v1"

启动 Agent

openhands start --task "在 VS Code 中打开项目,运行测试,修复失败的测试"

常见问题

AI 操作电脑真的比人快吗?

速度上目前还没超过熟练用户。GPT-5.4 超越的是准确率——在一组结构化任务上,它犯的错比人少。但每次操作需要截图 → 推理 → 输出,延迟大约 2-5 秒。适合不着急但需要高准确率的场景(如数据录入、表单填写、批量操作)。

Computer Use 安全吗?会不会 AI 乱点?

这是目前最大的工程挑战。Anthropic 的方案有明确的权限控制和操作审批机制。OpenAI 的方案目前还在 preview 阶段,建议只在沙盒环境中使用。永远不要让 AI Agent 在有真实账号登录的环境中无监督运行。

RPA 会被 AI Computer Use 取代吗?

短期内不会完全取代——RPA 在高频、极度标准化的场景中(银行交易处理、发票核对)仍然更快更便宜。但在需要灵活应对界面变化、处理非标准流程的场景中,AI Computer Use 已经是更好的选择。长期看,融合是趋势。

JR Academy 相关资源

AI Agent 开发是 2026 年最热门的技术方向之一。如果你想系统学习:

Computer Use 只是 AI Agent 能力的一个切面。真正的价值在于把它和 RAG、Tool Use、Multi-Agent 编排结合起来,构建能独立完成复杂工作流的智能体。这需要扎实的工程能力——不只是调 API,而是理解架构、安全、可靠性。

JR Academy · Blog职业洞察

GPT-5.4 超越人类基准:AI Agent 自动操作电脑实操指南

GPT-5.4 在 OSWorld 桌面任务基准测试中以 75% 首次超越人类专家的 72.4%。本文解析 AI Computer Use 技术原理,对比主流方案,并提供从零搭建 AI Agent 自动化工作流的实操教程。

发布日期
阅读时长1 分钟
作者

GPT-5.4 AI Agent 自动操作电脑超越人类基准

AI 操作电脑超过人类意味着什么

3 月 5 日,OpenAI 发布 GPT-5.4,在 OSWorld-Verified 基准测试中拿到 75.0% 的通过率。这个数字本身不算炸裂——炸裂的是人类专家基准是 72.4%。这是历史上第一次,一个 AI 模型在真实桌面操作任务中,系统性地超越了人类专家。

OSWorld 不是那种选择题式的学术 benchmark。它在一个真实的操作系统环境中(Linux 桌面),给模型一系列任务:打开特定应用、在网页上填写表单、操作文件系统、完成多步骤工作流。模型只能通过截图"看"屏幕,然后输出键盘和鼠标操作。没有 API,没有捷径——跟你坐在电脑前一样。

GPT-5.2 的成绩是 47.3%。一代之间跳了将近 28 个百分点。这种加速度说明 Computer Use 不是在线性进步,而是在指数级突破。

为什么你应该关注 Computer Use

传统 RPA(机器人流程自动化)已经是一个 $30B+ 的市场,但它的核心痛点从来没解决过:脆弱。界面改个按钮位置,整条自动化链路就断了。RPA 脚本本质上是硬编码的坐标点击序列。

AI Computer Use 完全不同。模型通过视觉理解屏幕内容,通过推理决定下一步操作。按钮换了位置?没关系,它能"看到"新位置。界面语言变了?没关系,它能"读懂"新语言。这是从"写死脚本"到"理解意图"的范式跳跃。

目前三大主流 Computer Use 方案:

| 方案 | 模型 | OSWorld 成绩 | 优势 | 劣势 | |------|------|-------------|------|------| | OpenAI GPT-5.4 | GPT-5.4 Pro | 75.0% | 最高准确率、1M 上下文 | 贵、API 限制多 | | Anthropic Computer Use | Claude Sonnet 4.6 | ~62% | 最成熟 API、安全控制好 | 准确率次于 GPT-5.4 | | Google Mariner | Gemini 3.1 | ~55% | 与 Chrome 深度集成 | 仅限浏览器场景 |

实操指南:用 AI Agent 自动化你的工作流

方案一:OpenAI Computer Use API(最高准确率)

from openai import OpenAI

client = OpenAI()

创建一个 Computer Use session

response = client.responses.create( model="gpt-5.4", tools=[{ "type": "computer_use_preview", "display_width": 1920, "display_height": 1080, "environment": "browser" }], input="打开 Google Sheets,创建一个新表格,在 A1 填入'项目名称',在 B1 填入'状态'" )

模型会返回一系列操作指令

for action in response.output: if action.type == "computer_call": print(f"操作: {action.action.type}") # 执行操作并截图反馈

方案二:Anthropic Computer Use(最佳安全控制)

import anthropic

client = anthropic.Anthropic()

response = client.messages.create( model="claude-sonnet-4-6-20260401", max_tokens=4096, tools=[{ "type": "computer_20250124", "name": "computer", "display_width_px": 1920, "display_height_px": 1080 }], messages=[{ "role": "user", "content": "帮我在终端里运行 git status,然后截图发给我" }] )

方案三:开源自建(最灵活)

如果不想依赖闭源 API,可以用 Gemma 4 31B + 开源 Computer Use 框架:

# 安装 OpenHands(前身 OpenDevin)
pip install openhands-ai

配置使用本地 Gemma 4 模型

export LLM_MODEL="google/gemma-4-31b" export LLM_BASE_URL="http://localhost:11434/v1"

启动 Agent

openhands start --task "在 VS Code 中打开项目,运行测试,修复失败的测试"

常见问题

AI 操作电脑真的比人快吗?

速度上目前还没超过熟练用户。GPT-5.4 超越的是准确率——在一组结构化任务上,它犯的错比人少。但每次操作需要截图 → 推理 → 输出,延迟大约 2-5 秒。适合不着急但需要高准确率的场景(如数据录入、表单填写、批量操作)。

Computer Use 安全吗?会不会 AI 乱点?

这是目前最大的工程挑战。Anthropic 的方案有明确的权限控制和操作审批机制。OpenAI 的方案目前还在 preview 阶段,建议只在沙盒环境中使用。永远不要让 AI Agent 在有真实账号登录的环境中无监督运行。

RPA 会被 AI Computer Use 取代吗?

短期内不会完全取代——RPA 在高频、极度标准化的场景中(银行交易处理、发票核对)仍然更快更便宜。但在需要灵活应对界面变化、处理非标准流程的场景中,AI Computer Use 已经是更好的选择。长期看,融合是趋势。

JR Academy 相关资源

AI Agent 开发是 2026 年最热门的技术方向之一。如果你想系统学习:

Computer Use 只是 AI Agent 能力的一个切面。真正的价值在于把它和 RAG、Tool Use、Multi-Agent 编排结合起来,构建能独立完成复杂工作流的智能体。这需要扎实的工程能力——不只是调 API,而是理解架构、安全、可靠性。

作者
一键分享或复制链接

相关文章推荐

查看全部文章 →