AI 操作电脑超过人类意味着什么
3 月 5 日,OpenAI 发布 GPT-5.4,在 OSWorld-Verified 基准测试中拿到 75.0% 的通过率。这个数字本身不算炸裂——炸裂的是人类专家基准是 72.4%。这是历史上第一次,一个 AI 模型在真实桌面操作任务中,系统性地超越了人类专家。
OSWorld 不是那种选择题式的学术 benchmark。它在一个真实的操作系统环境中(Linux 桌面),给模型一系列任务:打开特定应用、在网页上填写表单、操作文件系统、完成多步骤工作流。模型只能通过截图"看"屏幕,然后输出键盘和鼠标操作。没有 API,没有捷径——跟你坐在电脑前一样。
GPT-5.2 的成绩是 47.3%。一代之间跳了将近 28 个百分点。这种加速度说明 Computer Use 不是在线性进步,而是在指数级突破。
为什么你应该关注 Computer Use
传统 RPA(机器人流程自动化)已经是一个 $30B+ 的市场,但它的核心痛点从来没解决过:脆弱。界面改个按钮位置,整条自动化链路就断了。RPA 脚本本质上是硬编码的坐标点击序列。
AI Computer Use 完全不同。模型通过视觉理解屏幕内容,通过推理决定下一步操作。按钮换了位置?没关系,它能"看到"新位置。界面语言变了?没关系,它能"读懂"新语言。这是从"写死脚本"到"理解意图"的范式跳跃。
目前三大主流 Computer Use 方案:
| 方案 | 模型 | OSWorld 成绩 | 优势 | 劣势 | |------|------|-------------|------|------| | OpenAI GPT-5.4 | GPT-5.4 Pro | 75.0% | 最高准确率、1M 上下文 | 贵、API 限制多 | | Anthropic Computer Use | Claude Sonnet 4.6 | ~62% | 最成熟 API、安全控制好 | 准确率次于 GPT-5.4 | | Google Mariner | Gemini 3.1 | ~55% | 与 Chrome 深度集成 | 仅限浏览器场景 |
实操指南:用 AI Agent 自动化你的工作流
方案一:OpenAI Computer Use API(最高准确率)
from openai import OpenAIclient = OpenAI()
创建一个 Computer Use session
response = client.responses.create(
model="gpt-5.4",
tools=[{
"type": "computer_use_preview",
"display_width": 1920,
"display_height": 1080,
"environment": "browser"
}],
input="打开 Google Sheets,创建一个新表格,在 A1 填入'项目名称',在 B1 填入'状态'"
)模型会返回一系列操作指令
for action in response.output:
if action.type == "computer_call":
print(f"操作: {action.action.type}")
# 执行操作并截图反馈方案二:Anthropic Computer Use(最佳安全控制)
import anthropicclient = anthropic.Anthropic()
response = client.messages.create(
model="claude-sonnet-4-6-20260401",
max_tokens=4096,
tools=[{
"type": "computer_20250124",
"name": "computer",
"display_width_px": 1920,
"display_height_px": 1080
}],
messages=[{
"role": "user",
"content": "帮我在终端里运行 git status,然后截图发给我"
}]
)
方案三:开源自建(最灵活)
如果不想依赖闭源 API,可以用 Gemma 4 31B + 开源 Computer Use 框架:
# 安装 OpenHands(前身 OpenDevin)
pip install openhands-ai配置使用本地 Gemma 4 模型
export LLM_MODEL="google/gemma-4-31b"
export LLM_BASE_URL="http://localhost:11434/v1"启动 Agent
openhands start --task "在 VS Code 中打开项目,运行测试,修复失败的测试"常见问题
AI 操作电脑真的比人快吗?
速度上目前还没超过熟练用户。GPT-5.4 超越的是准确率——在一组结构化任务上,它犯的错比人少。但每次操作需要截图 → 推理 → 输出,延迟大约 2-5 秒。适合不着急但需要高准确率的场景(如数据录入、表单填写、批量操作)。
Computer Use 安全吗?会不会 AI 乱点?
这是目前最大的工程挑战。Anthropic 的方案有明确的权限控制和操作审批机制。OpenAI 的方案目前还在 preview 阶段,建议只在沙盒环境中使用。永远不要让 AI Agent 在有真实账号登录的环境中无监督运行。
RPA 会被 AI Computer Use 取代吗?
短期内不会完全取代——RPA 在高频、极度标准化的场景中(银行交易处理、发票核对)仍然更快更便宜。但在需要灵活应对界面变化、处理非标准流程的场景中,AI Computer Use 已经是更好的选择。长期看,融合是趋势。
JR Academy 相关资源
AI Agent 开发是 2026 年最热门的技术方向之一。如果你想系统学习:
Computer Use 只是 AI Agent 能力的一个切面。真正的价值在于把它和 RAG、Tool Use、Multi-Agent 编排结合起来,构建能独立完成复杂工作流的智能体。这需要扎实的工程能力——不只是调 API,而是理解架构、安全、可靠性。