logo
01

什么是 OpenClaw

⏱️ 15分钟

什么是 OpenClaw

说实话,去年十一月有个朋友在微信群里发了个龙虾 Logo 的截图,说什么"新一代 AI Agent 平台",我当时心想又是哪个套壳 ChatGPT 的玩具——结果真正跑起来之后打脸了,这东西和 ChatGPT 完全不是一个路子。

顺便说一下背景吧。OpenClaw 的创始人是 Peter Steinberger,之前做过 iOS 开发圈很有名的 PSPDFKit。这项目最早叫 Clawdbot(灵感来自 Claude 这个名字),后来社区越做越大才改名叫 OpenClaw。项目是 MIT 协议开源的,所以商用也没问题。背后的赞助商阵容也挺豪华:OpenAI、Vercel、Blacksmith、Convex 都是 sponsors。

一句话定义

OpenClaw 是一个本地优先的开源 AI 智能体平台——说白了就是,它运行在你自己的设备上,通过消息平台(飞书、Telegram、Discord 啥的)当界面,让 AI 帮你自动执行各种任务。

OpenClaw 的 Logo 就是 Molty——一只穿宇航服的太空龙虾(社区叫它"大龙虾"或者"Molty 哥")。群里老王前两天还在说"我家龙虾又抽风了",搞得新人一脸懵。

为什么 OpenClaw 这么火?

截至目前这玩意儿已经飙到 307K GitHub Stars,GitHub 历史上增长最快的开源项目之一,没有之一。这合理吗?我一开始也觉得有点夸张,但仔细看了一圈确实有两把刷子。

拿 ChatGPT 做对比就清楚了——ChatGPT 数据存云端第三方服务器,能力基本就是对话,插件生态嘛说实话有点拉,每个月还要交 $20+。OpenClaw 反过来:数据存在你自己的设备上(本地优先架构,记忆以 Markdown 文件存在磁盘上),不光能对话还能执行任务(操作文件、调 API、发消息),社区已经有 3,200+ Skills 可以装,而且能接入 21+ 消息平台——WhatsApp、Telegram、Slack、Discord、飞书、Google Chat、Signal、iMessage(通过 BlueBubbles)、IRC、Microsoft Teams、Matrix、LINE、Mattermost 等等都行。最关键的是开源免费,你只需要付 LLM API 的费用...

Discord 群里经常有人说"用了 OpenClaw 就回不去了",虽然有点吹的成分吧,但确实解决了一些真实痛点嘛。

核心架构

消息平台(飞书/Telegram/Discord/...)
        ↓
   OpenClaw Gateway(本地 WebSocket 网关)
        ↓
   Agent Runtime(AI 智能体引擎)
        ↓
   LLM API(OpenAI / Claude / Gemini / 本地模型)
        ↕
   Skills(3,200+ 技能扩展)+ MCP Servers(13,000+)

几个关键组件简单说一下吧:

Gateway 就是本地跑的一个 WebSocket 控制面板(ws://127.0.0.1:18789),所有消息在这里汇聚和路由。你猜怎么着?我一开始还傻乎乎地以为这是个远程服务,搞半天发现就在本地跑的——

Agent Runtime 是 AI 智能体引擎,负责理解指令、规划任务、调用工具。说白了就是"大脑"。

Skills 是可插拔的技能模块——注意,Skills 本质上是 SKILL.md Markdown 文件加上 YAML frontmatter,不是什么 TypeScript 代码模块。从文件管理到网页爬取啥都有,社区通过 ClawHub 已有 3,200+ 个,支持语义搜索(用 embeddings 做的)。

Memory 是 OpenClaw 的"记忆系统",以 Markdown 文件存在工作区里。SOUL.md 定义 Agent 的人设和行为规范,USER.md 存用户偏好,AGENTS.md 管理多 Agent 配置。这种纯文本存储的方式很聪明——你可以直接用编辑器改,也可以用 Git 做版本管理。

MCP 是 Model Context Protocol 集成,接入 13,000+ 个外部服务。

架构不复杂,但我个人觉得设计得挺巧妙的——消息平台只是入口,核心逻辑都在本地跑。

OpenClaw 能做什么?

开发者方向

用自然语言操作文件系统,批量重命名、整理项目什么的。接入 GitHub 自动 Review PR、管理 Issue。还可以自己写 Skill 扩展能力,甚至搞多 Agent 协作工作流。群里有个叫小李的前端,写了个 Skill 自动给 PR 加 changelog,他说每周能省两三个小时——

开发者特别值得关注的是 Node 模式。开启之后 OpenClaw 会暴露 system.run(执行系统命令)、system.notify(发通知)、canvas(交互画布)、camera(调摄像头)这些能力接口。你可以把它当成一个有 AI 大脑的系统级 SDK 来用,写自动化脚本比原来方便太多了。还有 Browser 自动化——OpenClaw 可以启动一个专用的 Chrome/Chromium 实例,帮你操作网页、填表单、抓数据,不需要自己写 Puppeteer 代码。

职场场景

通过飞书/微信接收指令,自动整理会议纪要;定时抓网页信息生成 AI 日报;截图转日历事件做智能日程管理;PDF 分析和知识库管理也都能搞。我自己用得最多的是让它帮我整理周报素材,说真的省了不少时间。对了,忘说了,它还能帮你自动回复一些模板化的消息,不过这个功能要小心用,别闹出尴尬呢。

移动端和语音交互

这块很多人不知道——OpenClaw 有完整的移动端体验。macOS 有 menu bar app(需要 macOS 15+),带 push-to-talk 悬浮窗,按住快捷键直接语音下指令。iOS app 支持 Canvas 交互画布、Voice Wake 语音唤醒、摄像头拍照、屏幕录制,还能通过 Bonjour 和 Mac 端自动配对。Android app 也有聊天、语音、Canvas、摄像头/录屏全套功能。

Canvas 是个很酷的功能——类似一个实时交互白板。它支持 A2UI push/reset(AI 推送 UI 到你的设备)、eval(远程执行代码片段)、snapshot(截取当前状态)。比如你让 AI 帮你做个数据可视化,它可以直接把图表推到你的 Canvas 上实时展示。

Voice Wake(macOS/iOS)可以用语音唤醒词激活 OpenClaw,不用打开 App 也不用打字。Android 上对应的是 Talk Mode。语音引擎支持 ElevenLabs 和系统自带的 TTS。

学习价值

如果你想理解 AI Agent 的完整架构,OpenClaw 是挺好的学习对象。从 Skill 开发到 MCP 协议,理论到实践都能覆盖到。后来我才觉得自己之前光看论文不动手的做法挺蠢的嘛。

与其他工具的对比

经常有人问 OpenClaw 和 Claude Code、ChatGPT、Dify 有什么区别。说白了就是定位不同:

OpenClaw 走的是全能 AI 助手路线,跑在本地设备,接入 21+ 消息平台,有 3,200+ Skills 生态(ClawHub),面向所有人。我个人觉得它最大的卖点是"消息平台即界面"这个思路,对吧?你不需要再开个新 App。加上 Canvas、Voice Wake、Node 模式这些能力,它已经不只是个聊天机器人了。

Claude Code 是纯 AI 编程工具,跑在终端里,主要面向开发者。写代码确实猛但干别的就不太行了。

ChatGPT 不用多说了,通用对话 AI,云端运行,网页/App 使用。

Dify 是 AI 应用搭建平台,可以云端或自部署,主要给开发者用来搭 AI 应用的。

它们之间不是互斥的啊,身边很多人同时在用好几个呢。

学习路线总览

第 1 阶段:入门与部署(1 周)
├── 理解 OpenClaw → 安装部署 → 接入消息平台 → 配置模型 → 熟悉内置技能
│
第 2 阶段:Skill 开发(1-2 周)
├── Skill 结构 → 开发第一个 Skill → 测试调试 → 发布到 Registry
│
第 3 阶段:进阶与自动化(1-2 周)
├── 多 Agent 路由 → 定时任务 → MCP 集成 → 安全配置
│
第 4 阶段:实战与生产(1 周)
└── 私人助手项目 → 团队协作项目 → 生产环境部署

推荐资源


好了概念部分就到这儿吧。接下来直接上手——装 OpenClaw,5 分钟跑通你的第一个 AI 助手。