Agent = LLM + 推理 + 工具调用 + 记忆 — 不是聊天机器人,是能自主完成任务的系统
ReAct Framework:Reasoning + Action 交替执行
- Thought → Action → Observation → Thought → ...
- 比纯 Prompt 更可靠,因为 Agent 每步都在"想"下一步该干什么
Function Calling / Tool Use:
- OpenAI function calling API
- Claude tool use API
- 定义 Tool Schema,让 LLM 知道有哪些工具可用
从零写一个 ReAct Agent:纯 Python,不依赖任何框架,理解 Agent 本质
1. 实现 ReAct Agent — 手写 Thought/Action/Observation 循环
2. 给 Agent 加 3 个工具:
- Web Search(Tavily/SerpAPI)
- RAG Retriever(Phase 2 的成果)
- Calculator
3. 给一个复杂问题,观察 Agent 如何拆解 → 调用工具 → 组合结果
用纯 Python Agent + 至少 3 个工具,构建综合 Agent 应用:
1. 搜索网络获取实时信息
2. 检索本地知识库
3. 做数据计算
不允许用 LangChain,目的是理解 Agent 底层机制
为什么 2026 年有 3 个主流 Agent SDK — LangChain 不再是唯一选择
OpenAI Agents SDK:
- Handoff 模式,API 最简洁,适合快速原型
- 多 Agent 通过 handoff 传递控制权
Claude Agent SDK:
- MCP 原生集成,工具集成最深
- 沙盒执行环境,安全性高
Google ADK (Agent Development Kit):
- A2A 协议原生支持,企业级多 Agent 编排
- 与 Google Cloud 深度集成
三者对比维度:API 设计 / 工具集成 / 多 Agent 支持 / 可观测性 / 生态
决策矩阵:什么场景选哪个 SDK
同一个任务,3 个 SDK 分别实现:
任务:Research Agent — 搜索 → 分析 → 生成报告
1. 用 OpenAI Agents SDK 实现
2. 用 Claude Agent SDK 实现
3. 用 Google ADK 实现
4. 对比:代码量、开发体验、延迟、可控性
5. 记录对比报告
为 ISA 项目选择 Agent SDK,写技术选型文档:
包含:
- 为什么选这个 SDK
- 替代方案的 trade-off 分析
- 代码示例对比
- 成本和性能预估
三种多 Agent 架构:
1. Hierarchical — Boss Agent 分配任务给 Worker Agents
2. Collaborative — Agent 之间平等协作,共享上下文
3. Supervised — Supervisor 监控 Agent 行为,可以打断和修正
LangGraph 深度实操:
- StateGraph — 定义 Agent 状态和转换
- Nodes — 每个 Agent 是一个 Node
- Edges — 条件路由(conditional edges)
- Checkpointing — 长时间运行的 Agent 状态保存
何时用 Multi-Agent:任务复杂度决策矩阵
状态管理:Agent 之间如何传递上下文和中间结果
用 LangGraph 构建 4-Agent 系统:
1. Query Router — 判断问题类型
2. Retrieval Agent — 多源检索
3. Generation Agent — 综合回答
4. Evaluation Agent — 自动评估答案质量
5. 状态图可视化 — 观察 Agent 之间的消息传递
6. LangSmith 全链路监控
部署 Multi-Agent RAG 到云端
提交:
- LangGraph 状态图可视化
- LangSmith Trace 分析报告
- Demo URL
记忆是 Demo 和 Production Agent 的分水岭 — 没有记忆的 Agent 每次对话都是失忆状态
三层记忆架构:
1. Episodic Memory — 原始交互历史(对话记录)
2. Semantic Memory — 从交互中提取的知识(Embedding 存储)
3. State Memory — 当前任务的运行状态
Mem0 框架:自动记忆提取 + 图记忆 (Graph Memory)
- 自动从对话中抽取关键信息存储
- 用知识图谱存储实体关系,Agent 可以跨会话关联信息
对比:ConversationBufferMemory (LangChain) vs Mem0 vs 自建记忆系统
1. 给 Week 7 的 Agent 加 Mem0 记忆层
2. 对比测试:有记忆 vs 无记忆 Agent 在多轮对话中的表现
3. 实现 Graph Memory:Agent 自动提取实体关系并存储到 Neo4j
4. 跨会话测试:关掉对话再开,Agent 是否还记得你
为 ISA 升级记忆能力:
测试标准:
- 10 轮对话后,Agent 是否记住用户偏好
- 跨会话是否保留历史上下文
- Graph Memory 是否正确提取实体关系
提交测试报告 + 记忆架构图
Agent 协议生态 2026:
- MCP (Model Context Protocol) — Agent 连接工具
- A2A (Agent-to-Agent) — Agent 之间通信
- ACP (Agent Communication Protocol) — Agent 协作
A2A 协议:Google 发起,50+ 合作伙伴
- Agent Card — 能力声明("我能做什么")
- Task — 任务委托("帮我做这件事")
- Channel — 通信通道(streaming/polling)
MCP + A2A 组合使用:MCP 连接工具,A2A 连接其他 Agent
实际场景:你的 Agent 调用公司内部另一个团队的 Agent
1. 用 A2A 协议让 2 个 Agent 互相通信:
- Agent A (研究) 委托 Agent B (分析) 处理数据
- 通过 A2A Task 传递结果
2. 编写 Agent Card 声明 Agent 能力
3. 测试 Agent 发现 → 委托 → 结果返回的完整流程
设计一个 MCP + A2A 组合架构:
1. 画出架构图:哪些用 MCP,哪些用 A2A
2. 实现 Agent Card 声明你的 Agent 能力
3. 写一份协议选型文档:什么场景用 MCP,什么场景用 A2A
MCP 快速回顾:Client (Claude/Cursor) → Server (你的工具) → Resources/Tools/Prompts
用 TypeScript 构建 MCP Server:
- 暴露 Resources(数据源)和 Tools(操作)
- 定义 Prompts(预设交互模式)
MCP 生产化:
- OAuth 认证 — 不是所有人都能调你的 MCP Server
- API Key 管理 — 多租户场景
- 审计日志 — 谁在什么时候调了什么工具
在 Claude Code / Cursor 中集成测试
1. 用 TypeScript 构建一个连接真实数据源的 MCP Server
2. 暴露至少 3 个 Tools(CRUD + 查询 + 分析)
3. 在 Claude Code 中连接并测试
4. 添加 OAuth 认证层
为 ISA 构建专属 MCP Server:
- 连接 ISA 的知识库和工具
- 在 Claude Code 中通过 MCP 调用 ISA
- 部署并分享给同学测试
Computer Use / Browser Automation — Agent 操作真实软件,不只是调 API
- Claude Computer Use API — 截屏 → 识别 → 点击 → 验证
- ChatGPT Operator — OpenAI 的浏览器自动化方案
- Vercel agent-browser — 开源浏览器 Agent
Agent Ops 三大支柱:
1. Observability — Trace 每个 Agent 推理过程 (LangSmith)
2. Evaluation — task completion rate, hallucination rate
3. Guardrails — 限制 Agent 行为边界、防止 prompt injection、input/output 过滤
生产部署 Checklist:Rate limiting, Caching, Error handling, Cost monitoring, Human-in-the-loop
1. 用 Claude Computer Use API 让 Agent 操作浏览器完成任务
(例:自动填表、自动测试网页)
2. 为 Multi-Agent 系统添加完整 Agent Ops:
- LangSmith tracing — 跨 Agent 的完整调用链
- 自动化评估 pipeline
- Input/Output guardrails
提交 Production Agent 部署方案:
包含:
- 监控策略(用什么指标判断 Agent 健康)
- Guardrails 配置(哪些行为要拦截)
- Cost 预算(每月预估 Token 消耗和费用)
- Human-in-the-loop 触发条件(什么时候需要人介入)