Phase 3: AI Agents 工程化

Week 7-9 · 直播 + 项目 · Agent SDK + Multi-Agent + MCP + Production
Week 7 · Agent 基础 + Agent SDK 对比 直播 + 项目
7.1

Agent 基础 + ReAct + Function Calling

直播
📖 教学内容

Agent = LLM + 推理 + 工具调用 + 记忆 — 不是聊天机器人,是能自主完成任务的系统

ReAct Framework:Reasoning + Action 交替执行
- Thought → Action → Observation → Thought → ...
- 比纯 Prompt 更可靠,因为 Agent 每步都在"想"下一步该干什么

Function Calling / Tool Use
- OpenAI function calling API
- Claude tool use API
- 定义 Tool Schema,让 LLM 知道有哪些工具可用

从零写一个 ReAct Agent:纯 Python,不依赖任何框架,理解 Agent 本质

OpenAI FunctionsClaude Tool UsePython
🔬 Lab 实操

1. 实现 ReAct Agent — 手写 Thought/Action/Observation 循环
2. 给 Agent 加 3 个工具:
  - Web Search(Tavily/SerpAPI)
  - RAG Retriever(Phase 2 的成果)
  - Calculator
3. 给一个复杂问题,观察 Agent 如何拆解 → 调用工具 → 组合结果

🤖 Agent 任务完成率评测
📋 作业

用纯 Python Agent + 至少 3 个工具,构建综合 Agent 应用:
1. 搜索网络获取实时信息
2. 检索本地知识库
3. 做数据计算

不允许用 LangChain,目的是理解 Agent 底层机制

👨‍🏫 Agent 设计 Review
7.2

Agent SDK 对比: OpenAI / Claude / Google ADK

直播
📖 教学内容

为什么 2026 年有 3 个主流 Agent SDK — LangChain 不再是唯一选择

OpenAI Agents SDK
- Handoff 模式,API 最简洁,适合快速原型
- 多 Agent 通过 handoff 传递控制权

Claude Agent SDK
- MCP 原生集成,工具集成最深
- 沙盒执行环境,安全性高

Google ADK (Agent Development Kit)
- A2A 协议原生支持,企业级多 Agent 编排
- 与 Google Cloud 深度集成

三者对比维度:API 设计 / 工具集成 / 多 Agent 支持 / 可观测性 / 生态
决策矩阵:什么场景选哪个 SDK

OpenAI Agents SDKClaude Agent SDKGoogle ADK
🔬 Lab 实操

同一个任务,3 个 SDK 分别实现
任务:Research Agent — 搜索 → 分析 → 生成报告

1. 用 OpenAI Agents SDK 实现
2. 用 Claude Agent SDK 实现
3. 用 Google ADK 实现
4. 对比:代码量、开发体验、延迟、可控性
5. 记录对比报告

🤖 SDK 对比报告生成
📋 作业

为 ISA 项目选择 Agent SDK,写技术选型文档:

包含:
- 为什么选这个 SDK
- 替代方案的 trade-off 分析
- 代码示例对比
- 成本和性能预估

👨‍🏫 老师点评技术选型
📹 Week 7 录播/自学
INFO
Agent SDK 对比全景 — OpenAI vs Claude vs Google ADK vs LangGraph
四大 Agent SDK 的架构设计、API 风格、适用场景完整对比
INFO
Deploying and Operating RAG in Production
RAG 生产化:缓存策略、监控指标、错误恢复、成本控制
Week 8 · Multi-Agent + Agent Memory + A2A 直播 + 项目
8.1

Multi-Agent Architectures + LangGraph

直播
📖 教学内容

三种多 Agent 架构
1. Hierarchical — Boss Agent 分配任务给 Worker Agents
2. Collaborative — Agent 之间平等协作,共享上下文
3. Supervised — Supervisor 监控 Agent 行为,可以打断和修正

LangGraph 深度实操
- StateGraph — 定义 Agent 状态和转换
- Nodes — 每个 Agent 是一个 Node
- Edges — 条件路由(conditional edges)
- Checkpointing — 长时间运行的 Agent 状态保存

何时用 Multi-Agent:任务复杂度决策矩阵
状态管理:Agent 之间如何传递上下文和中间结果

LangGraphLangSmith
🔬 Lab 实操

用 LangGraph 构建 4-Agent 系统:
1. Query Router — 判断问题类型
2. Retrieval Agent — 多源检索
3. Generation Agent — 综合回答
4. Evaluation Agent — 自动评估答案质量

5. 状态图可视化 — 观察 Agent 之间的消息传递
6. LangSmith 全链路监控

👨‍🏫 项目 Demo Day
📋 作业

部署 Multi-Agent RAG 到云端

提交:
- LangGraph 状态图可视化
- LangSmith Trace 分析报告
- Demo URL

👨‍🏫 部署验证
8.2

Agent Memory Architecture

直播
📖 教学内容

记忆是 Demo 和 Production Agent 的分水岭 — 没有记忆的 Agent 每次对话都是失忆状态

三层记忆架构
1. Episodic Memory — 原始交互历史(对话记录)
2. Semantic Memory — 从交互中提取的知识(Embedding 存储)
3. State Memory — 当前任务的运行状态

Mem0 框架:自动记忆提取 + 图记忆 (Graph Memory)
- 自动从对话中抽取关键信息存储
- 用知识图谱存储实体关系,Agent 可以跨会话关联信息

对比:ConversationBufferMemory (LangChain) vs Mem0 vs 自建记忆系统

Mem0LangChain MemoryNeo4j
🔬 Lab 实操

1. 给 Week 7 的 Agent 加 Mem0 记忆层
2. 对比测试:有记忆 vs 无记忆 Agent 在多轮对话中的表现
3. 实现 Graph Memory:Agent 自动提取实体关系并存储到 Neo4j
4. 跨会话测试:关掉对话再开,Agent 是否还记得你

🤖 记忆能力评测
📋 作业

为 ISA 升级记忆能力:

测试标准:
- 10 轮对话后,Agent 是否记住用户偏好
- 跨会话是否保留历史上下文
- Graph Memory 是否正确提取实体关系

提交测试报告 + 记忆架构图

👨‍🏫 Memory 架构 Review
8.3

A2A Protocol + Agent 互操作

直播
📖 教学内容

Agent 协议生态 2026
- MCP (Model Context Protocol) — Agent 连接工具
- A2A (Agent-to-Agent) — Agent 之间通信
- ACP (Agent Communication Protocol) — Agent 协作

A2A 协议:Google 发起,50+ 合作伙伴
- Agent Card — 能力声明("我能做什么")
- Task — 任务委托("帮我做这件事")
- Channel — 通信通道(streaming/polling)

MCP + A2A 组合使用:MCP 连接工具,A2A 连接其他 Agent
实际场景:你的 Agent 调用公司内部另一个团队的 Agent

A2A SDKMCP SDK
🔬 Lab 实操

1. 用 A2A 协议让 2 个 Agent 互相通信:
  - Agent A (研究) 委托 Agent B (分析) 处理数据
  - 通过 A2A Task 传递结果
2. 编写 Agent Card 声明 Agent 能力
3. 测试 Agent 发现 → 委托 → 结果返回的完整流程

🤖 A2A 通信验证
📋 作业

设计一个 MCP + A2A 组合架构:

1. 画出架构图:哪些用 MCP,哪些用 A2A
2. 实现 Agent Card 声明你的 Agent 能力
3. 写一份协议选型文档:什么场景用 MCP,什么场景用 A2A

👨‍🏫 协议架构 Review
📹 Week 8 录播/自学
INFO
Multi-Agent + Protocol Ecosystem Map 2026
MCP / A2A / ACP 协议关系图 + LangGraph / OpenAI / Claude / ADK 框架对比
INFO
Agent Memory 技术全景:Mem0 vs Zep vs LangMem
三大记忆框架对比:存储机制、Graph Memory 支持、生产可用性
Week 9 · MCP + Production Agents + Agent Ops 直播 + 项目
9.1

MCP Server 构建 + Production 集成

直播
📖 教学内容

MCP 快速回顾:Client (Claude/Cursor) → Server (你的工具) → Resources/Tools/Prompts

用 TypeScript 构建 MCP Server
- 暴露 Resources(数据源)和 Tools(操作)
- 定义 Prompts(预设交互模式)

MCP 生产化
- OAuth 认证 — 不是所有人都能调你的 MCP Server
- API Key 管理 — 多租户场景
- 审计日志 — 谁在什么时候调了什么工具

在 Claude Code / Cursor 中集成测试

MCP SDKTypeScriptClaude Code
🔬 Lab 实操

1. 用 TypeScript 构建一个连接真实数据源的 MCP Server
2. 暴露至少 3 个 Tools(CRUD + 查询 + 分析)
3. 在 Claude Code 中连接并测试
4. 添加 OAuth 认证层

👨‍🏫 MCP Server Review
📋 作业

为 ISA 构建专属 MCP Server:

- 连接 ISA 的知识库和工具
- 在 Claude Code 中通过 MCP 调用 ISA
- 部署并分享给同学测试

👨‍🏫 MCP 项目 Review
9.2

Production Agents: Computer Use + Agent Ops

直播
📖 教学内容

Computer Use / Browser Automation — Agent 操作真实软件,不只是调 API
- Claude Computer Use API — 截屏 → 识别 → 点击 → 验证
- ChatGPT Operator — OpenAI 的浏览器自动化方案
- Vercel agent-browser — 开源浏览器 Agent

Agent Ops 三大支柱
1. Observability — Trace 每个 Agent 推理过程 (LangSmith)
2. Evaluation — task completion rate, hallucination rate
3. Guardrails — 限制 Agent 行为边界、防止 prompt injection、input/output 过滤

生产部署 Checklist:Rate limiting, Caching, Error handling, Cost monitoring, Human-in-the-loop

LangSmithClaude Computer UseGuardrails
🔬 Lab 实操

1. 用 Claude Computer Use API 让 Agent 操作浏览器完成任务
  (例:自动填表、自动测试网页)
2. 为 Multi-Agent 系统添加完整 Agent Ops:
  - LangSmith tracing — 跨 Agent 的完整调用链
  - 自动化评估 pipeline
  - Input/Output guardrails

👨‍🏫 Production Review
📋 作业

提交 Production Agent 部署方案:

包含:
- 监控策略(用什么指标判断 Agent 健康)
- Guardrails 配置(哪些行为要拦截)
- Cost 预算(每月预估 Token 消耗和费用)
- Human-in-the-loop 触发条件(什么时候需要人介入)

👨‍🏫 Production Review
📹 Week 9 录播/自学
VIDEO
Introducing the Model Context Protocol (MCP)
MCP 协议概览:为什么需要标准化 AI 工具连接
VIDEO
解读 MCP 源码
TypeScript SDK 核心实现分析
INFO
Computer Use 技术全景 — Claude vs Operator vs agent-browser
三种 Browser Agent 方案对比:能力边界、安全模型、适用场景
INFO
Agent Ops 最佳实践
Observability + Evaluation + Guardrails 生产落地指南
INFO
MCP 发布指南
如何发布你的 MCP Server 到 npm/PyPI
INFO
Claude Code 技术原理
上下文管理与记忆机制深度解析