AI Agent 认知架构详解 (Cognitive Architecture)
构建一个能够真正“思考”和“行动”的 AI Agent,需要的不仅仅是调用一个 API。你需要为它设计一个完整的大脑结构。
本文将深入拆解 Agent 的四大核心组件:Brain (大脑)、Memory (记忆)、Planning (规划) 和 Tools (工具)。
[PROMPT_LAB_BANNER]
1. 经典架构图 (Lilian Weng)
OpenAI 的 Lilian Weng 在其经典博文中提出了 Agent 的通用架构,这也是目前业界公认的标准模型:
(图片来源: Lilian Weng Blog)
2. The Brain (大脑):LLM 的推理核心
Agent 的核心是大型语言模型 (LLM),它充当了中央处理器 (CPU) 的角色。
核心职责:
- 语义理解:将用户的自然语言指令转化为结构化的任务。
- 逻辑推理:基于已知信息进行演绎推理(如果 A 则 B)。
- 决策制定:在多个候选方案中选择最优解。
选型建议:
- 复杂推理任务 (Planning/Coding):首选 Claude 3.5 Sonnet 或 GPT-4o。这些模型具备强大的指令遵循能力和逻辑一致性。
- 简单执行任务 (Execution):可以使用 Gemini 1.5 Flash 或 GPT-4o-mini,速度快且成本低。
3. Memory (记忆):打破 Context Window 的限制
如果 Agent 只有大脑没有记忆,它就是一条只有 7 秒记忆的金鱼。记忆系统让 Agent 能够积累经验和知识。
A. 短期记忆 (Short-term Memory)
即上下文窗口 (Context Window)。
- 存储当前对话的历史记录。
- 挑战:Token 数量有限(虽然现在已有 1M+ Token 模型,但全部塞入会降低推理精度)。
- 策略:使用滑动窗口 (Sliding Window) 或关键信息摘要 (Summarization)。
B. 长期记忆 (Long-term Memory)
通过 RAG (检索增强生成) 技术实现。
- 存储:将文档、日志、历史经验转化为向量 (Embedding) 存入向量数据库 (如 Pinecone, ChromaDB)。
- 检索:Agent 在遇到新问题时,先去数据库里“回忆”是否有类似经验。
sequenceDiagram
participant User
participant Agent
participant VectorDB
User->>Agent: 提问: "上次会议关于 API 的结论是什么?"
Agent->>VectorDB: 搜索相似向量 (Query Embedding)
VectorDB-->>Agent: 返回相关会议记录片段 (Top K Chunks)
Agent->>Agent: 注入 Context 并推理
Agent-->>User: 回答: "上次会议决定..."
4. Planning (规划):从无序到有序
面对复杂任务(如“帮我写一个电商网站”),Agent 需要具备将宏观目标拆解为微观指令的能力。
A. 任务分解 (Decomposition)
- Chain of Thought (CoT):引导模型一步步思考,“首先...其次...最后...”。
- Tree of Thoughts (ToT):探索多种可能的路径,并通过自我评估选择最佳路径(类似下棋)。
B. 自我反思 (Self-Reflection)
Agent 在执行动作后,需要观察结果并评估是否成功。
- “我刚刚运行了代码,报错了。看来我需要检查一下依赖库是否安装。”
- 这种 ReAct (Reason + Act) 循环是 Agent 智能的体现。
5. Tools (工具):连接物理世界
工具让 Agent 从“思想家”变成了“实干家”。
常见工具类型:
- 信息获取:Google Search, Wikipedia, Stock API。
- 代码执行:Python REPL (Read-Eval-Print Loop),用于计算、绘图。
- 文件操作:读写本地文件、操作 Git。
- SaaS 集成:发送 Slack 消息、创建 Jira Ticket、更新 Notion。
协议标准:
- Function Calling:OpenAI/Gemini 定义的 JSON Schema 标准。
- MCP (Model Context Protocol):Anthropic 提出的通用接口标准,旨在统一工具连接方式。
架构图总结
graph TD
User[用户指令] --> Brain[LLM (大脑)]
subgraph Cognitive_Architecture ["认知架构"]
Brain <--> Planning[规划模块<br/>(CoT, ReAct)]
Brain <--> Memory[记忆模块<br/>(RAG, VectorDB)]
Brain <--> Tools[工具模块<br/>(API, MCP)]
end
Tools --> Environment[外部环境<br/>(GitHub, Browser, DB)]
Environment --> Observation[观察结果]
Observation --> Brain
小结
设计 Agent 就像设计一个公司组织架构:
- Brain 是 CEO,负责决策。
- Planning 是项目经理,负责拆解任务。
- Memory 是档案室,负责存储知识。
- Tools 是执行部门,负责干活。
只有这四者协同工作,才能构建出真正强大的 AI Agent。