logo

AI Agent 认知架构详解 (Cognitive Architecture)

构建一个能够真正“思考”和“行动”的 AI Agent,需要的不仅仅是调用一个 API。你需要为它设计一个完整的大脑结构。

本文将深入拆解 Agent 的四大核心组件:Brain (大脑)Memory (记忆)Planning (规划)Tools (工具)

[PROMPT_LAB_BANNER]


1. 经典架构图 (Lilian Weng)

OpenAI 的 Lilian Weng 在其经典博文中提出了 Agent 的通用架构,这也是目前业界公认的标准模型:

LLM Powered Autonomous Agent System (图片来源: Lilian Weng Blog)


2. The Brain (大脑):LLM 的推理核心

Agent 的核心是大型语言模型 (LLM),它充当了中央处理器 (CPU) 的角色。

核心职责:

  • 语义理解:将用户的自然语言指令转化为结构化的任务。
  • 逻辑推理:基于已知信息进行演绎推理(如果 A 则 B)。
  • 决策制定:在多个候选方案中选择最优解。

选型建议:

  • 复杂推理任务 (Planning/Coding):首选 Claude 3.5 SonnetGPT-4o。这些模型具备强大的指令遵循能力和逻辑一致性。
  • 简单执行任务 (Execution):可以使用 Gemini 1.5 FlashGPT-4o-mini,速度快且成本低。

3. Memory (记忆):打破 Context Window 的限制

如果 Agent 只有大脑没有记忆,它就是一条只有 7 秒记忆的金鱼。记忆系统让 Agent 能够积累经验和知识。

A. 短期记忆 (Short-term Memory)

上下文窗口 (Context Window)

  • 存储当前对话的历史记录。
  • 挑战:Token 数量有限(虽然现在已有 1M+ Token 模型,但全部塞入会降低推理精度)。
  • 策略:使用滑动窗口 (Sliding Window) 或关键信息摘要 (Summarization)。

B. 长期记忆 (Long-term Memory)

通过 RAG (检索增强生成) 技术实现。

  • 存储:将文档、日志、历史经验转化为向量 (Embedding) 存入向量数据库 (如 Pinecone, ChromaDB)。
  • 检索:Agent 在遇到新问题时,先去数据库里“回忆”是否有类似经验。
sequenceDiagram
    participant User
    participant Agent
    participant VectorDB
    
    User->>Agent: 提问: "上次会议关于 API 的结论是什么?"
    Agent->>VectorDB: 搜索相似向量 (Query Embedding)
    VectorDB-->>Agent: 返回相关会议记录片段 (Top K Chunks)
    Agent->>Agent: 注入 Context 并推理
    Agent-->>User: 回答: "上次会议决定..."

4. Planning (规划):从无序到有序

面对复杂任务(如“帮我写一个电商网站”),Agent 需要具备将宏观目标拆解为微观指令的能力。

A. 任务分解 (Decomposition)

  • Chain of Thought (CoT):引导模型一步步思考,“首先...其次...最后...”。
  • Tree of Thoughts (ToT):探索多种可能的路径,并通过自我评估选择最佳路径(类似下棋)。

B. 自我反思 (Self-Reflection)

Agent 在执行动作后,需要观察结果并评估是否成功。

  • “我刚刚运行了代码,报错了。看来我需要检查一下依赖库是否安装。”
  • 这种 ReAct (Reason + Act) 循环是 Agent 智能的体现。

5. Tools (工具):连接物理世界

工具让 Agent 从“思想家”变成了“实干家”。

常见工具类型:

  • 信息获取:Google Search, Wikipedia, Stock API。
  • 代码执行:Python REPL (Read-Eval-Print Loop),用于计算、绘图。
  • 文件操作:读写本地文件、操作 Git。
  • SaaS 集成:发送 Slack 消息、创建 Jira Ticket、更新 Notion。

协议标准:

  • Function Calling:OpenAI/Gemini 定义的 JSON Schema 标准。
  • MCP (Model Context Protocol):Anthropic 提出的通用接口标准,旨在统一工具连接方式。

架构图总结

graph TD
    User[用户指令] --> Brain[LLM (大脑)]
    
    subgraph Cognitive_Architecture ["认知架构"]
        Brain <--> Planning[规划模块<br/>(CoT, ReAct)]
        Brain <--> Memory[记忆模块<br/>(RAG, VectorDB)]
        Brain <--> Tools[工具模块<br/>(API, MCP)]
    end
    
    Tools --> Environment[外部环境<br/>(GitHub, Browser, DB)]
    Environment --> Observation[观察结果]
    Observation --> Brain

小结

设计 Agent 就像设计一个公司组织架构:

  1. Brain 是 CEO,负责决策。
  2. Planning 是项目经理,负责拆解任务。
  3. Memory 是档案室,负责存储知识。
  4. Tools 是执行部门,负责干活。

只有这四者协同工作,才能构建出真正强大的 AI Agent。

AI Agent 开发实战手册
AI Engineer

AI Agent 开发实战手册

从 0 到 1 掌握 AI Agent 开发:涵盖自主计划、工具调用、MCP 协议与多智能体编排实战。

AI Agent 开发实战手册认知架构详解

AI Agent 认知架构详解 (Cognitive Architecture)

构建一个能够真正“思考”和“行动”的 AI Agent,需要的不仅仅是调用一个 API。你需要为它设计一个完整的大脑结构。

本文将深入拆解 Agent 的四大核心组件:Brain (大脑)Memory (记忆)Planning (规划)Tools (工具)

Prompt Lab

把这章的知识,直接变成实战能力

进入交互式实验室,用真实任务练 Prompt,10 分钟快速上手。

进入 Prompt Lab →

#1. 经典架构图 (Lilian Weng)

OpenAI 的 Lilian Weng 在其经典博文中提出了 Agent 的通用架构,这也是目前业界公认的标准模型:

LLM Powered Autonomous Agent System
LLM Powered Autonomous Agent System
(图片来源: Lilian Weng Blog)


#2. The Brain (大脑):LLM 的推理核心

Agent 的核心是大型语言模型 (LLM),它充当了中央处理器 (CPU) 的角色。

#核心职责:

  • 语义理解:将用户的自然语言指令转化为结构化的任务。
  • 逻辑推理:基于已知信息进行演绎推理(如果 A 则 B)。
  • 决策制定:在多个候选方案中选择最优解。

#选型建议:

  • 复杂推理任务 (Planning/Coding):首选 Claude 3.5 SonnetGPT-4o。这些模型具备强大的指令遵循能力和逻辑一致性。
  • 简单执行任务 (Execution):可以使用 Gemini 1.5 FlashGPT-4o-mini,速度快且成本低。

#3. Memory (记忆):打破 Context Window 的限制

如果 Agent 只有大脑没有记忆,它就是一条只有 7 秒记忆的金鱼。记忆系统让 Agent 能够积累经验和知识。

#A. 短期记忆 (Short-term Memory)

上下文窗口 (Context Window)

  • 存储当前对话的历史记录。
  • 挑战:Token 数量有限(虽然现在已有 1M+ Token 模型,但全部塞入会降低推理精度)。
  • 策略:使用滑动窗口 (Sliding Window) 或关键信息摘要 (Summarization)。

#B. 长期记忆 (Long-term Memory)

通过 RAG (检索增强生成) 技术实现。

  • 存储:将文档、日志、历史经验转化为向量 (Embedding) 存入向量数据库 (如 Pinecone, ChromaDB)。
  • 检索:Agent 在遇到新问题时,先去数据库里“回忆”是否有类似经验。
sequenceDiagram participant User participant Agent participant VectorDB User->>Agent: 提问: "上次会议关于 API 的结论是什么?" Agent->>VectorDB: 搜索相似向量 (Query Embedding) VectorDB-->>Agent: 返回相关会议记录片段 (Top K Chunks) Agent->>Agent: 注入 Context 并推理 Agent-->>User: 回答: "上次会议决定..."

#4. Planning (规划):从无序到有序

面对复杂任务(如“帮我写一个电商网站”),Agent 需要具备将宏观目标拆解为微观指令的能力。

#A. 任务分解 (Decomposition)

  • Chain of Thought (CoT):引导模型一步步思考,“首先...其次...最后...”。
  • Tree of Thoughts (ToT):探索多种可能的路径,并通过自我评估选择最佳路径(类似下棋)。

#B. 自我反思 (Self-Reflection)

Agent 在执行动作后,需要观察结果并评估是否成功。

  • “我刚刚运行了代码,报错了。看来我需要检查一下依赖库是否安装。”
  • 这种 ReAct (Reason + Act) 循环是 Agent 智能的体现。

#5. Tools (工具):连接物理世界

工具让 Agent 从“思想家”变成了“实干家”。

#常见工具类型:

  • 信息获取:Google Search, Wikipedia, Stock API。
  • 代码执行:Python REPL (Read-Eval-Print Loop),用于计算、绘图。
  • 文件操作:读写本地文件、操作 Git。
  • SaaS 集成:发送 Slack 消息、创建 Jira Ticket、更新 Notion。

#协议标准:

  • Function Calling:OpenAI/Gemini 定义的 JSON Schema 标准。
  • MCP (Model Context Protocol):Anthropic 提出的通用接口标准,旨在统一工具连接方式。

#架构图总结

graph TD User[用户指令] --> Brain[LLM (大脑)] subgraph Cognitive_Architecture ["认知架构"] Brain <--> Planning[规划模块<br/>(CoT, ReAct)] Brain <--> Memory[记忆模块<br/>(RAG, VectorDB)] Brain <--> Tools[工具模块<br/>(API, MCP)] end Tools --> Environment[外部环境<br/>(GitHub, Browser, DB)] Environment --> Observation[观察结果] Observation --> Brain

#小结

设计 Agent 就像设计一个公司组织架构:

  1. Brain 是 CEO,负责决策。
  2. Planning 是项目经理,负责拆解任务。
  3. Memory 是档案室,负责存储知识。
  4. Tools 是执行部门,负责干活。

只有这四者协同工作,才能构建出真正强大的 AI Agent。

常见问题

开发 AI Agent 需要掌握哪些编程语言?
首选 Python 或 TypeScript。Python 是 AI 生态的基石,而 TypeScript 在开发 MCP Server 和网页端交互时效率极高。借助 Cursor 等 AI 原生编辑器,编程门槛已大幅降低。
MCP 协议目前支持哪些模型?
MCP 是开放协议,目前对 Claude 3.5 系列支持最完美。通过 MCP Proxy,GPT-4o 和 Gemini 也可以间接访问 MCP Server 数据源。
AI Agent 会导致程序员失业吗?
不会,但会改变程序员的工作内容。未来的开发者将从“写代码”转向“管理 Agent 团队”,重点在于系统架构设计、复杂逻辑校验和 Agent 的提示词优化。