可观测性 (Observability)
Agent 是一个黑盒。当它回答错误时,你不知道是检索错了,还是推理错了,还是工具调用错了。 可观测性工具通过 Tracing (链路追踪) 帮你打开这个黑盒。
[PROMPT_LAB_BANNER]
1. 什么是 Tracing?
Tracing 记录了 Agent 处理一个请求的全过程。每一个步骤(LLM 调用、Tool 调用、检索)都是一个 Span。
一个典型的 Trace 视图:
Run: "帮我查一下 Google 股价" (Total: 3s)
├── Retriever: search_docs (0.5s) -> 找到 "Google 财报.pdf"
├── LLM: GPT-4o (1.5s)
│ ├── Input: "根据 Google 财报..."
│ └── Output: "Thinking: 我需要调用工具..."
├── Tool: get_stock_price("GOOGL") (0.8s) -> 返回 $175
└── LLM: Final Answer (0.2s) -> "Google 股价为 $175"
2. 主流工具
| 工具 | 厂商 | 特点 |
|---|---|---|
| LangSmith | LangChain 官方 | 深度集成 LangChain,UI 极其友好,支持 Playground 调试。 |
| Arize Phoenix | Arize AI | 开源,专注于 RAG 的评估和可视化。 |
| Weights & Biases | W&B | 机器学习领域的通用品台,现在也支持 LLM Tracing。 |
3. 实战:接入 LangSmith
LangSmith 是目前体验最好的 Tracing 平台。接入非常简单,通常只需要设置环境变量。
export LANGCHAIN_TRACING_V2=true
export LANGCHAIN_API_KEY=your_api_key
一旦开启,你运行的所有 LangChain 代码都会自动上报 Trace。你可以登录后台看到:
- 每一轮对话的 Token 消耗和费用。
- 每一个 Prompt 的完整输入输出。
- 每一处报错的堆栈信息。
4. 关键监控指标 (Metrics)
除了看 Trace,你还应该监控以下指标:
- Latency (延迟): P99 延迟是多少?太慢会影响用户体验。
- Token Usage: 成本监控。有没有某个 Prompt 突然消耗了大量 Token?
- Feedback Score: 用户点的赞/踩。这是最真实的质量反馈。
小结
- Dev 阶段:用 Tracing 调试 Prompt,找出逻辑漏洞。
- Prod 阶段:用 Metrics 监控成本和性能,报警异常。
- 不要裸奔:上线前务必接入一种可观测性工具。