LLM 结果复核与对比
多模型/多方法交叉验证
Trust but Verify (信任但验证)
LLM 是概率模型,它没有“真理”的概念,只有“最可能的下一个词”。因此,它的计算能力(尤其是不使用 Code Interpreter 时)是不可靠的。
交叉验证策略
三种验证模式
- Code vs LLM: 强制要求 AI 写代码(Python/SQL)来计算,而不是直接让它“口算”。代码执行的结果通常是可信的。
- Model vs Model: 用 GPT-4o 生成分析,用 Claude 3.5 Sonnet 进行 Review。让两个最强大脑互斥。
- Human in the Loop: 关键指标(如财务数据)必须由人工回溯原始数据进行抽样比对。
实战:搭建自动 Review 流程
我们可以构建一个简单的 Agent 流程:分析者 (Analyst) -> 审查者 (Reviewer)。
模拟 Review 流程
analyst_prompt = "请分析这份数据,找出销售下滑原因。"
analysis_result = call_llm(analyst_prompt)
reviewer_prompt = f"""
以下是一份数据分析报告:
{analysis_result}
请作为资深数据专家进行审查:
1. 逻辑是否存在漏洞?
2. 数据引用是否准确?
3. 结论是否过于武断?
请给出评分(0-10)和修改建议。
"""
review_result = call_llm(reviewer_prompt)评估维度与打分
| 维度 | 关注点 | 最低要求 |
|---|---|---|
| 准确性 | 结论是否可由数据支持 | 关键指标误差 < 3% |
| 可追溯性 | 是否给出 SQL/代码 | 必须提供可复核路径 |
| 业务一致性 | 是否符合业务规则 | 不触碰已知约束 |
| 成本 | Token/执行时间 | 在可接受预算内 |
小样本核验流程
- 1. 从结果中抽取 5-10 条样本记录。
- 2. 逐条追溯原始数据来源(SQL/日志/原表)。
- 3. 对关键指标进行手工或独立脚本验证。
- 4. 记录差异原因,并更新 Prompt 或数据规则。
成本与质量平衡
- 分层模型: 简单问题用小模型,复杂问题用大模型。
- 缓存结果: 对重复问题使用缓存,减少重复调用。
- 输出限长: 明确要求“最多 5 条结论”,控制 token 消耗。