logo
📊
AI Learning

AI 数据分析

用 AI 把数据变洞察

📊LLM 结果复核与对比

LLM 结果复核与对比

多模型/多方法交叉验证

Trust but Verify (信任但验证)

LLM 是概率模型,它没有“真理”的概念,只有“最可能的下一个词”。因此,它的计算能力(尤其是不使用 Code Interpreter 时)是不可靠的。

交叉验证策略

三种验证模式
  • Code vs LLM: 强制要求 AI 写代码(Python/SQL)来计算,而不是直接让它“口算”。代码执行的结果通常是可信的。
  • Model vs Model: 用 GPT-4o 生成分析,用 Claude 3.5 Sonnet 进行 Review。让两个最强大脑互斥。
  • Human in the Loop: 关键指标(如财务数据)必须由人工回溯原始数据进行抽样比对。

实战:搭建自动 Review 流程

我们可以构建一个简单的 Agent 流程:分析者 (Analyst) -> 审查者 (Reviewer)。

模拟 Review 流程
analyst_prompt = "请分析这份数据,找出销售下滑原因。"
analysis_result = call_llm(analyst_prompt)

reviewer_prompt = f"""
以下是一份数据分析报告:
{analysis_result}

请作为资深数据专家进行审查:
1. 逻辑是否存在漏洞?
2. 数据引用是否准确?
3. 结论是否过于武断?
请给出评分(0-10)和修改建议。
"""
review_result = call_llm(reviewer_prompt)

评估维度与打分

维度关注点最低要求
准确性结论是否可由数据支持关键指标误差 < 3%
可追溯性是否给出 SQL/代码必须提供可复核路径
业务一致性是否符合业务规则不触碰已知约束
成本Token/执行时间在可接受预算内

小样本核验流程

  • 1. 从结果中抽取 5-10 条样本记录。
  • 2. 逐条追溯原始数据来源(SQL/日志/原表)。
  • 3. 对关键指标进行手工或独立脚本验证。
  • 4. 记录差异原因,并更新 Prompt 或数据规则。

成本与质量平衡

  • 分层模型: 简单问题用小模型,复杂问题用大模型。
  • 缓存结果: 对重复问题使用缓存,减少重复调用。
  • 输出限长: 明确要求“最多 5 条结论”,控制 token 消耗。