logo

模型评测 (Evaluation) 与优化

Source: Google Cloud "Generative AI Evaluation" Target: AI Ops & Engineering Managers Estimated Time: 25 mins

为什么评测很重要?

如果你改了一个 Prompt,你怎么知道它是变好了还是变差了? 在 AI 工程中,评测 (Evaluation) 决定了你的应用能否从 demo 走向生产。


评测的三大挑战

  1. 非确定性: 同一个 Prompt 跑两遍,结果可能不一样。
  2. 主观性: “这个回答写得好不好”很难用传统公式计算。
  3. 规模化: 人工去读 1000 条测试结果是不现实的。

Google 的评测方案:Auto-Evaluation

Vertex AI 提供了自动评测工具,主要指标包括:

  • Faithfulness (诚实度): 回答是否严格基于上下文,有没有胡编乱造?
  • Answer Relevance (相关性): 回答是否真正解决了用户的问题?
  • Safety (安全性): 是否包含有害内容?

LLM-as-a-Judge (AI 当裁判)

这是一种前沿方法:让一个更高级的模型(比如 Gemini 1.5 Pro)去给一个较小模型(比如 Gemini 1.5 Flash)的输出打分。通过预设的 Evaluation Rubrics (评分量表),可以实现极高的自动化评分。


优化闭环 (Optimization Loop)

  1. Define Dataset: 准备 50-100 个典型的问题与预期答案。
  2. Run Pipeline: 运行评测脚本。
  3. Analyze Failure: 找出得分最低的 case。
  4. Iterate Prompt: 针对性修改 Prompt 或调整参数。
  5. Repeat: 重复上述过程直到得分达标。

Summary: 只有被量化的东西才能被优化。没有评测系统的 AI 应用,本质上是“靠运气在线”。

Google AI 官方精华
AI Engineer

Google AI 官方精华

由 Google 官方出品的 AI 核心系列课程,由 JR Academy 深度汉化并永久保存。

Google AI 官方精华模型评测与优化

模型评测 (Evaluation) 与优化

Source: Google Cloud "Generative AI Evaluation" Target: AI Ops & Engineering Managers Estimated Time: 25 mins

#为什么评测很重要?

如果你改了一个 Prompt,你怎么知道它是变好了还是变差了? 在 AI 工程中,评测 (Evaluation) 决定了你的应用能否从 demo 走向生产。


#评测的三大挑战

  1. 非确定性: 同一个 Prompt 跑两遍,结果可能不一样。
  2. 主观性: “这个回答写得好不好”很难用传统公式计算。
  3. 规模化: 人工去读 1000 条测试结果是不现实的。

#Google 的评测方案:Auto-Evaluation

Vertex AI 提供了自动评测工具,主要指标包括:

  • Faithfulness (诚实度): 回答是否严格基于上下文,有没有胡编乱造?
  • Answer Relevance (相关性): 回答是否真正解决了用户的问题?
  • Safety (安全性): 是否包含有害内容?

#LLM-as-a-Judge (AI 当裁判)

这是一种前沿方法:让一个更高级的模型(比如 Gemini 1.5 Pro)去给一个较小模型(比如 Gemini 1.5 Flash)的输出打分。通过预设的 Evaluation Rubrics (评分量表),可以实现极高的自动化评分。


#优化闭环 (Optimization Loop)

  1. Define Dataset: 准备 50-100 个典型的问题与预期答案。
  2. Run Pipeline: 运行评测脚本。
  3. Analyze Failure: 找出得分最低的 case。
  4. Iterate Prompt: 针对性修改 Prompt 或调整参数。
  5. Repeat: 重复上述过程直到得分达标。

Summary: 只有被量化的东西才能被优化。没有评测系统的 AI 应用,本质上是“靠运气在线”。