logo

模型评测 (Evaluation) 与优化

Source: Google Cloud "Generative AI Evaluation" Target: AI Ops & Engineering Managers Estimated Time: 25 mins

为什么评测很重要?

如果你改了一个 Prompt,你怎么知道它是变好了还是变差了? 在 AI 工程中,评测 (Evaluation) 决定了你的应用能否从 demo 走向生产。


评测的三大挑战

  1. 非确定性: 同一个 Prompt 跑两遍,结果可能不一样。
  2. 主观性: “这个回答写得好不好”很难用传统公式计算。
  3. 规模化: 人工去读 1000 条测试结果是不现实的。

Google 的评测方案:Auto-Evaluation

Vertex AI 提供了自动评测工具,主要指标包括:

  • Faithfulness (诚实度): 回答是否严格基于上下文,有没有胡编乱造?
  • Answer Relevance (相关性): 回答是否真正解决了用户的问题?
  • Safety (安全性): 是否包含有害内容?

LLM-as-a-Judge (AI 当裁判)

这是一种前沿方法:让一个更高级的模型(比如 Gemini 1.5 Pro)去给一个较小模型(比如 Gemini 1.5 Flash)的输出打分。通过预设的 Evaluation Rubrics (评分量表),可以实现极高的自动化评分。


优化闭环 (Optimization Loop)

  1. Define Dataset: 准备 50-100 个典型的问题与预期答案。
  2. Run Pipeline: 运行评测脚本。
  3. Analyze Failure: 找出得分最低的 case。
  4. Iterate Prompt: 针对性修改 Prompt 或调整参数。
  5. Repeat: 重复上述过程直到得分达标。

Summary: 只有被量化的东西才能被优化。没有评测系统的 AI 应用,本质上是“靠运气在线”。

Google AI Essentials
AI Engineer

Google AI Essentials

An English entry point to JR Academy curated Google AI learning materials and practical references.

Google AI Essentials模型评测与优化

模型评测 (Evaluation) 与优化

Source: Google Cloud "Generative AI Evaluation" Target: AI Ops & Engineering Managers Estimated Time: 25 mins

#为什么评测很重要?

如果你改了一个 Prompt,你怎么知道它是变好了还是变差了? 在 AI 工程中,评测 (Evaluation) 决定了你的应用能否从 demo 走向生产。


#评测的三大挑战

  1. 非确定性: 同一个 Prompt 跑两遍,结果可能不一样。
  2. 主观性: “这个回答写得好不好”很难用传统公式计算。
  3. 规模化: 人工去读 1000 条测试结果是不现实的。

#Google 的评测方案:Auto-Evaluation

Vertex AI 提供了自动评测工具,主要指标包括:

  • Faithfulness (诚实度): 回答是否严格基于上下文,有没有胡编乱造?
  • Answer Relevance (相关性): 回答是否真正解决了用户的问题?
  • Safety (安全性): 是否包含有害内容?

#LLM-as-a-Judge (AI 当裁判)

这是一种前沿方法:让一个更高级的模型(比如 Gemini 1.5 Pro)去给一个较小模型(比如 Gemini 1.5 Flash)的输出打分。通过预设的 Evaluation Rubrics (评分量表),可以实现极高的自动化评分。


#优化闭环 (Optimization Loop)

  1. Define Dataset: 准备 50-100 个典型的问题与预期答案。
  2. Run Pipeline: 运行评测脚本。
  3. Analyze Failure: 找出得分最低的 case。
  4. Iterate Prompt: 针对性修改 Prompt 或调整参数。
  5. Repeat: 重复上述过程直到得分达标。

Summary: 只有被量化的东西才能被优化。没有评测系统的 AI 应用,本质上是“靠运气在线”。