模型评测 (Evaluation) 与优化
Source: Google Cloud "Generative AI Evaluation" Target: AI Ops & Engineering Managers Estimated Time: 25 mins
为什么评测很重要?
如果你改了一个 Prompt,你怎么知道它是变好了还是变差了? 在 AI 工程中,评测 (Evaluation) 决定了你的应用能否从 demo 走向生产。
评测的三大挑战
- 非确定性: 同一个 Prompt 跑两遍,结果可能不一样。
- 主观性: “这个回答写得好不好”很难用传统公式计算。
- 规模化: 人工去读 1000 条测试结果是不现实的。
Google 的评测方案:Auto-Evaluation
Vertex AI 提供了自动评测工具,主要指标包括:
- Faithfulness (诚实度): 回答是否严格基于上下文,有没有胡编乱造?
- Answer Relevance (相关性): 回答是否真正解决了用户的问题?
- Safety (安全性): 是否包含有害内容?
LLM-as-a-Judge (AI 当裁判)
这是一种前沿方法:让一个更高级的模型(比如 Gemini 1.5 Pro)去给一个较小模型(比如 Gemini 1.5 Flash)的输出打分。通过预设的 Evaluation Rubrics (评分量表),可以实现极高的自动化评分。
优化闭环 (Optimization Loop)
- Define Dataset: 准备 50-100 个典型的问题与预期答案。
- Run Pipeline: 运行评测脚本。
- Analyze Failure: 找出得分最低的 case。
- Iterate Prompt: 针对性修改 Prompt 或调整参数。
- Repeat: 重复上述过程直到得分达标。
Summary: 只有被量化的东西才能被优化。没有评测系统的 AI 应用,本质上是“靠运气在线”。