Google 的评测方案：Auto-Evaluation

Vertex AI 提供了自动评测工具，主要指标包括：

Faithfulness (诚实度): 回答是否严格基于上下文，有没有胡编乱造？

Answer Relevance (相关性): 回答是否真正解决了用户的问题？

Safety (安全性): 是否包含有害内容？

LLM-as-a-Judge (AI 当裁判)

这是一种前沿方法：让一个更高级的模型（比如 Gemini 1.5 Pro）去给一个较小模型（比如 Gemini 1.5 Flash）的输出打分。通过预设的 Evaluation Rubrics (评分量表)，可以实现极高的自动化评分。

优化闭环 (Optimization Loop)

Define Dataset: 准备 50-100 个典型的问题与预期答案。

Run Pipeline: 运行评测脚本。

Analyze Failure: 找出得分最低的 case。

Iterate Prompt: 针对性修改 Prompt 或调整参数。

Repeat: 重复上述过程直到得分达标。

Summary: 只有被量化的东西才能被优化。没有评测系统的 AI 应用，本质上是“靠运气在线”。

模型评测 (Evaluation) 与优化

Source: Google Cloud "Generative AI Evaluation" Target: AI Ops & Engineering Managers Estimated Time: 25 mins

#为什么评测很重要？

如果你改了一个 Prompt，你怎么知道它是变好了还是变差了？在 AI 工程中，评测 (Evaluation) 决定了你的应用能否从 demo 走向生产。

Vertex AI 提供了自动评测工具，主要指标包括：

Summary: 只有被量化的东西才能被优化。没有评测系统的 AI 应用，本质上是“靠运气在线”。