LLM evaluation
evaluation prompts(overview)
evaluation 的核心是:把评判标准写得足够清晰,让 LLM 以 judge 的角色给出可解释的比较或打分。目标不是“找一个完美答案”,而是建立稳定、可复用、可审计的评估流程。
学习路径(建议顺序)
- 入门:固定评分维度与输出格式
- 进阶:引入 rubric 与权重
- 实战:用评估结果驱动迭代
什么是 Evaluation Prompt?
Evaluation Prompt 是一种让模型扮演评审/裁判的提示方式,用于比较输出质量、给分、并说明理由。
┌─────────────────────────────────────────────────────────────┐
│ Evaluation Prompt 流程 │
├─────────────────────────────────────────────────────────────┤
│ │
│ 候选输出 → 评估标准 → 评分/排序 → 解释与建议 │
│ (A/B/多份) (Rubric) (分数/排名) (改进方向) │
│ │
└─────────────────────────────────────────────────────────────┘
为什么 Evaluation 很重要?
| 应用场景 | 具体用途 | 业务价值 |
|---|---|---|
| Prompt 迭代 | 选择更优版本 | 降低试错成本 |
| 内容生产 | 文案/摘要质量评估 | 提升一致性 |
| 模型对比 | 不同模型输出对比 | 辅助选型 |
| 标准化输出 | 自动打分与筛选 | 提升效率 |
业务产出(PM 视角)
使用 Evaluation Prompt 可以交付:
- 可量化对比结果(A/B 输出排名)
- 评估模板(可复用 rubric)
- 改进建议(用于 prompt 迭代)
完成标准(建议):
- 读完本页 + 完成 1 个练习 + 自检 1 次
核心 Prompt 结构
目标:评估候选输出
标准:评分维度与权重
格式:输出结构(分数/理由/结论)
输入:候选答案
通用模板
你是严格评审,请根据以下评分标准比较输出。
评分标准(每项 1-5 分):
1) 准确性
2) 清晰度
3) 完整性
候选输出:
A: {output_a}
B: {output_b}
输出格式:
- 分数:A=?, B=?
- 赢家:
- 理由(1-3 条):
Quick Start:A/B 对比
请比较两个回答,基于“准确性、清晰度、完整性”打分(1-5)。
A:答案 1
B:答案 2
示例 1:写作质量评估
评估以下两条产品文案,标准:简洁性、打动力、信息完整度。
A:轻便耐用,适合旅行。
B:超轻设计,30L 大容量,城市与旅行双场景。
示例 2:摘要质量评估
评估两个摘要,标准:覆盖关键点、表达清晰、不引入新信息。
示例 3:结构化评分(Rubric)
评分维度:
1) 准确性(40%)
2) 可读性(30%)
3) 结构性(30%)
输出:
- 总分(0-100)
- 分项得分
- 赢家
迁移模板(替换变量即可复用)
标准:{criteria}
候选:{outputs}
输出:分数 + 赢家 + 理由
自检清单(提交前自查)
- 评分维度是否清晰可执行?
- 是否避免模型引入新信息?
- 输出是否固定结构?
- 是否支持自动化解析?
进阶技巧
- 权重评分:不同指标赋予权重。
- 先给分再解释:避免理由反向影响评分。
- 三轮评估:多次评估取平均,减少偏差。
- 对齐目标:评分标准与业务目标一致。
- 输出改进建议:便于直接迭代。
常见问题与解决方案
| 问题 | 原因 | 解决方案 |
|---|---|---|
| 评分不一致 | 标准模糊 | 明确维度描述 |
| 输出冗长 | 无格式限制 | 固定字段 |
| 引入新信息 | 未限制 | 加“只基于输入” |
| 过度主观 | 缺少 rubric | 设计评分表 |
动手练习
练习 1:A/B 评估
评估两条课程简介,标准:清晰度、吸引力、信息完整度。
练习 2:多候选排序
对 3 个回答进行排序,并给出理由。
练习评分标准(学生自评)
| 维度 | 合格标准 |
|---|---|
| 标准清晰 | 评分维度可执行 |
| 输出稳定 | 分数与理由结构一致 |
| 可复用 | Rubric 可替换 |
| 可解析 | 输出可程序处理 |
Index
小结
- Evaluation Prompt 的关键是可执行评分标准。
- 固定输出结构便于对比与自动化。
- Rubric 能显著降低主观偏差。
- 输出建议可直接用于 prompt 迭代。
- 模板化提升复用效率。