Prompt A/B 测试

Step 4/6用数据评估 Prompt 效果

设计评估指标、测试流程和判断标准,科学验证 Prompt 修改的效果。

试试这样问:
Prompt 编辑器
运行次数:

知识点

**为什么 Prompt 需要 A/B 测试?** Prompt 修改的效果难以预测 —— "感觉更好"不等于"数据更好"。例如: - 让 Prompt 更简洁 → 回答可能遗漏关键信息 - 让 Prompt 更详细 → Token 成本可能翻倍 - 改变语气 → 满意度可能不升反降 **A/B 测试核心流程:** ``` 1. 假设 → 2. 指标设计 → 3. 样本量计算 → 4. 分流执行 → 5. 统计分析 → 6. 决策 ``` **分流方式:** - 用户级分流:同一用户始终看到同一版本(推荐) - 请求级分流:每次请求随机分配(适合无状态场景) - 比例:通常从 5%/95% 开始,逐步放量到 50%/50% **统计显著性:** - 使用 p-value < 0.05 作为判断标准 - 即有 95% 的置信度认为差异不是随机波动 - 样本量不够时,结果不可信 —— 宁可多测几天
A/B 测试的核心是"让数据说话" —— 没有足够样本量的测试不如不测

关于本 Lab

修改 Prompt 后效果是好是坏?不能凭感觉!本 Lab 将教你如何设计 Prompt A/B 测试,用数据驱动的方式评估和优化 Prompt 效果。

学习目标

  • 理解 A/B 测试的重要性
  • 学会设计 Prompt 评估指标
  • 掌握测试方案设计

场景说明

场景:你优化了客服机器人的 Prompt,想知道新版本是否比旧版本好。需要设计一个 A/B 测试来验证。 版本 A(原版): "你是专业客服,回答用户问题。" 版本 B(新版): "你是 JR Academy 课程顾问。简洁回答,2句话内解决问题。不确定时推荐人工咨询。"
示例输入
请帮我设计一个 Prompt A/B 测试方案:

【版本 A - 原版】
"你是专业客服,回答用户问题。"

【版本 B - 新版】
"你是 JR Academy 课程顾问。简洁回答,2句话内解决问题。不确定时推荐人工咨询。"

【要求】
1. 设计评估指标
2. 确定测试样本量
3. 设计测试流程
4. 说明数据收集方法
5. 给出判断标准
期望输出
**Prompt A/B 测试方案**

---

**1. 评估指标设计**

| 指标类别 | 具体指标 | 测量方法 | 权重 |
|---------|---------|---------|------|
| 效率 | 平均响应长度 | Token 数 | 25% |
| 效率 | 对话轮数 | 解决问题的轮数 | 25% |
| 质量 | 用户满意度 | 对话结束评分 | 30% |
| 业务 | 转化率 | 咨询后报名比例 | 20% |

**主要指标:用户满意度**
**次要指标:对话轮数、响应长度**

---

**2. 样本量计算**

假设:
- 原版满意度:70%
- 预期提升:5%
- 显著性水平:95%
- 统计功效:80%

需要样本量:每组约 **1500 条对话**

---

**3. 测试流程**

```
Day 1-3: 准备期
  - 部署 A/B 分流逻辑(50%/50%)
  - 确认数据埋点正常

Day 4-10: 测试期
  - 收集数据
  - 每日监控异常

Day 11-12: 分析期
  - 统计分析
  - 得出结论
```

---

**4. 判断标准**

| 结果 | 判断 | 行动 |
|------|------|------|
| B 显著优于 A (p<0.05) | B 胜出 | 全量切换到 B |
| 无显著差异 | 平局 | 选择成本更低的版本 |
| A 显著优于 B | A 胜出 | 保持 A,分析 B 的问题 |

为什么这么做

  • 先定义任务边界,再定义输出格式,能显著减少模型“猜意图”的空间。
  • 把复杂任务拆成可验证的小步骤,比“一次让 AI 做完”更稳定。
  • 高质量 Prompt 的核心是可复用,不是一次性跑通。

迁移模板

你是[角色]。请基于以下输入完成任务。

任务目标:
- [目标1]
- [目标2]

约束条件:
- [必须遵守的规则]

输出要求:
- 格式:[JSON/Markdown/表格]
- 字段:[字段列表]
- 质量标准:[可检验标准]

常见误区

  • 只写“做什么”,不写“成功标准”与“输出结构”。
  • 一次塞入太多目标,导致模型注意力分散。
  • 没有做多次运行对比,误把偶然好结果当成稳定能力。

自检清单

  • 我是否写清楚了角色、目标、约束、输出格式?
  • 我是否能解释每条指令背后的作用?
  • 我是否在 3 次以上运行中得到稳定结果?

动手练习

  • 先按当前模板写出 v1 Prompt,并运行至少 3 次。
  • 根据结果改 1-2 条指令,产出 v2 Prompt。
  • 对比 v1/v2 的稳定性和可用性,记录差异。

达标标准

本节交付物

一份可复用 Prompt 模板(含场景说明、输入变量、输出要求、质量标准)。

反思题

你选择的主要指标是什么?

A/B 测试还需要注意什么?