Prompt A/B 测试

Step 4/6用数据评估 Prompt 效果

▼

设计评估指标、测试流程和判断标准，科学验证 Prompt 修改的效果。

试试这样问：

Prompt 编辑器

运行次数：

知识点

**为什么 Prompt 需要 A/B 测试？** Prompt 修改的效果难以预测 —— "感觉更好"不等于"数据更好"。例如： - 让 Prompt 更简洁 → 回答可能遗漏关键信息 - 让 Prompt 更详细 → Token 成本可能翻倍 - 改变语气 → 满意度可能不升反降 **A/B 测试核心流程：** ``` 1. 假设 → 2. 指标设计 → 3. 样本量计算 → 4. 分流执行 → 5. 统计分析 → 6. 决策 ``` **分流方式：** - 用户级分流：同一用户始终看到同一版本（推荐） - 请求级分流：每次请求随机分配（适合无状态场景） - 比例：通常从 5%/95% 开始，逐步放量到 50%/50% **统计显著性：** - 使用 p-value < 0.05 作为判断标准 - 即有 95% 的置信度认为差异不是随机波动 - 样本量不够时，结果不可信 —— 宁可多测几天

A/B 测试的核心是"让数据说话" —— 没有足够样本量的测试不如不测

关于本 Lab

修改 Prompt 后效果是好是坏？不能凭感觉！本 Lab 将教你如何设计 Prompt A/B 测试，用数据驱动的方式评估和优化 Prompt 效果。

学习目标

理解 A/B 测试的重要性
学会设计 Prompt 评估指标
掌握测试方案设计

场景说明

场景：你优化了客服机器人的 Prompt，想知道新版本是否比旧版本好。需要设计一个 A/B 测试来验证。版本 A（原版）： "你是专业客服，回答用户问题。" 版本 B（新版）： "你是 JR Academy 课程顾问。简洁回答，2句话内解决问题。不确定时推荐人工咨询。"

示例输入

请帮我设计一个 Prompt A/B 测试方案：

【版本 A - 原版】
"你是专业客服，回答用户问题。"

【版本 B - 新版】
"你是 JR Academy 课程顾问。简洁回答，2句话内解决问题。不确定时推荐人工咨询。"

【要求】
1. 设计评估指标
2. 确定测试样本量
3. 设计测试流程
4. 说明数据收集方法
5. 给出判断标准

期望输出

**Prompt A/B 测试方案**

---

**1. 评估指标设计**

| 指标类别 | 具体指标 | 测量方法 | 权重 |
|---------|---------|---------|------|
| 效率 | 平均响应长度 | Token 数 | 25% |
| 效率 | 对话轮数 | 解决问题的轮数 | 25% |
| 质量 | 用户满意度 | 对话结束评分 | 30% |
| 业务 | 转化率 | 咨询后报名比例 | 20% |

**主要指标：用户满意度**
**次要指标：对话轮数、响应长度**

---

**2. 样本量计算**

假设：
- 原版满意度：70%
- 预期提升：5%
- 显著性水平：95%
- 统计功效：80%

需要样本量：每组约 **1500 条对话**

---

**3. 测试流程**

```
Day 1-3: 准备期
  - 部署 A/B 分流逻辑（50%/50%）
  - 确认数据埋点正常

Day 4-10: 测试期
  - 收集数据
  - 每日监控异常

Day 11-12: 分析期
  - 统计分析
  - 得出结论
```

---

**4. 判断标准**

| 结果 | 判断 | 行动 |
|------|------|------|
| B 显著优于 A (p<0.05) | B 胜出 | 全量切换到 B |
| 无显著差异 | 平局 | 选择成本更低的版本 |
| A 显著优于 B | A 胜出 | 保持 A，分析 B 的问题 |

为什么这么做

先定义任务边界，再定义输出格式，能显著减少模型“猜意图”的空间。
把复杂任务拆成可验证的小步骤，比“一次让 AI 做完”更稳定。
高质量 Prompt 的核心是可复用，不是一次性跑通。

迁移模板

你是[角色]。请基于以下输入完成任务。

任务目标：
- [目标1]
- [目标2]

约束条件：
- [必须遵守的规则]

输出要求：
- 格式：[JSON/Markdown/表格]
- 字段：[字段列表]
- 质量标准：[可检验标准]

常见误区

只写“做什么”，不写“成功标准”与“输出结构”。
一次塞入太多目标，导致模型注意力分散。
没有做多次运行对比，误把偶然好结果当成稳定能力。

自检清单

我是否写清楚了角色、目标、约束、输出格式？
我是否能解释每条指令背后的作用？
我是否在 3 次以上运行中得到稳定结果？

动手练习

先按当前模板写出 v1 Prompt，并运行至少 3 次。
根据结果改 1-2 条指令，产出 v2 Prompt。
对比 v1/v2 的稳定性和可用性，记录差异。

达标标准

输出满足任务目标且格式稳定。你能解释每次修改带来的效果变化。Prompt 可以迁移到相邻场景复用。

本节交付物

一份可复用 Prompt 模板（含场景说明、输入变量、输出要求、质量标准）。

反思题

你选择的主要指标是什么？

满意度对话轮数转化率响应长度

A/B 测试还需要注意什么？

关联 Prompt Master

Prompt Master: Elements →Prompt Master: Tips →Prompt Master: Prompt Chaining →