DSP
Directional Stimulus Prompting:用 policy LM 生成 stimulus
Li 等人(2023)提出了一种新的提示技术——方向性刺激提示(Directional Stimulus Prompting,DSP),以更好地指导 LLM 生成所需的输出。
其核心思想是:训练一个小型的可调节策略模型(Policy LM),为每个输入生成一个"刺激/提示"(stimulus),然后将该刺激与原始输入一起发送给黑盒的大型语言模型,引导其生成更高质量的输出。策略模型使用强化学习(RL)进行优化。
下图显示了方向性刺激提示与标准提示的比较。策略 LM 可以很小(如 Flan-T5),并且可以优化以生成指导黑盒冻结 LLM 的提示。

图片来源:Li 等人(2023)
为什么需要 DSP?
直接提示大型 LLM 存在几个问题:
- LLM 是黑盒:你无法修改 GPT-4 等商业模型的参数
- prompt 优化困难:手工编写 prompt 耗时且效果不稳定
- 缺乏精细控制:很难让 LLM 关注输入中的特定关键信息
DSP 的解决方案是:不直接调整 LLM,而是训练一个小模型来为 LLM 生成最优的"引导线索"。这类似于:你无法改变一位专家的思维方式,但你可以学会用更好的方式向他提问。
工作原理
整体架构
输入文本 ──→ 策略 LM(小模型)──→ 生成刺激(关键词/提示)
│
▼
输入文本 + 刺激 ──→ 黑盒 LLM(大模型)──→ 最终输出
Step 1:策略模型生成刺激
策略 LM 分析输入,生成简短但有针对性的"刺激"。根据任务不同,刺激的形式也不同:
摘要任务——刺激是关键词:
输入文章:一项最新研究表明,每天步行30分钟可以显著降低心血管疾病风险。
研究团队跟踪了5000名参与者长达10年,发现规律步行的人群
心脏病发病率降低了35%。研究负责人张教授表示...
策略 LM 生成的刺激:步行, 心血管, 35%, 10年研究
对话任务——刺激是对话策略提示:
输入对话上下文:用户表示对产品价格不满意
策略 LM 生成的刺激:表达理解 → 强调价值 → 提供替代方案
Step 2:将刺激注入 LLM prompt
请为以下文章生成摘要。
关键要点提示:步行, 心血管, 35%, 10年研究
文章:一项最新研究表明,每天步行30分钟可以显著降低心血管疾病风险...
摘要:
Step 3:强化学习优化
策略 LM 的训练过程:
- 监督学习预训练:用少量人工标注的(输入, 刺激)对进行初始训练
- RL 微调:将 LLM 的输出质量作为奖励信号,用策略梯度方法优化策略 LM
- 迭代优化:反复生成刺激 → 评估输出 → 更新策略
实验结果
论文在多个任务上验证了 DSP 的效果:
摘要生成(CNN/DailyMail)
| 方法 | ROUGE-1 | ROUGE-2 | ROUGE-L |
|---|---|---|---|
| 标准 Prompt | 43.7 | 20.5 | 40.2 |
| DSP(关键词刺激) | 45.1 | 21.8 | 41.5 |
对话回复(MultiWOZ)
| 方法 | BLEU | Inform | Success |
|---|---|---|---|
| 标准 Prompt | 14.2 | 68.3% | 58.1% |
| DSP | 16.8 | 72.6% | 63.4% |
关键发现:
- 即使策略 LM 只有几亿参数(远小于目标 LLM),也能有效引导大模型
- DSP 在信息保留方面优势明显——关键词刺激帮助 LLM 不遗漏关键信息
- RL 优化比纯监督学习效果更好,因为它直接优化最终输出质量
实际应用指南
虽然完整实现 DSP 需要训练策略模型,但其思想可以在日常 prompt 工程中应用:
1. 手动版 DSP:关键信息提取 + 引导
你可以手动扮演"策略 LM"的角色,先提取关键信息,再引导模型:
第一步(你自己做):阅读文章,提取3-5个关键词/要点
第二步(发给 LLM):
请基于以下文章生成摘要。
⚡ 必须覆盖的要点:[你提取的关键词]
文章内容:...
2. 两步 Prompt Chain
使用一个 LLM 调用来模拟"策略 LM",另一个来生成最终输出:
Prompt 1(提取刺激):
请阅读以下文本,提取5个最重要的关键要点,每个用3-5个词概括。
只输出要点列表,不要其他内容。
[文本]
---
Prompt 2(引导生成):
请为以下文本生成一段专业摘要。
⚡ 关键要点(必须全部覆盖):
[Prompt 1 的输出]
文本:[原文本]
3. 对话场景的策略引导
Prompt 1(生成策略):
以下是客服对话上下文。请分析用户情绪和核心诉求,
给出3步回复策略(每步10字以内)。
对话:...
---
Prompt 2(执行策略):
请基于以下策略回复用户。
回复策略:[Prompt 1 的输出]
对话上下文:...
与其他方法的对比
| 方法 | 机制 | 是否需要训练 | 适用场景 |
|---|---|---|---|
| Few-shot | 提供示例 | 否 | 格式引导 |
| CoT | 引导推理过程 | 否 | 推理任务 |
| Self-Consistency | 多次采样投票 | 否 | 提高准确率 |
| DSP | 小模型生成引导线索 | 是(策略 LM) | 信息密集型生成 |
| Prompt Tuning | 连续向量前缀 | 是(需访问模型) | 需要模型权重 |
DSP 的独特优势在于:它是唯一一个在不访问 LLM 内部参数的情况下,通过可学习的方式优化 prompt 的方法。
自查清单
- 任务是否涉及需要关注特定关键信息的生成?(DSP 最适合这类场景)
- 是否可以先提取关键要点,再引导模型生成?
- 刺激的粒度是否合适?(太粗则无引导作用,太细则过度约束)
- 是否验证了引导后的输出确实覆盖了关键信息?
参考文献
- Guiding Large Language Models via Directional Stimulus Prompting(Li 等人,2023)
- Promptbreeder: Self-Referential Self-Improvement Via Prompt Evolution(Fernando 等人,2023)
- Large Language Models Are Human-Level Prompt Engineers(Zhou 等人,2022 — APE)