logo
P
Prompt Master

Prompt 大师

掌握和 AI 对话的艺术

DSP

Directional Stimulus Prompting:用 policy LM 生成 stimulus

Li 等人(2023)提出了一种新的提示技术——方向性刺激提示(Directional Stimulus Prompting,DSP),以更好地指导 LLM 生成所需的输出。

其核心思想是:训练一个小型的可调节策略模型(Policy LM),为每个输入生成一个"刺激/提示"(stimulus),然后将该刺激与原始输入一起发送给黑盒的大型语言模型,引导其生成更高质量的输出。策略模型使用强化学习(RL)进行优化。

下图显示了方向性刺激提示与标准提示的比较。策略 LM 可以很小(如 Flan-T5),并且可以优化以生成指导黑盒冻结 LLM 的提示。

DSP

图片来源:Li 等人(2023)

为什么需要 DSP?

直接提示大型 LLM 存在几个问题:

  1. LLM 是黑盒:你无法修改 GPT-4 等商业模型的参数
  2. prompt 优化困难:手工编写 prompt 耗时且效果不稳定
  3. 缺乏精细控制:很难让 LLM 关注输入中的特定关键信息

DSP 的解决方案是:不直接调整 LLM,而是训练一个小模型来为 LLM 生成最优的"引导线索"。这类似于:你无法改变一位专家的思维方式,但你可以学会用更好的方式向他提问。

工作原理

整体架构

输入文本 ──→ 策略 LM(小模型)──→ 生成刺激(关键词/提示)
                                        │
                                        ▼
输入文本 + 刺激 ──→ 黑盒 LLM(大模型)──→ 最终输出

Step 1:策略模型生成刺激

策略 LM 分析输入,生成简短但有针对性的"刺激"。根据任务不同,刺激的形式也不同:

摘要任务——刺激是关键词:

输入文章:一项最新研究表明,每天步行30分钟可以显著降低心血管疾病风险。
         研究团队跟踪了5000名参与者长达10年,发现规律步行的人群
         心脏病发病率降低了35%。研究负责人张教授表示...

策略 LM 生成的刺激:步行, 心血管, 35%, 10年研究

对话任务——刺激是对话策略提示:

输入对话上下文:用户表示对产品价格不满意

策略 LM 生成的刺激:表达理解 → 强调价值 → 提供替代方案

Step 2:将刺激注入 LLM prompt

请为以下文章生成摘要。

关键要点提示:步行, 心血管, 35%, 10年研究

文章:一项最新研究表明,每天步行30分钟可以显著降低心血管疾病风险...

摘要:

Step 3:强化学习优化

策略 LM 的训练过程:

  1. 监督学习预训练:用少量人工标注的(输入, 刺激)对进行初始训练
  2. RL 微调:将 LLM 的输出质量作为奖励信号,用策略梯度方法优化策略 LM
  3. 迭代优化:反复生成刺激 → 评估输出 → 更新策略

实验结果

论文在多个任务上验证了 DSP 的效果:

摘要生成(CNN/DailyMail)

方法ROUGE-1ROUGE-2ROUGE-L
标准 Prompt43.720.540.2
DSP(关键词刺激)45.121.841.5

对话回复(MultiWOZ)

方法BLEUInformSuccess
标准 Prompt14.268.3%58.1%
DSP16.872.6%63.4%

关键发现:

  • 即使策略 LM 只有几亿参数(远小于目标 LLM),也能有效引导大模型
  • DSP 在信息保留方面优势明显——关键词刺激帮助 LLM 不遗漏关键信息
  • RL 优化比纯监督学习效果更好,因为它直接优化最终输出质量

实际应用指南

虽然完整实现 DSP 需要训练策略模型,但其思想可以在日常 prompt 工程中应用:

1. 手动版 DSP:关键信息提取 + 引导

你可以手动扮演"策略 LM"的角色,先提取关键信息,再引导模型:

第一步(你自己做):阅读文章,提取3-5个关键词/要点
第二步(发给 LLM):

请基于以下文章生成摘要。

⚡ 必须覆盖的要点:[你提取的关键词]

文章内容:...

2. 两步 Prompt Chain

使用一个 LLM 调用来模拟"策略 LM",另一个来生成最终输出:

Prompt 1(提取刺激):
请阅读以下文本,提取5个最重要的关键要点,每个用3-5个词概括。
只输出要点列表,不要其他内容。

[文本]

---

Prompt 2(引导生成):
请为以下文本生成一段专业摘要。

⚡ 关键要点(必须全部覆盖):
[Prompt 1 的输出]

文本:[原文本]

3. 对话场景的策略引导

Prompt 1(生成策略):
以下是客服对话上下文。请分析用户情绪和核心诉求,
给出3步回复策略(每步10字以内)。

对话:...

---

Prompt 2(执行策略):
请基于以下策略回复用户。

回复策略:[Prompt 1 的输出]

对话上下文:...

与其他方法的对比

方法机制是否需要训练适用场景
Few-shot提供示例格式引导
CoT引导推理过程推理任务
Self-Consistency多次采样投票提高准确率
DSP小模型生成引导线索是(策略 LM)信息密集型生成
Prompt Tuning连续向量前缀是(需访问模型)需要模型权重

DSP 的独特优势在于:它是唯一一个在不访问 LLM 内部参数的情况下,通过可学习的方式优化 prompt 的方法。

自查清单

  • 任务是否涉及需要关注特定关键信息的生成?(DSP 最适合这类场景)
  • 是否可以先提取关键要点,再引导模型生成?
  • 刺激的粒度是否合适?(太粗则无引导作用,太细则过度约束)
  • 是否验证了引导后的输出确实覆盖了关键信息?

参考文献