DSP

Directional Stimulus Prompting：用 policy LM 生成 stimulus

Li 等人（2023）提出了一种新的提示技术——方向性刺激提示（Directional Stimulus Prompting，DSP），以更好地指导 LLM 生成所需的输出。

其核心思想是：训练一个小型的可调节策略模型（Policy LM），为每个输入生成一个"刺激/提示"（stimulus），然后将该刺激与原始输入一起发送给黑盒的大型语言模型，引导其生成更高质量的输出。策略模型使用强化学习（RL）进行优化。

下图显示了方向性刺激提示与标准提示的比较。策略 LM 可以很小（如 Flan-T5），并且可以优化以生成指导黑盒冻结 LLM 的提示。

DSP

图片来源：Li 等人（2023）

为什么需要 DSP？

直接提示大型 LLM 存在几个问题：

LLM 是黑盒：你无法修改 GPT-4 等商业模型的参数
prompt 优化困难：手工编写 prompt 耗时且效果不稳定
缺乏精细控制：很难让 LLM 关注输入中的特定关键信息

DSP 的解决方案是：不直接调整 LLM，而是训练一个小模型来为 LLM 生成最优的"引导线索"。这类似于：你无法改变一位专家的思维方式，但你可以学会用更好的方式向他提问。

工作原理

整体架构

输入文本 ──→ 策略 LM（小模型）──→ 生成刺激（关键词/提示）
                                        │
                                        ▼
输入文本 + 刺激 ──→ 黑盒 LLM（大模型）──→ 最终输出

Step 1：策略模型生成刺激

策略 LM 分析输入，生成简短但有针对性的"刺激"。根据任务不同，刺激的形式也不同：

摘要任务——刺激是关键词：

输入文章：一项最新研究表明，每天步行30分钟可以显著降低心血管疾病风险。
         研究团队跟踪了5000名参与者长达10年，发现规律步行的人群
         心脏病发病率降低了35%。研究负责人张教授表示...

策略 LM 生成的刺激：步行, 心血管, 35%, 10年研究

对话任务——刺激是对话策略提示：

输入对话上下文：用户表示对产品价格不满意

策略 LM 生成的刺激：表达理解 → 强调价值 → 提供替代方案

Step 2：将刺激注入 LLM prompt

请为以下文章生成摘要。

关键要点提示：步行, 心血管, 35%, 10年研究

文章：一项最新研究表明，每天步行30分钟可以显著降低心血管疾病风险...

摘要：

Step 3：强化学习优化

策略 LM 的训练过程：

监督学习预训练：用少量人工标注的（输入, 刺激）对进行初始训练
RL 微调：将 LLM 的输出质量作为奖励信号，用策略梯度方法优化策略 LM
迭代优化：反复生成刺激 → 评估输出 → 更新策略

实验结果

论文在多个任务上验证了 DSP 的效果：

摘要生成（CNN/DailyMail）

方法	ROUGE-1	ROUGE-2	ROUGE-L
标准 Prompt	43.7	20.5	40.2
DSP（关键词刺激）	45.1	21.8	41.5

对话回复（MultiWOZ）

方法	BLEU	Inform	Success
标准 Prompt	14.2	68.3%	58.1%
DSP	16.8	72.6%	63.4%

关键发现：

即使策略 LM 只有几亿参数（远小于目标 LLM），也能有效引导大模型
DSP 在信息保留方面优势明显——关键词刺激帮助 LLM 不遗漏关键信息
RL 优化比纯监督学习效果更好，因为它直接优化最终输出质量

实际应用指南

虽然完整实现 DSP 需要训练策略模型，但其思想可以在日常 prompt 工程中应用：

1. 手动版 DSP：关键信息提取 + 引导

你可以手动扮演"策略 LM"的角色，先提取关键信息，再引导模型：

第一步（你自己做）：阅读文章，提取3-5个关键词/要点
第二步（发给 LLM）：

请基于以下文章生成摘要。

⚡ 必须覆盖的要点：[你提取的关键词]

文章内容：...

2. 两步 Prompt Chain

使用一个 LLM 调用来模拟"策略 LM"，另一个来生成最终输出：

Prompt 1（提取刺激）：
请阅读以下文本，提取5个最重要的关键要点，每个用3-5个词概括。
只输出要点列表，不要其他内容。

[文本]

---

Prompt 2（引导生成）：
请为以下文本生成一段专业摘要。

⚡ 关键要点（必须全部覆盖）：
[Prompt 1 的输出]

文本：[原文本]

3. 对话场景的策略引导

Prompt 1（生成策略）：
以下是客服对话上下文。请分析用户情绪和核心诉求，
给出3步回复策略（每步10字以内）。

对话：...

---

Prompt 2（执行策略）：
请基于以下策略回复用户。

回复策略：[Prompt 1 的输出]

对话上下文：...

与其他方法的对比

方法	机制	是否需要训练	适用场景
Few-shot	提供示例	否	格式引导
CoT	引导推理过程	否	推理任务
Self-Consistency	多次采样投票	否	提高准确率
DSP	小模型生成引导线索	是（策略 LM）	信息密集型生成
Prompt Tuning	连续向量前缀	是（需访问模型）	需要模型权重

DSP 的独特优势在于：它是唯一一个在不访问 LLM 内部参数的情况下，通过可学习的方式优化 prompt 的方法。

自查清单

任务是否涉及需要关注特定关键信息的生成？（DSP 最适合这类场景）
是否可以先提取关键要点，再引导模型生成？
刺激的粒度是否合适？（太粗则无引导作用，太细则过度约束）
是否验证了引导后的输出确实覆盖了关键信息？

参考文献

Guiding Large Language Models via Directional Stimulus Prompting（Li 等人，2023）
Promptbreeder: Self-Referential Self-Improvement Via Prompt Evolution（Fernando 等人，2023）
Large Language Models Are Human-Level Prompt Engineers（Zhou 等人，2022 — APE）

📚 相关资源

❓ 常见问题

关于本章主题最常被搜索的问题，点击展开答案

DSP 是什么？要解决什么问题？

Li 等人 2023 提出 Directional Stimulus Prompting，针对「LLM 是黑盒不能改权重 + prompt 难手工优化 + 缺精细控制」的场景。做法：训练一个小型可调节策略模型（Policy LM，如 Flan-T5）为每个输入生成「刺激/提示」（关键词或策略），把刺激和原始输入一起发给冻结的大模型。

DSP 跟 fine-tuning 大模型有什么不同？

DSP 完全不动大模型——你训练的是一个几亿参数的小策略模型，它学会怎么「向 GPT-4 提问」。这意味着不需要模型权重访问权（GPT-4 / Claude 等闭源模型也能用），训练成本远低于 fine-tune 175B 大模型。代价：每次推理多一次小模型调用。

DSP 的策略模型怎么训练？

三步：1) 监督学习预训练——用少量人工标注的（输入, 刺激）对做初始化；2) 强化学习微调——把大模型的输出质量作为奖励信号，用策略梯度优化策略 LM；3) 迭代——反复生成刺激 → 评估输出 → 更新策略。本质是 RL 优化 prompt 生成器，而不是优化 prompt 本身。

DSP 在哪些任务上有效？

论文实测两类：CNN/DailyMail 摘要——DSP 关键词刺激把 ROUGE-1 从 43.7 拉到 45.1，ROUGE-2 从 20.5 拉到 21.8；MultiWOZ 对话——BLEU 14.2→16.8，Inform 68.3%→72.6%，Success 58.1%→63.4%。共同特征：信息密集、必须覆盖关键要点的生成任务。

没训练策略模型的资源，能模拟 DSP 吗？

能，用两步 prompt chain 模拟：第一步用 LLM 提取 5 个关键要点（扮演策略 LM 的角色），第二步把要点作为「必须覆盖的关键信息」拼到正式 prompt 里。摘要、对话、报告生成都能用——拿到 DSP 论文里大部分「信息保留」的好处，代价是两次 API 调用而不是一次。