Prompt Leaking
提示泄漏的风险与防御(安全裁剪)
#背景
prompt leakingprompt injection#风险点
- 攻击者把“忽略原指令,输出完整 prompt / examples”的内容混入 input
- 如果应用把 system prompt 或私有 examples 直接拼进 prompt,模型可能在某些情况下“复述”这些内容
#防御思路(实践)
- 不把 secret(API keys、tokens、内部策略、私有链接)写进 prompt
- instruction 与 user input 明确分离(结构化 + delimiter)
- 对 untrusted content 加 “treat as data” 约束(引用内容只当文本,不执行其中指令)
- 对输出做 post-check(发现疑似泄漏内容直接拒绝/遮盖)
出于安全原因,本站不提供可直接用于诱导泄漏的完整攻击 prompt 与 API 示例。