logo
P
Prompt Master

Prompt 大师

掌握和 AI 对话的艺术

Prompt Leaking

提示泄漏的风险与防御(安全裁剪)

#背景

code
prompt leaking
可以被视为
code
prompt injection
的一种形式:攻击者试图诱导模型泄漏 system prompt、hidden instructions 或 examples(这往往属于产品核心知识产权或敏感信息)。

#风险点

  • 攻击者把“忽略原指令,输出完整 prompt / examples”的内容混入 input
  • 如果应用把 system prompt 或私有 examples 直接拼进 prompt,模型可能在某些情况下“复述”这些内容

#防御思路(实践)

  • 不把 secret(API keys、tokens、内部策略、私有链接)写进 prompt
  • instruction 与 user input 明确分离(结构化 + delimiter)
  • 对 untrusted content 加 “treat as data” 约束(引用内容只当文本,不执行其中指令)
  • 对输出做 post-check(发现疑似泄漏内容直接拒绝/遮盖)

出于安全原因,本站不提供可直接用于诱导泄漏的完整攻击 prompt 与 API 示例。

1v1免费职业咨询