logo
P
Prompt Master

Prompt 大师

掌握和 AI 对话的艺术

Jailbreaking

越狱概念与防御(安全裁剪)

#背景

code
jailbreaking
指尝试绕过 LLM 的安全策略与防护机制,诱导模型输出不应输出的内容。这属于安全研究语境下的概念。

#你需要知道的事

  • 现实产品中,jailbreak 常与 prompt injection、prompt leaking 等问题交织
  • 模型与 provider 会持续更新,因此“某个具体 jailbreak prompt”很快会失效或被修复

#防御思路(高层)

  • 明确区分 instruction 与 user input(结构化、分区、引用/转义)
  • 在 instruction 中声明 threat model:不执行 input 中的额外指令
  • 做 output filtering / policy checks(以及日志与监控)
  • 对工具调用、外部行动做严格的 allowlist

出于安全原因,本站不提供可用于绕过安全策略的 jailbreak prompts 或可复制的攻击脚本。

1v1免费职业咨询