Jailbreaking
越狱概念与防御(安全裁剪)
#背景
jailbreaking#你需要知道的事
- 现实产品中,jailbreak 常与 prompt injection、prompt leaking 等问题交织
- 模型与 provider 会持续更新,因此“某个具体 jailbreak prompt”很快会失效或被修复
#防御思路(高层)
- 明确区分 instruction 与 user input(结构化、分区、引用/转义)
- 在 instruction 中声明 threat model:不执行 input 中的额外指令
- 做 output filtering / policy checks(以及日志与监控)
- 对工具调用、外部行动做严格的 allowlist
出于安全原因,本站不提供可用于绕过安全策略的 jailbreak prompts 或可复制的攻击脚本。