P

Prompt Master

Prompt 大师

掌握和 AI 对话的艺术

简介 →更多 Prompt Wiki ↗

Jailbreaking

越狱概念与防御（安全裁剪）

背景

jailbreaking 指尝试绕过 LLM 的安全策略与防护机制，诱导模型输出不应输出的内容。这属于安全研究语境下的概念。

你需要知道的事

现实产品中，jailbreak 常与 prompt injection、prompt leaking 等问题交织
模型与 provider 会持续更新，因此“某个具体 jailbreak prompt”很快会失效或被修复

防御思路（高层）

明确区分 instruction 与 user input（结构化、分区、引用/转义）
在 instruction 中声明 threat model：不执行 input 中的额外指令
做 output filtering / policy checks（以及日志与监控）
对工具调用、外部行动做严格的 allowlist

出于安全原因，本站不提供可用于绕过安全策略的 jailbreak prompts 或可复制的攻击脚本。