10

AI Ethics & Compliance:安全与合规

⏱️ 45分钟

AI Ethics & Compliance:安全与合规

AI product 的合规问题,最大风险不是“忘了写免责声明”,而是团队默认觉得这些事可以后面再补。现实里,很多 AI feature 一旦先上线再补 safety,代价会非常高,因为风险不是只出现在 output,而是从 data collection、prompt design、tool access 到 user expectation 全链路都在扩散。

所以这页不讲法律条文背诵,而是从 PM 视角讲一套更实用的 AI safety 和 compliance thinking。

AI Compliance Guardrail Map


先说结论:AI 合规不是一个 review step,而是一条 design constraint

更实际的看法是:

  • 不是上线前才审一次
  • 不是法务一个 team 的事
  • 不是只管敏感行业

任何生成式 AI product,只要涉及 user input、knowledge output、automation 或内容分发,就已经有合规和 safety 风险。


PM 最需要先识别的 4 类风险

风险常见表现
accuracy risk一本正经答错,用户还信了
privacy risk把不该进模型的数据送进去了
misuse risk用户拿产品做不该做的事
IP / copyright risk生成结果或训练材料有版权问题

这 4 类风险里,最危险的不是“概率最高”的那个,而是“发生一次就很贵”的那个。


风险不是统一处理,要按 use case 分级

一个很实用的分类法:

use case风险等级为什么
brainstorming出错影响有限
draft generation用户可能直接拿去外发
support answer中到高错答会影响 trust 和运营成本
hiring / finance / legal / medical一次错误就可能造成严重后果

风险分级做不清,后面所有 guardrail 都会太松或太重。


Guardrail 应该前中后都做

更完整的 guardrail 不是只过滤 output,而是 3 层:

主要问题典型做法
input guardrail用户输入能不能直接进系统长度限制、敏感内容检测、prompt injection 防护
processing guardrail模型怎么被约束system prompt、tool permission、retrieval boundary
output guardrail最终结果能不能直接给用户policy check、source display、human review、fallback

只做 output moderation,通常不够。


Privacy 问题,往往不是“泄露”,而是“默认收太多”

PM 在设计 AI feature 时,很容易把“多给一点上下文,模型效果更好”当成默认策略。
但这常常会直接把数据边界做坏。

更稳的原则还是 data minimization:

场景真正需要的数据经常被多拿的数据
AI summary文本内容本身用户全量 profile
AI support问题上下文、订单必要字段整份 CRM 历史
AI writing写作目标和 style不相关浏览轨迹

如果一个字段不是这次任务必需,就先别送进去。


Prompt Injection 和 Tool Abuse 不是只有工程师要管

PM 也需要知道产品层面会发生什么。

典型问题包括:

  • 用户诱导模型忽略原有规则
  • 通过 tool calling 越权访问数据
  • 借你的 product 生成违规内容

这意味着在设计 tool-enabled AI feature 时,你不只是在设计“能做什么”,也在设计“绝对不能做什么”。


Source Grounding 是 trust 的关键

在中高风险场景下,光让模型“回答得像对的”完全不够。
更稳的方向是:

  • 能引用 source 就引用
  • 不确定就明确说不确定
  • 超出边界就拒答或转人工

这类机制会牺牲一点“丝滑感”,但通常能换来更长期的 trust。


Compliance Review 应该问什么

上线前,PM 至少应该能回答:

  1. 这个功能最坏会错到什么程度
  2. 哪类数据进入了模型
  3. 用户是否知道 AI 在参与
  4. 是否需要提供 source、disclaimer 或人工升级路径
  5. 出现 bad output 后怎么处置和追踪

如果这 5 个问题都还模糊,说明合规设计还没完成。


最容易出事的 4 种心态

心态为什么危险
先上线,再补 guardrail风险会先到用户身上
模型厂商会帮我们兜底责任不会自动转移出去
只是内部工具,不需要管太严内部也可能处理敏感数据
低频风险先不看AI 风险 often low-frequency but high-impact

AI PM 最该避免的,就是把安全问题当成“以后再说”的 technical debt。


一套够用的 PM Checklist

  • 这个 use case 属于低、中还是高风险
  • 输入里有没有不必要的敏感数据
  • output 错了会带来什么真实后果
  • 有没有 source / disclaimer / escalation path
  • 有没有 bad case logging 和 rollback 机制

这套 checklist 不复杂,但很实用。很多事故,提前过一遍就能挡掉。


Practice

拿你正在做的一个 AI feature,写下这 4 行:

  1. 最坏情况下它会怎么伤害用户或业务
  2. 哪些数据其实不该被送进模型
  3. 哪些问题模型应该拒答
  4. 错误输出后谁来发现、谁来处理

你把这 4 行写清楚,合规设计基本才算开始。

📚 相关资源

❓ 常见问题

关于本章主题最常被搜索的问题,点击展开答案

AI 合规为什么不能等到上线前才审一次?

合规不是 review step,是 design constraint。风险不只在 output——data collection、prompt design、tool access、user expectation 全链路都在扩散。先上线再补 safety 代价非常高,因为问题会先到用户身上、责任也不会自动转移给模型厂商。

AI PM 要识别的 4 类风险是什么?

(1) accuracy risk(一本正经答错,用户还信了)(2) privacy risk(不该进模型的数据送进去)(3) misuse risk(用户拿产品做不该做的事)(4) IP / copyright risk(生成或训练材料有版权问题)。最危险的不是「概率最高」的,而是「发生一次就很贵」的那个。

AI guardrail 应该做几层?

3 层:input guardrail(长度限制、敏感内容检测、prompt injection 防护)、processing guardrail(system prompt、tool permission、retrieval boundary)、output guardrail(policy check、source display、human review、fallback)。只做 output moderation 通常不够。

AI 产品的隐私问题为什么常常不是「泄露」而是「默认收太多」?

PM 容易把「多给一点上下文模型效果更好」当默认策略,这会直接把数据边界做坏。原则是 data minimization:AI summary 只送文本本身而不是用户全量 profile;AI support 只送问题上下文与必要订单字段而不是整份 CRM 历史;AI writing 只送写作目标与 style 而不是浏览轨迹。字段不是这次任务必需就别送。

上线前 PM 必须回答的 compliance 5 问是什么?

(1) 这个功能最坏会错到什么程度 (2) 哪类数据进入了模型 (3) 用户是否知道 AI 在参与 (4) 是否需要 source、disclaimer 或人工升级路径 (5) 出现 bad output 后怎么处置和追踪。这 5 个还模糊,说明合规设计还没完成——别把安全当成「以后再说」的 technical debt。