logo
10

AI Ethics & Compliance:安全与合规

⏱️ 45分钟

AI Ethics & Compliance:安全与合规

AI product 的合规问题,最大风险不是“忘了写免责声明”,而是团队默认觉得这些事可以后面再补。现实里,很多 AI feature 一旦先上线再补 safety,代价会非常高,因为风险不是只出现在 output,而是从 data collection、prompt design、tool access 到 user expectation 全链路都在扩散。

所以这页不讲法律条文背诵,而是从 PM 视角讲一套更实用的 AI safety 和 compliance thinking。

AI Compliance Guardrail Map


先说结论:AI 合规不是一个 review step,而是一条 design constraint

更实际的看法是:

  • 不是上线前才审一次
  • 不是法务一个 team 的事
  • 不是只管敏感行业

任何生成式 AI product,只要涉及 user input、knowledge output、automation 或内容分发,就已经有合规和 safety 风险。


PM 最需要先识别的 4 类风险

风险常见表现
accuracy risk一本正经答错,用户还信了
privacy risk把不该进模型的数据送进去了
misuse risk用户拿产品做不该做的事
IP / copyright risk生成结果或训练材料有版权问题

这 4 类风险里,最危险的不是“概率最高”的那个,而是“发生一次就很贵”的那个。


风险不是统一处理,要按 use case 分级

一个很实用的分类法:

use case风险等级为什么
brainstorming出错影响有限
draft generation用户可能直接拿去外发
support answer中到高错答会影响 trust 和运营成本
hiring / finance / legal / medical一次错误就可能造成严重后果

风险分级做不清,后面所有 guardrail 都会太松或太重。


Guardrail 应该前中后都做

更完整的 guardrail 不是只过滤 output,而是 3 层:

主要问题典型做法
input guardrail用户输入能不能直接进系统长度限制、敏感内容检测、prompt injection 防护
processing guardrail模型怎么被约束system prompt、tool permission、retrieval boundary
output guardrail最终结果能不能直接给用户policy check、source display、human review、fallback

只做 output moderation,通常不够。


Privacy 问题,往往不是“泄露”,而是“默认收太多”

PM 在设计 AI feature 时,很容易把“多给一点上下文,模型效果更好”当成默认策略。
但这常常会直接把数据边界做坏。

更稳的原则还是 data minimization:

场景真正需要的数据经常被多拿的数据
AI summary文本内容本身用户全量 profile
AI support问题上下文、订单必要字段整份 CRM 历史
AI writing写作目标和 style不相关浏览轨迹

如果一个字段不是这次任务必需,就先别送进去。


Prompt Injection 和 Tool Abuse 不是只有工程师要管

PM 也需要知道产品层面会发生什么。

典型问题包括:

  • 用户诱导模型忽略原有规则
  • 通过 tool calling 越权访问数据
  • 借你的 product 生成违规内容

这意味着在设计 tool-enabled AI feature 时,你不只是在设计“能做什么”,也在设计“绝对不能做什么”。


Source Grounding 是 trust 的关键

在中高风险场景下,光让模型“回答得像对的”完全不够。
更稳的方向是:

  • 能引用 source 就引用
  • 不确定就明确说不确定
  • 超出边界就拒答或转人工

这类机制会牺牲一点“丝滑感”,但通常能换来更长期的 trust。


Compliance Review 应该问什么

上线前,PM 至少应该能回答:

  1. 这个功能最坏会错到什么程度
  2. 哪类数据进入了模型
  3. 用户是否知道 AI 在参与
  4. 是否需要提供 source、disclaimer 或人工升级路径
  5. 出现 bad output 后怎么处置和追踪

如果这 5 个问题都还模糊,说明合规设计还没完成。


最容易出事的 4 种心态

心态为什么危险
先上线,再补 guardrail风险会先到用户身上
模型厂商会帮我们兜底责任不会自动转移出去
只是内部工具,不需要管太严内部也可能处理敏感数据
低频风险先不看AI 风险 often low-frequency but high-impact

AI PM 最该避免的,就是把安全问题当成“以后再说”的 technical debt。


一套够用的 PM Checklist

  • 这个 use case 属于低、中还是高风险
  • 输入里有没有不必要的敏感数据
  • output 错了会带来什么真实后果
  • 有没有 source / disclaimer / escalation path
  • 有没有 bad case logging 和 rollback 机制

这套 checklist 不复杂,但很实用。很多事故,提前过一遍就能挡掉。


Practice

拿你正在做的一个 AI feature,写下这 4 行:

  1. 最坏情况下它会怎么伤害用户或业务
  2. 哪些数据其实不该被送进模型
  3. 哪些问题模型应该拒答
  4. 错误输出后谁来发现、谁来处理

你把这 4 行写清楚,合规设计基本才算开始。

📚 相关资源