26

Data Governance & Privacy

⏱️ 30分钟

AI Data Governance 与 Privacy

企业做 LLM feature,最容易被忽略的不是 model 效果,而是 data flow。
很多 demo 能跑,是因为它默认“什么都能传给 model”;很多 project 上线困难,也是因为到了 compliance review 阶段才发现没人说得清 data 从哪来、到哪去、留多久。

AI 数据治理流程图


这章要解决什么问题

你需要能回答下面这些问题:

  • 这次 model 调用到底带了哪些 data?
  • 哪些数据必须脱敏,哪些数据根本不该上传?
  • 临时 file、chat 记录、retrieval 片段会保留多久?
  • 不同 region、不同客户的 data 能不能混放?
  • 出了问题,能不能追溯是谁 access 过什么?

如果这些问题没有明确答案,product 再聪明,也很难进入 enterprise 场景。


三条底线原则

1. 最小必要

给 model 的内容只包含完成 task 必须的 data。
例如做 meeting notes summary,通常不需要把整条 CRM record、用户身份证号、支付信息一起带上。

2. 用途限定

data 只用于当前声明的 task。
今天为了总结 document 而 upload 的 data,不应自动拿去做 training sample 或长期 memory。

3. 环境隔离

dev、test、production 环境的 secret、log、storage 都要分开。
不要把 production 对话拷进本地 prompt playground 做 debug。


一条完整的 data handling pipeline

Stage该做什么常见错误
Ingress校验 file 类型、大小、来源什么都收,后面再说
Preprocess脱敏、classification、chunking原文直接发给 model
Retrieval按 tenant、permission 取 dataretrieval scope 过大
Generation只给当前 task 必需 context把 history 全塞进去
Egressoutput 脱敏、内容审查把原始片段直接返回用户
Storage定义 TTL、加密、audit永久保存临时 file

Data classification 要可执行,不要只写在 PPT 里

一个够用的分类方式:

Data level例子处理建议
Public官网文案、公开 FAQ可直接用于 retrieval
Internal内部 SOP、培训资料控制 access scope,保留 audit
Confidential合同、报价、业务报表严格 permission control,限制外发
Sensitive / PII手机号、邮箱、证件号、住址默认脱敏,不直接进 model
SecretAPI key、database password、私钥禁止进入 prompt 与 log

注意,classification 不是为了“看起来专业”,而是为了决定每一类 data 能不能被 upload、cache、记录和展示。


脱敏与 Preprocess

常见要处理的字段包括:

  • 手机号、邮箱、地址
  • 用户 ID、订单号、账户号
  • 银行信息、身份证件
  • 企业内部项目代号、客户名单

建议把脱敏做成独立的 preprocess step,而不是分散在 business logic 里。
这样你才能统一升级 rule,也更容易做 tenant-level 配置。


Storage 与 Retention 策略

哪些内容不应该长期 retention

  • 临时 upload 的音视频 transcript
  • 中间 reasoning 草稿
  • debug 阶段的 prompt / response
  • 带敏感 context 的 failure log

哪些内容可以保留,但要加限制

  • 结构化 task result
  • 已脱敏的 audit log
  • model 调用 metadata
  • 用户授权保存的 conversation summary

可以直接采用这样的 retention policy:

Data 类型建议 TTL
临时 file24 小时到 7 天
中间解析结果1 到 3 天
audit log按 compliance 要求保留
business result由业务 system 管理,不跟 model cache 混放

Region 与 Tenant 隔离

enterprise project 里,一个常见坑是“逻辑上分 tenant,物理上混在一起”。
更稳的做法是至少做到:

  • retrieval 和 database access 统一带 tenant_id
  • vector store 或 index 按 tenant 做逻辑隔离
  • 不同 region 走不同 storage 与 provider routing
  • 某些客户可关闭 training、log retention 或外部 model 调用

如果 system 服务多个国家或 enterprise 客户,这一层最好在 architecture design 时就决定,不要等签单后再补。


第三方 Model 与 Tool 接入

接 provider 时,重点不只是 API 能不能调通,还要 confirm:

  • 是否支持关闭 data training
  • 默认 log retention 多久
  • 是否签了 DPA 或企业协议
  • data 是否跨区处理
  • tool calling 和 log 里会不会泄露原始内容

self-hosted model 也不是天然安全。你还要自己负责:

  • image 与 dependency update
  • network egress control
  • storage encryption
  • audit 与 patch cadence

Audit 与 Access Control

至少要留下这些信息:

  • 谁 access 了什么 data
  • 什么时候发起调用
  • 使用了哪个 model 和哪个版本配置
  • 是否命中过脱敏或 security policy
  • 是否调用了 high-risk tool

但要注意,audit log 本身也可能成为敏感 data source。
所以 log 要“可追踪”,不等于“全部 raw content 照存”。


Minimum launch checklist

  • data 先 classification,再决定能否进 model
  • sensitive field 在入模前脱敏
  • 临时 data 设置 TTL
  • retrieval 和 tool access 做 tenant 隔离
  • audit log 记录 action,不盲目保存 raw content
  • 明确 provider 的 retention 和 training policy

动手练习

拿你的一条 AI workflow 做一次盘点:

  1. 画出从用户 input 到 model output 的全链路
  2. 标出哪里会接触 PII
  3. 标出哪些 data 其实没必要 upload
  4. 给每一类 data 写一个 retention 时长

做完这一步,你的“data governance”才算真正落到 system 里。

📚 相关资源

❓ 常见问题

关于本章主题最常被搜索的问题,点击展开答案

什么是 AI data governance 的三条底线?

最小必要、用途限定、环境隔离。最小必要:只把完成 task 必须的 data 传给 model(meeting summary 不需要带整条 CRM record + 身份证号 + 支付信息)。用途限定:今天为 summary 上传的 data 不能自动拿去做 training 或长期 memory。环境隔离:dev / test / production 的 secret、log、storage 严格分开,不要把 prod 对话拷进本地 playground 调试。

Data classification 怎么分才可执行?

5 级够用:Public(官网文案、公开 FAQ — 可直接 retrieval)、Internal(SOP、培训资料 — 控制 scope + 留 audit)、Confidential(合同、报价、报表 — 严格 permission + 限制外发)、Sensitive/PII(手机邮箱证件号住址 — 默认脱敏不进 model)、Secret(API key、密码、私钥 — 禁止进 prompt 和 log)。分类是为了决定每类 data 能否 upload / cache / 记录 / 展示,不是为了 PPT 好看。

哪些 AI 数据不该长期保留?

4 类要短 TTL:临时 upload 的音视频 transcript(24 小时到 7 天)、中间 reasoning 草稿(1-3 天)、debug 阶段的 prompt / response、带敏感 context 的 failure log。可以保留但要限制的是:结构化 task result、已脱敏的 audit log、model metadata、用户授权保存的 conversation summary。

接第三方 LLM provider 时除了 API 通不通还要 confirm 什么?

5 件事:能否关闭 data training、默认 log retention 多久、有没有签 DPA 或企业协议、data 是否跨区处理、tool calling 和 log 里会不会泄露原始内容。Self-hosted 也不天然安全 —— image 与 dependency 升级、network egress、storage 加密、audit 与 patch 节奏全要自己负责。

Tenant 隔离怎么做才不只是『逻辑上分开』?

4 项硬要求:retrieval 和 database access 统一带 tenant_id、vector store / index 按 tenant 做逻辑隔离、不同 region 走不同 storage 与 provider routing、为某些客户提供关闭 training / log retention / 外部 model 调用的开关。这一层最好在 architecture 阶段就决定,签单后补很难。