Data Governance & Privacy

⏱️ 30分钟

AI Data Governance 与 Privacy

企业做 LLM feature，最容易被忽略的不是 model 效果，而是 data flow。
很多 demo 能跑，是因为它默认“什么都能传给 model”；很多 project 上线困难，也是因为到了 compliance review 阶段才发现没人说得清 data 从哪来、到哪去、留多久。

AI 数据治理流程图

这章要解决什么问题

你需要能回答下面这些问题：

这次 model 调用到底带了哪些 data？
哪些数据必须脱敏，哪些数据根本不该上传？
临时 file、chat 记录、retrieval 片段会保留多久？
不同 region、不同客户的 data 能不能混放？
出了问题，能不能追溯是谁 access 过什么？

如果这些问题没有明确答案，product 再聪明，也很难进入 enterprise 场景。

三条底线原则

1. 最小必要

给 model 的内容只包含完成 task 必须的 data。
例如做 meeting notes summary，通常不需要把整条 CRM record、用户身份证号、支付信息一起带上。

2. 用途限定

data 只用于当前声明的 task。
今天为了总结 document 而 upload 的 data，不应自动拿去做 training sample 或长期 memory。

3. 环境隔离

dev、test、production 环境的 secret、log、storage 都要分开。
不要把 production 对话拷进本地 prompt playground 做 debug。

一条完整的 data handling pipeline

Stage	该做什么	常见错误
Ingress	校验 file 类型、大小、来源	什么都收，后面再说
Preprocess	脱敏、classification、chunking	原文直接发给 model
Retrieval	按 tenant、permission 取 data	retrieval scope 过大
Generation	只给当前 task 必需 context	把 history 全塞进去
Egress	output 脱敏、内容审查	把原始片段直接返回用户
Storage	定义 TTL、加密、audit	永久保存临时 file

Data classification 要可执行，不要只写在 PPT 里

一个够用的分类方式：

Data level	例子	处理建议
Public	官网文案、公开 FAQ	可直接用于 retrieval
Internal	内部 SOP、培训资料	控制 access scope，保留 audit
Confidential	合同、报价、业务报表	严格 permission control，限制外发
Sensitive / PII	手机号、邮箱、证件号、住址	默认脱敏，不直接进 model
Secret	API key、database password、私钥	禁止进入 prompt 与 log

注意，classification 不是为了“看起来专业”，而是为了决定每一类 data 能不能被 upload、cache、记录和展示。

脱敏与 Preprocess

常见要处理的字段包括：

手机号、邮箱、地址
用户 ID、订单号、账户号
银行信息、身份证件
企业内部项目代号、客户名单

建议把脱敏做成独立的 preprocess step，而不是分散在 business logic 里。
这样你才能统一升级 rule，也更容易做 tenant-level 配置。

Storage 与 Retention 策略

哪些内容不应该长期 retention

临时 upload 的音视频 transcript
中间 reasoning 草稿
debug 阶段的 prompt / response
带敏感 context 的 failure log

哪些内容可以保留，但要加限制

结构化 task result
已脱敏的 audit log
model 调用 metadata
用户授权保存的 conversation summary

可以直接采用这样的 retention policy：

Data 类型	建议 TTL
临时 file	24 小时到 7 天
中间解析结果	1 到 3 天
audit log	按 compliance 要求保留
business result	由业务 system 管理，不跟 model cache 混放

Region 与 Tenant 隔离

enterprise project 里，一个常见坑是“逻辑上分 tenant，物理上混在一起”。
更稳的做法是至少做到：

retrieval 和 database access 统一带 tenant_id
vector store 或 index 按 tenant 做逻辑隔离
不同 region 走不同 storage 与 provider routing
某些客户可关闭 training、log retention 或外部 model 调用

如果 system 服务多个国家或 enterprise 客户，这一层最好在 architecture design 时就决定，不要等签单后再补。

第三方 Model 与 Tool 接入

接 provider 时，重点不只是 API 能不能调通，还要 confirm：

是否支持关闭 data training
默认 log retention 多久
是否签了 DPA 或企业协议
data 是否跨区处理
tool calling 和 log 里会不会泄露原始内容

self-hosted model 也不是天然安全。你还要自己负责：

image 与 dependency update
network egress control
storage encryption
audit 与 patch cadence

Audit 与 Access Control

至少要留下这些信息：

谁 access 了什么 data
什么时候发起调用
使用了哪个 model 和哪个版本配置
是否命中过脱敏或 security policy
是否调用了 high-risk tool

但要注意，audit log 本身也可能成为敏感 data source。
所以 log 要“可追踪”，不等于“全部 raw content 照存”。

Minimum launch checklist

data 先 classification，再决定能否进 model
sensitive field 在入模前脱敏
临时 data 设置 TTL
retrieval 和 tool access 做 tenant 隔离
audit log 记录 action，不盲目保存 raw content
明确 provider 的 retention 和 training policy

动手练习

拿你的一条 AI workflow 做一次盘点：

画出从用户 input 到 model output 的全链路
标出哪里会接触 PII
标出哪些 data 其实没必要 upload
给每一类 data 写一个 retention 时长

做完这一步，你的“data governance”才算真正落到 system 里。

📚 相关资源

OpenAI API 文档

❓ 常见问题

关于本章主题最常被搜索的问题，点击展开答案

什么是 AI data governance 的三条底线？

最小必要、用途限定、环境隔离。最小必要：只把完成 task 必须的 data 传给 model（meeting summary 不需要带整条 CRM record + 身份证号 + 支付信息）。用途限定：今天为 summary 上传的 data 不能自动拿去做 training 或长期 memory。环境隔离：dev / test / production 的 secret、log、storage 严格分开，不要把 prod 对话拷进本地 playground 调试。

Data classification 怎么分才可执行？

5 级够用：Public（官网文案、公开 FAQ — 可直接 retrieval）、Internal（SOP、培训资料 — 控制 scope + 留 audit）、Confidential（合同、报价、报表 — 严格 permission + 限制外发）、Sensitive/PII（手机邮箱证件号住址 — 默认脱敏不进 model）、Secret（API key、密码、私钥 — 禁止进 prompt 和 log）。分类是为了决定每类 data 能否 upload / cache / 记录 / 展示，不是为了 PPT 好看。

哪些 AI 数据不该长期保留？

4 类要短 TTL：临时 upload 的音视频 transcript（24 小时到 7 天）、中间 reasoning 草稿（1-3 天）、debug 阶段的 prompt / response、带敏感 context 的 failure log。可以保留但要限制的是：结构化 task result、已脱敏的 audit log、model metadata、用户授权保存的 conversation summary。

接第三方 LLM provider 时除了 API 通不通还要 confirm 什么？

5 件事：能否关闭 data training、默认 log retention 多久、有没有签 DPA 或企业协议、data 是否跨区处理、tool calling 和 log 里会不会泄露原始内容。Self-hosted 也不天然安全 —— image 与 dependency 升级、network egress、storage 加密、audit 与 patch 节奏全要自己负责。

Tenant 隔离怎么做才不只是『逻辑上分开』？

4 项硬要求：retrieval 和 database access 统一带 tenant_id、vector store / index 按 tenant 做逻辑隔离、不同 region 走不同 storage 与 provider routing、为某些客户提供关闭 training / log retention / 外部 model 调用的开关。这一层最好在 architecture 阶段就决定，签单后补很难。