07
AI 产品指标体系:衡量与优化
AI 产品指标体系:衡量与优化
你无法改进你无法衡量的东西。AI 产品的指标体系需要在传统产品指标基础上,增加 AI 特有的质量和成本维度。
本章学习目标
- 理解 AI 产品指标体系的独特性
- 掌握 AI 产品的北极星指标设计方法
- 学会构建多维度的指标看板
- 建立指标驱动的优化闭环
一、AI 产品指标的特殊性
1.1 传统指标 vs AI 指标
| 传统产品指标 | AI 产品新增维度 |
|---|---|
| DAU/MAU | + AI 功能使用率 |
| 留存率 | + AI 体验满意度留存 |
| 转化率 | + AI 辅助转化率 |
| LTV | + AI 调用成本 |
| 响应时间 | + 模型推理延迟 |
1.2 AI 产品指标金字塔
┌─────────────┐
│ 商业指标 │ 收入、LTV、ROI
│ (North Star)│
└──────┬──────┘
│
┌────────────┼────────────┐
│ │ │
┌─────▼─────┐ ┌────▼────┐ ┌─────▼─────┐
│ 用户指标 │ │ AI 质量 │ │ 成本指标 │
│ DAU/留存 │ │ 准确率 │ │ API 成本 │
└─────┬─────┘ └────┬────┘ └─────┬─────┘
│ │ │
┌─────────┼────────────┼────────────┼─────────┐
│ │ │ │ │
┌───▼───┐ ┌───▼───┐ ┌──────▼──────┐ ┌───▼───┐ ┌───▼───┐
│ 活跃度 │ │ 参与度 │ │ 模型性能指标 │ │ 效率 │ │ 资源 │
│ 指标 │ │ 指标 │ │ │ │ 指标 │ │ 指标 │
└───────┘ └───────┘ └─────────────┘ └───────┘ └───────┘
二、北极星指标设计
2.1 AI 产品北极星指标选择
| 产品类型 | 推荐北极星指标 | 说明 |
|---|---|---|
| AI 对话助手 | 周活跃对话数 × 满意度 | 使用频率 + 质量双维度 |
| AI 写作工具 | 采纳字数/周 | 用户真正使用 AI 产出的内容 |
| AI 搜索 | 搜索成功率 × 搜索量 | 找到答案 + 使用频率 |
| AI 客服 | 问题解决率 × 会话量 | 解决问题 + 业务量 |
| AI 代码助手 | 代码采纳行数/日 | 开发者实际使用的 AI 代码 |
2.2 北极星指标设计框架
北极星指标 = 核心价值量化 × 使用频率 × 质量系数
示例:AI 写作工具
- 核心价值量化:采纳字数(用户真正使用的内容)
- 使用频率:每周使用次数
- 质量系数:编辑率(越低说明 AI 产出质量越高)
最终指标:
Weekly Adopted Words = Σ(生成字数 × 采纳率 × (1 - 编辑率))
2.3 北极星指标拆解
北极星:周活跃对话数 × 平均满意度
│
├── 周活跃用户数 (WAU)
│ ├── 新用户获取
│ ├── 老用户召回
│ └── 活跃用户留存
│
├── 人均对话数
│ ├── 首次体验完成率
│ ├── 功能发现率
│ └── 使用场景覆盖
│
└── 平均满意度
├── 回答准确率
├── 响应速度
└── 交互体验
三、AI 质量指标体系
3.1 核心质量指标
| 指标 | 定义 | 计算方式 | 目标值 |
|---|---|---|---|
| 准确率 | 回答正确的比例 | 人工评估 + 自动评估 | > 90% |
| 相关性 | 回答与问题的相关程度 | 人工评分 (1-5) | > 4.2 |
| 完整性 | 回答是否完整解决问题 | 追问率倒推 | > 85% |
| 一致性 | 相同问题回答的稳定性 | 多次测试方差 | < 0.1 |
| 安全性 | 无有害/违规内容 | 自动检测 + 人工审核 | > 99.9% |
3.2 质量指标计算方法
准确率评估:
# 评估集方法
def evaluate_accuracy(test_set, model):
correct = 0
total = len(test_set)
for item in test_set:
response = model.generate(item.question)
# 自动评估(适用于有标准答案的场景)
if auto_check(response, item.expected_answer):
correct += 1
# 人工评估(复杂场景)
elif human_review(response, item.question):
correct += 1
return correct / total
# 线上抽检方法
def online_sampling_accuracy(conversations, sample_size=100):
samples = random.sample(conversations, sample_size)
correct = sum(1 for s in samples if human_review(s))
return correct / sample_size
用户反馈指标:
| 指标 | 收集方式 | 计算 |
|---|---|---|
| Thumbs Up/Down | 每条回答后按钮 | 好评率 = Up / (Up + Down) |
| CSAT | 会话结束评分 | 平均分 / 5 |
| NPS | 定期问卷 | 推荐者% - 贬损者% |
3.3 质量监控看板
┌─────────────────────────────────────────────────────────┐
│ AI 质量监控看板 │
├─────────────────────────────────────────────────────────┤
│ │
│ 准确率趋势 (7日) 用户反馈分布 │
│ ████████████ 92.3% 👍 78% 👎 15% 无反馈 7% │
│ 目标: 90% ✅ 目标: 80% 👍 │
│ │
├─────────────────────────────────────────────────────────┤
│ │
│ 响应延迟 (P50/P95/P99) 幻觉率 (本周) │
│ 1.2s / 2.8s / 5.1s 2.1% ⚠️ │
│ 目标: P95 < 3s ✅ 目标: < 2% 需关注 │
│ │
├─────────────────────────────────────────────────────────┤
│ │
│ 问题类别准确率 实时告警 │
│ 技术问题: 94% ✅ ⚠️ 金融类问题准确率下降 5% │
│ 生活问题: 91% ✅ ✅ 无安全问题 │
│ 金融问题: 83% ⚠️ ✅ 延迟正常 │
│ │
└─────────────────────────────────────────────────────────┘
四、成本指标体系
4.1 成本指标分类
| 类别 | 指标 | 说明 |
|---|---|---|
| API 成本 | 每会话成本 | API 调用费用 / 会话数 |
| 基础设施 | 每用户成本 | 服务器、存储等 / 用户数 |
| 人工成本 | 运营成本 | 内容审核、Prompt 优化等 |
| 边际成本 | 新增用户成本 | 每新增用户带来的成本增量 |
4.2 成本计算模型
单会话成本 = 输入 Token 成本 + 输出 Token 成本 + 基础设施分摊
示例计算:
- 平均输入: 500 tokens × $0.005/1K = $0.0025
- 平均输出: 800 tokens × $0.015/1K = $0.012
- 基础设施: $0.001/会话
- 总成本: $0.0155/会话
月度成本预估:
- DAU: 10,000
- 人均会话: 5/天
- 月会话数: 10,000 × 5 × 30 = 1,500,000
- 月成本: 1,500,000 × $0.0155 = $23,250
4.3 成本优化指标
| 优化方向 | 指标 | 优化策略 |
|---|---|---|
| 模型选择 | 小模型使用比例 | 简单问题用 mini 模型 |
| Prompt 优化 | 平均 Token 数 | 压缩 System Prompt |
| 缓存命中 | 缓存命中率 | 相似问题复用结果 |
| 请求控制 | 无效请求率 | 前端预判,减少无效调用 |
五、用户行为指标
5.1 漏斗分析
用户旅程漏斗
访问首页 ─────────────────────────────── 100%
│
▼
注册/登录 ────────────────────────────── 35% (转化率: 35%)
│
▼
首次使用 AI ──────────────────────────── 28% (激活率: 80%)
│
▼
完成首次对话 ─────────────────────────── 22% (完成率: 79%)
│
▼
正向反馈 (👍) ────────────────────────── 17% (满意率: 77%)
│
▼
次日回访 ─────────────────────────────── 12% (次留: 71%)
│
▼
周活跃用户 ───────────────────────────── 8% (周留: 67%)
5.2 关键行为指标
| 指标 | 定义 | 健康值 |
|---|---|---|
| 激活率 | 注册后使用核心功能的比例 | > 60% |
| Aha 时刻到达率 | 体验到核心价值的用户比例 | > 40% |
| 功能渗透率 | 使用某功能的用户比例 | 核心功能 > 50% |
| 重新生成率 | 点击「重新生成」的比例 | < 15% |
| 编辑率 | AI 输出被编辑的比例 | < 30% |
| 复制/分享率 | 复制或分享 AI 输出的比例 | > 20% |
5.3 留存分析
留存曲线类型:
用户留存率 (%)
│
│ ████ 理想曲线(渐近线 > 20%)
│ ██████████████████████████████─────────────
│ ██
│ ████ 可接受曲线(渐近线 10-20%)
│ ██████████████████████─────────────────────
│ ██
│ ████ 问题曲线(持续下降)
│ █████████████████──────────────────────────
│
└────────────────────────────────────────────▶ 时间
D1 D7 D14 D30 D60 D90
留存归因分析:
| 用户群 | D7 留存 | 核心行为 |
|---|---|---|
| 高留存用户 | 45% | 首周完成 10+ 对话,使用 3+ 功能 |
| 中留存用户 | 22% | 首周完成 3-10 对话 |
| 低留存用户 | 8% | 仅完成 1-2 对话 |
六、指标看板设计
6.1 分层看板
高管看板(North Star):
- 北极星指标及趋势
- 核心商业指标(收入、成本、利润)
- 关键健康度(留存、NPS)
产品看板(日常运营):
- DAU/WAU/MAU 及趋势
- 漏斗转化率
- 功能使用分布
- 用户反馈汇总
AI 质量看板(技术运营):
- 准确率/相关性/安全性
- 模型性能(延迟、错误率)
- 成本明细
- 异常告警
6.2 告警规则设计
# 告警配置示例
alerts:
- name: '准确率下降告警'
metric: 'ai_accuracy_rate'
condition: '< 0.88'
window: '1h'
severity: 'high'
action: '通知产品+AI团队'
- name: '成本异常告警'
metric: 'hourly_api_cost'
condition: '> daily_avg * 2'
window: '1h'
severity: 'medium'
action: '通知技术团队'
- name: '用户负反馈激增'
metric: 'thumbs_down_rate'
condition: '> 0.25'
window: '30m'
severity: 'high'
action: '立即人工排查'
七、本章小结
| 维度 | 关键点 |
|---|---|
| 北极星指标 | 核心价值 × 使用频率 × 质量系数 |
| AI 质量指标 | 准确率、相关性、完整性、一致性、安全性 |
| 成本指标 | 单会话成本、边际成本、模型分层策略 |
| 用户行为 | 漏斗分析、留存曲线、关键行为归因 |
| 看板设计 | 分层设计(高管/产品/技术),配置告警 |
实战练习
练习 1:北极星指标设计
为以下产品设计北极星指标:
- AI 简历优化工具
- AI 学习助手
- AI 代码 Review 工具
练习 2:质量评估方案
设计一个 AI 客服的质量评估方案:
- 定义评估维度和权重
- 设计评估集构建方法
- 制定人工抽检流程
练习 3:成本优化分析
某 AI 产品月 API 成本 $50,000,请分析:
- 成本结构拆解(输入/输出/模型分布)
- 提出 3 个优化方向
- 估算优化后的成本节省