logo
07

AI 产品指标体系:衡量与优化

⏱️ 50分钟

AI 产品指标体系:衡量与优化

你无法改进你无法衡量的东西。AI 产品的指标体系需要在传统产品指标基础上,增加 AI 特有的质量和成本维度。

本章学习目标

  • 理解 AI 产品指标体系的独特性
  • 掌握 AI 产品的北极星指标设计方法
  • 学会构建多维度的指标看板
  • 建立指标驱动的优化闭环

一、AI 产品指标的特殊性

1.1 传统指标 vs AI 指标

传统产品指标AI 产品新增维度
DAU/MAU+ AI 功能使用率
留存率+ AI 体验满意度留存
转化率+ AI 辅助转化率
LTV+ AI 调用成本
响应时间+ 模型推理延迟

1.2 AI 产品指标金字塔

                    ┌─────────────┐
                    │  商业指标   │  收入、LTV、ROI
                    │  (North Star)│
                    └──────┬──────┘
                           │
              ┌────────────┼────────────┐
              │            │            │
        ┌─────▼─────┐ ┌────▼────┐ ┌─────▼─────┐
        │  用户指标  │ │ AI 质量 │ │  成本指标  │
        │ DAU/留存  │ │ 准确率  │ │ API 成本  │
        └─────┬─────┘ └────┬────┘ └─────┬─────┘
              │            │            │
    ┌─────────┼────────────┼────────────┼─────────┐
    │         │            │            │         │
┌───▼───┐ ┌───▼───┐ ┌──────▼──────┐ ┌───▼───┐ ┌───▼───┐
│ 活跃度 │ │ 参与度 │ │ 模型性能指标 │ │ 效率  │ │ 资源  │
│  指标  │ │  指标  │ │             │ │ 指标  │ │ 指标  │
└───────┘ └───────┘ └─────────────┘ └───────┘ └───────┘

二、北极星指标设计

2.1 AI 产品北极星指标选择

产品类型推荐北极星指标说明
AI 对话助手周活跃对话数 × 满意度使用频率 + 质量双维度
AI 写作工具采纳字数/周用户真正使用 AI 产出的内容
AI 搜索搜索成功率 × 搜索量找到答案 + 使用频率
AI 客服问题解决率 × 会话量解决问题 + 业务量
AI 代码助手代码采纳行数/日开发者实际使用的 AI 代码

2.2 北极星指标设计框架

北极星指标 = 核心价值量化 × 使用频率 × 质量系数

示例:AI 写作工具
- 核心价值量化:采纳字数(用户真正使用的内容)
- 使用频率:每周使用次数
- 质量系数:编辑率(越低说明 AI 产出质量越高)

最终指标:
Weekly Adopted Words = Σ(生成字数 × 采纳率 × (1 - 编辑率))

2.3 北极星指标拆解

北极星:周活跃对话数 × 平均满意度
          │
          ├── 周活跃用户数 (WAU)
          │      ├── 新用户获取
          │      ├── 老用户召回
          │      └── 活跃用户留存
          │
          ├── 人均对话数
          │      ├── 首次体验完成率
          │      ├── 功能发现率
          │      └── 使用场景覆盖
          │
          └── 平均满意度
                 ├── 回答准确率
                 ├── 响应速度
                 └── 交互体验

三、AI 质量指标体系

3.1 核心质量指标

指标定义计算方式目标值
准确率回答正确的比例人工评估 + 自动评估> 90%
相关性回答与问题的相关程度人工评分 (1-5)> 4.2
完整性回答是否完整解决问题追问率倒推> 85%
一致性相同问题回答的稳定性多次测试方差< 0.1
安全性无有害/违规内容自动检测 + 人工审核> 99.9%

3.2 质量指标计算方法

准确率评估:

# 评估集方法
def evaluate_accuracy(test_set, model):
    correct = 0
    total = len(test_set)

    for item in test_set:
        response = model.generate(item.question)
        # 自动评估(适用于有标准答案的场景)
        if auto_check(response, item.expected_answer):
            correct += 1
        # 人工评估(复杂场景)
        elif human_review(response, item.question):
            correct += 1

    return correct / total

# 线上抽检方法
def online_sampling_accuracy(conversations, sample_size=100):
    samples = random.sample(conversations, sample_size)
    correct = sum(1 for s in samples if human_review(s))
    return correct / sample_size

用户反馈指标:

指标收集方式计算
Thumbs Up/Down每条回答后按钮好评率 = Up / (Up + Down)
CSAT会话结束评分平均分 / 5
NPS定期问卷推荐者% - 贬损者%

3.3 质量监控看板

┌─────────────────────────────────────────────────────────┐
│                    AI 质量监控看板                       │
├─────────────────────────────────────────────────────────┤
│                                                         │
│  准确率趋势 (7日)          用户反馈分布                  │
│  ████████████ 92.3%       👍 78%  👎 15%  无反馈 7%     │
│  目标: 90%  ✅             目标: 80% 👍                  │
│                                                         │
├─────────────────────────────────────────────────────────┤
│                                                         │
│  响应延迟 (P50/P95/P99)    幻觉率 (本周)                 │
│  1.2s / 2.8s / 5.1s        2.1% ⚠️                     │
│  目标: P95 < 3s ✅         目标: < 2% 需关注             │
│                                                         │
├─────────────────────────────────────────────────────────┤
│                                                         │
│  问题类别准确率            实时告警                      │
│  技术问题: 94% ✅          ⚠️ 金融类问题准确率下降 5%   │
│  生活问题: 91% ✅          ✅ 无安全问题                 │
│  金融问题: 83% ⚠️         ✅ 延迟正常                   │
│                                                         │
└─────────────────────────────────────────────────────────┘

四、成本指标体系

4.1 成本指标分类

类别指标说明
API 成本每会话成本API 调用费用 / 会话数
基础设施每用户成本服务器、存储等 / 用户数
人工成本运营成本内容审核、Prompt 优化等
边际成本新增用户成本每新增用户带来的成本增量

4.2 成本计算模型

单会话成本 = 输入 Token 成本 + 输出 Token 成本 + 基础设施分摊

示例计算:
- 平均输入: 500 tokens × $0.005/1K = $0.0025
- 平均输出: 800 tokens × $0.015/1K = $0.012
- 基础设施: $0.001/会话
- 总成本: $0.0155/会话

月度成本预估:
- DAU: 10,000
- 人均会话: 5/天
- 月会话数: 10,000 × 5 × 30 = 1,500,000
- 月成本: 1,500,000 × $0.0155 = $23,250

4.3 成本优化指标

优化方向指标优化策略
模型选择小模型使用比例简单问题用 mini 模型
Prompt 优化平均 Token 数压缩 System Prompt
缓存命中缓存命中率相似问题复用结果
请求控制无效请求率前端预判,减少无效调用

五、用户行为指标

5.1 漏斗分析

用户旅程漏斗

访问首页 ─────────────────────────────── 100%
    │
    ▼
注册/登录 ────────────────────────────── 35%  (转化率: 35%)
    │
    ▼
首次使用 AI ──────────────────────────── 28%  (激活率: 80%)
    │
    ▼
完成首次对话 ─────────────────────────── 22%  (完成率: 79%)
    │
    ▼
正向反馈 (👍) ────────────────────────── 17%  (满意率: 77%)
    │
    ▼
次日回访 ─────────────────────────────── 12%  (次留: 71%)
    │
    ▼
周活跃用户 ───────────────────────────── 8%   (周留: 67%)

5.2 关键行为指标

指标定义健康值
激活率注册后使用核心功能的比例> 60%
Aha 时刻到达率体验到核心价值的用户比例> 40%
功能渗透率使用某功能的用户比例核心功能 > 50%
重新生成率点击「重新生成」的比例< 15%
编辑率AI 输出被编辑的比例< 30%
复制/分享率复制或分享 AI 输出的比例> 20%

5.3 留存分析

留存曲线类型:

用户留存率 (%)
│
│ ████  理想曲线(渐近线 > 20%)
│ ██████████████████████████████─────────────
│ ██
│ ████  可接受曲线(渐近线 10-20%)
│ ██████████████████████─────────────────────
│ ██
│ ████  问题曲线(持续下降)
│ █████████████████──────────────────────────
│
└────────────────────────────────────────────▶ 时间
   D1    D7    D14   D30   D60   D90

留存归因分析:

用户群D7 留存核心行为
高留存用户45%首周完成 10+ 对话,使用 3+ 功能
中留存用户22%首周完成 3-10 对话
低留存用户8%仅完成 1-2 对话

六、指标看板设计

6.1 分层看板

高管看板(North Star):

  • 北极星指标及趋势
  • 核心商业指标(收入、成本、利润)
  • 关键健康度(留存、NPS)

产品看板(日常运营):

  • DAU/WAU/MAU 及趋势
  • 漏斗转化率
  • 功能使用分布
  • 用户反馈汇总

AI 质量看板(技术运营):

  • 准确率/相关性/安全性
  • 模型性能(延迟、错误率)
  • 成本明细
  • 异常告警

6.2 告警规则设计

# 告警配置示例
alerts:
    - name: '准确率下降告警'
      metric: 'ai_accuracy_rate'
      condition: '< 0.88'
      window: '1h'
      severity: 'high'
      action: '通知产品+AI团队'

    - name: '成本异常告警'
      metric: 'hourly_api_cost'
      condition: '> daily_avg * 2'
      window: '1h'
      severity: 'medium'
      action: '通知技术团队'

    - name: '用户负反馈激增'
      metric: 'thumbs_down_rate'
      condition: '> 0.25'
      window: '30m'
      severity: 'high'
      action: '立即人工排查'

七、本章小结

维度关键点
北极星指标核心价值 × 使用频率 × 质量系数
AI 质量指标准确率、相关性、完整性、一致性、安全性
成本指标单会话成本、边际成本、模型分层策略
用户行为漏斗分析、留存曲线、关键行为归因
看板设计分层设计(高管/产品/技术),配置告警

实战练习

练习 1:北极星指标设计

为以下产品设计北极星指标:

  • AI 简历优化工具
  • AI 学习助手
  • AI 代码 Review 工具

练习 2:质量评估方案

设计一个 AI 客服的质量评估方案:

  • 定义评估维度和权重
  • 设计评估集构建方法
  • 制定人工抽检流程

练习 3:成本优化分析

某 AI 产品月 API 成本 $50,000,请分析:

  • 成本结构拆解(输入/输出/模型分布)
  • 提出 3 个优化方向
  • 估算优化后的成本节省

延伸阅读

📚 相关资源