AI 产品指标体系:衡量与优化
AI 产品指标体系:衡量与优化
AI product 最危险的一种状态,是团队每天都很忙,但没人能准确回答“这个 feature 到底有没有变好”。只看 usage 不够,只看 thumbs up 也不够,只看模型 benchmark 更不够。AI PM 要管理的是一整套从 value 到 quality 再到 cost 的指标链条。
所以这页不是单纯讲 dashboard,而是帮你建立一套能驱动决策的 AI metrics system。
先说结论:AI 指标不能只看增长,还要看代价
传统产品常见的误区是:活跃涨了,就以为产品变好了。
AI 产品还要追问:
- 用户有没有真正完成任务
- 完成质量怎么样
- 为了这个结果花了多少 cost
少任何一块,指标都会误导你。
AI Metrics 更像一张三层结构图
| 层级 | 你该看什么 |
|---|---|
| Business | revenue、conversion、retention、ROI |
| Product / Quality | task success、satisfaction、accuracy、regenerate rate |
| Efficiency / Cost | latency、token usage、cost per task、margin |
如果 dashboard 里只有第一层和第三层,中间没有 quality,你会不知道为什么用户在流失。
如果只有质量没有成本,你会不知道为什么业务算不过来。
North Star Metric,别设计得太虚
很多 AI 产品喜欢用“AI 使用次数”当 North Star。这个指标通常太浅。
更合理的思路是:
North Star = successful task completion x quality factor
举例:
| 产品类型 | 更靠谱的 North Star |
|---|---|
| AI writing tool | weekly adopted output |
| AI support copilot | resolved tickets assisted by AI |
| AI search | successful answer sessions |
| AI coding assistant | accepted AI-generated code changes |
关键是“用户真的用了结果”,而不是“AI 只是说过一段话”。
先定义什么叫成功任务
AI PM 非常容易跳过这一步,直接上埋点。
但你必须先定义:
| 场景 | 什么叫 success |
|---|---|
| AI summary | 用户不用重写太多就能继续用 |
| AI drafting | 输出被采纳,而不是只生成 |
| AI support | 问题被解决,而不是聊天轮数变长 |
| AI search | 用户拿到可信答案并停止继续搜 |
没有 success definition,后面所有 metrics 都是半空的。
一套够用的核心指标
1. Value metrics
| 指标 | 说明 |
|---|---|
| task success rate | 任务有没有做成 |
| adoption rate | 用户是否愿意继续用 |
| assisted conversion | AI 是否真的推动业务结果 |
2. Quality metrics
| 指标 | 说明 |
|---|---|
| satisfaction / thumbs up | 用户主观感受 |
| regenerate rate | 用户对首答不满意的间接信号 |
| hallucination rate | 高风险内容是否在乱说 |
| edit distance / acceptance rate | 生成内容到底被改了多少 |
3. Efficiency metrics
| 指标 | 说明 |
|---|---|
| avg latency | 用户愿不愿意等 |
| tokens per request | prompt 是否失控增长 |
| cost per successful task | 这才是真正的经营指标 |
| model routing ratio | 小模型和大模型的分流是否合理 |
最容易被误读的几个指标
| 指标 | 为什么会误导 |
|---|---|
| session length | 长不一定好,可能是模型没解决问题 |
| total prompts | 多不一定代表价值,可能是用户在反复重试 |
| thumbs up rate | 没反馈的人不代表满意 |
| avg cost per request | 没结合 success 看,信息不够 |
AI PM 要养成一个习惯:任何单一指标,都要找一个反向指标一起看。
Dashboard 应该怎么搭更实用
一个更靠谱的 metrics board,至少分 4 块:
| 模块 | 主要问题 |
|---|---|
| acquisition / activation | 用户有没有真正进入 AI 场景 |
| task quality | 首答、复答、采纳质量如何 |
| cost / performance | 响应快不快,成本高不高 |
| risk / trust | 有没有 bad answer、安全问题、投诉 |
这比单独看一张“DAU 曲线”有用得多。
质量指标,一定要混合自动和人工
很多 AI 产品前期都没有足够好的自动评估,所以人审不能省。
更稳的做法是:
online metrics
+ sampled human review
+ labeled bad cases
+ weekly trend review
自动指标告诉你“哪里可能有问题”,人工 review 才能告诉你“问题到底是什么”。
成本指标要直连业务
只报 monthly API bill 没什么管理价值。
更应该看:
| 指标 | 更有用的问法 |
|---|---|
| cost per request | 每次调用花多少钱 |
| cost per successful task | 做成一件事要花多少钱 |
| AI gross margin | 扣掉 AI cost 后还有没有空间 |
| wasted generation ratio | 多少生成根本没被用上 |
如果你发现 usage 在涨,但 cost per successful task 也一起涨,那不一定是好消息。
一套简单但够用的 Weekly Review
每周复盘时,AI PM 最少回答这 5 个问题:
- 哪个 use case 的 success rate 变了
- 哪类 bad answer 变多了
- 用户是因为什么在 regenerate
- 哪条模型路由最烧钱
- 哪个指标变化值得进入下周 roadmap
把这 5 个问题固定下来,团队的数据讨论会清楚很多。
Practice
拿你现在在做的一个 AI feature,把现有 dashboard 看一遍,然后补 3 个问题:
- 现在有没有明确的 success definition
- 有没有
cost per successful task - 有没有稳定的人审抽样机制
如果这 3 个都没有,这个 metrics system 基本还停留在“看热闹”阶段。