logo
07

AI 产品指标体系:衡量与优化

⏱️ 50分钟

AI 产品指标体系:衡量与优化

AI product 最危险的一种状态,是团队每天都很忙,但没人能准确回答“这个 feature 到底有没有变好”。只看 usage 不够,只看 thumbs up 也不够,只看模型 benchmark 更不够。AI PM 要管理的是一整套从 value 到 quality 再到 cost 的指标链条。

所以这页不是单纯讲 dashboard,而是帮你建立一套能驱动决策的 AI metrics system。

AI Product Metrics Board


先说结论:AI 指标不能只看增长,还要看代价

传统产品常见的误区是:活跃涨了,就以为产品变好了。
AI 产品还要追问:

  1. 用户有没有真正完成任务
  2. 完成质量怎么样
  3. 为了这个结果花了多少 cost

少任何一块,指标都会误导你。


AI Metrics 更像一张三层结构图

层级你该看什么
Businessrevenue、conversion、retention、ROI
Product / Qualitytask success、satisfaction、accuracy、regenerate rate
Efficiency / Costlatency、token usage、cost per task、margin

如果 dashboard 里只有第一层和第三层,中间没有 quality,你会不知道为什么用户在流失。
如果只有质量没有成本,你会不知道为什么业务算不过来。


North Star Metric,别设计得太虚

很多 AI 产品喜欢用“AI 使用次数”当 North Star。这个指标通常太浅。

更合理的思路是:

North Star = successful task completion x quality factor

举例:

产品类型更靠谱的 North Star
AI writing toolweekly adopted output
AI support copilotresolved tickets assisted by AI
AI searchsuccessful answer sessions
AI coding assistantaccepted AI-generated code changes

关键是“用户真的用了结果”,而不是“AI 只是说过一段话”。


先定义什么叫成功任务

AI PM 非常容易跳过这一步,直接上埋点。

但你必须先定义:

场景什么叫 success
AI summary用户不用重写太多就能继续用
AI drafting输出被采纳,而不是只生成
AI support问题被解决,而不是聊天轮数变长
AI search用户拿到可信答案并停止继续搜

没有 success definition,后面所有 metrics 都是半空的。


一套够用的核心指标

1. Value metrics

指标说明
task success rate任务有没有做成
adoption rate用户是否愿意继续用
assisted conversionAI 是否真的推动业务结果

2. Quality metrics

指标说明
satisfaction / thumbs up用户主观感受
regenerate rate用户对首答不满意的间接信号
hallucination rate高风险内容是否在乱说
edit distance / acceptance rate生成内容到底被改了多少

3. Efficiency metrics

指标说明
avg latency用户愿不愿意等
tokens per requestprompt 是否失控增长
cost per successful task这才是真正的经营指标
model routing ratio小模型和大模型的分流是否合理

最容易被误读的几个指标

指标为什么会误导
session length长不一定好,可能是模型没解决问题
total prompts多不一定代表价值,可能是用户在反复重试
thumbs up rate没反馈的人不代表满意
avg cost per request没结合 success 看,信息不够

AI PM 要养成一个习惯:任何单一指标,都要找一个反向指标一起看。


Dashboard 应该怎么搭更实用

一个更靠谱的 metrics board,至少分 4 块:

模块主要问题
acquisition / activation用户有没有真正进入 AI 场景
task quality首答、复答、采纳质量如何
cost / performance响应快不快,成本高不高
risk / trust有没有 bad answer、安全问题、投诉

这比单独看一张“DAU 曲线”有用得多。


质量指标,一定要混合自动和人工

很多 AI 产品前期都没有足够好的自动评估,所以人审不能省。

更稳的做法是:

online metrics
  + sampled human review
  + labeled bad cases
  + weekly trend review

自动指标告诉你“哪里可能有问题”,人工 review 才能告诉你“问题到底是什么”。


成本指标要直连业务

只报 monthly API bill 没什么管理价值。
更应该看:

指标更有用的问法
cost per request每次调用花多少钱
cost per successful task做成一件事要花多少钱
AI gross margin扣掉 AI cost 后还有没有空间
wasted generation ratio多少生成根本没被用上

如果你发现 usage 在涨,但 cost per successful task 也一起涨,那不一定是好消息。


一套简单但够用的 Weekly Review

每周复盘时,AI PM 最少回答这 5 个问题:

  1. 哪个 use case 的 success rate 变了
  2. 哪类 bad answer 变多了
  3. 用户是因为什么在 regenerate
  4. 哪条模型路由最烧钱
  5. 哪个指标变化值得进入下周 roadmap

把这 5 个问题固定下来,团队的数据讨论会清楚很多。


Practice

拿你现在在做的一个 AI feature,把现有 dashboard 看一遍,然后补 3 个问题:

  1. 现在有没有明确的 success definition
  2. 有没有 cost per successful task
  3. 有没有稳定的人审抽样机制

如果这 3 个都没有,这个 metrics system 基本还停留在“看热闹”阶段。

📚 相关资源