07

AI 产品指标体系:衡量与优化

⏱️ 50分钟

AI 产品指标体系:衡量与优化

AI product 最危险的一种状态,是团队每天都很忙,但没人能准确回答“这个 feature 到底有没有变好”。只看 usage 不够,只看 thumbs up 也不够,只看模型 benchmark 更不够。AI PM 要管理的是一整套从 value 到 quality 再到 cost 的指标链条。

所以这页不是单纯讲 dashboard,而是帮你建立一套能驱动决策的 AI metrics system。

AI Product Metrics Board


先说结论:AI 指标不能只看增长,还要看代价

传统产品常见的误区是:活跃涨了,就以为产品变好了。
AI 产品还要追问:

  1. 用户有没有真正完成任务
  2. 完成质量怎么样
  3. 为了这个结果花了多少 cost

少任何一块,指标都会误导你。


AI Metrics 更像一张三层结构图

层级你该看什么
Businessrevenue、conversion、retention、ROI
Product / Qualitytask success、satisfaction、accuracy、regenerate rate
Efficiency / Costlatency、token usage、cost per task、margin

如果 dashboard 里只有第一层和第三层,中间没有 quality,你会不知道为什么用户在流失。
如果只有质量没有成本,你会不知道为什么业务算不过来。


North Star Metric,别设计得太虚

很多 AI 产品喜欢用“AI 使用次数”当 North Star。这个指标通常太浅。

更合理的思路是:

North Star = successful task completion x quality factor

举例:

产品类型更靠谱的 North Star
AI writing toolweekly adopted output
AI support copilotresolved tickets assisted by AI
AI searchsuccessful answer sessions
AI coding assistantaccepted AI-generated code changes

关键是“用户真的用了结果”,而不是“AI 只是说过一段话”。


先定义什么叫成功任务

AI PM 非常容易跳过这一步,直接上埋点。

但你必须先定义:

场景什么叫 success
AI summary用户不用重写太多就能继续用
AI drafting输出被采纳,而不是只生成
AI support问题被解决,而不是聊天轮数变长
AI search用户拿到可信答案并停止继续搜

没有 success definition,后面所有 metrics 都是半空的。


一套够用的核心指标

1. Value metrics

指标说明
task success rate任务有没有做成
adoption rate用户是否愿意继续用
assisted conversionAI 是否真的推动业务结果

2. Quality metrics

指标说明
satisfaction / thumbs up用户主观感受
regenerate rate用户对首答不满意的间接信号
hallucination rate高风险内容是否在乱说
edit distance / acceptance rate生成内容到底被改了多少

3. Efficiency metrics

指标说明
avg latency用户愿不愿意等
tokens per requestprompt 是否失控增长
cost per successful task这才是真正的经营指标
model routing ratio小模型和大模型的分流是否合理

最容易被误读的几个指标

指标为什么会误导
session length长不一定好,可能是模型没解决问题
total prompts多不一定代表价值,可能是用户在反复重试
thumbs up rate没反馈的人不代表满意
avg cost per request没结合 success 看,信息不够

AI PM 要养成一个习惯:任何单一指标,都要找一个反向指标一起看。


Dashboard 应该怎么搭更实用

一个更靠谱的 metrics board,至少分 4 块:

模块主要问题
acquisition / activation用户有没有真正进入 AI 场景
task quality首答、复答、采纳质量如何
cost / performance响应快不快,成本高不高
risk / trust有没有 bad answer、安全问题、投诉

这比单独看一张“DAU 曲线”有用得多。


质量指标,一定要混合自动和人工

很多 AI 产品前期都没有足够好的自动评估,所以人审不能省。

更稳的做法是:

online metrics
  + sampled human review
  + labeled bad cases
  + weekly trend review

自动指标告诉你“哪里可能有问题”,人工 review 才能告诉你“问题到底是什么”。


成本指标要直连业务

只报 monthly API bill 没什么管理价值。
更应该看:

指标更有用的问法
cost per request每次调用花多少钱
cost per successful task做成一件事要花多少钱
AI gross margin扣掉 AI cost 后还有没有空间
wasted generation ratio多少生成根本没被用上

如果你发现 usage 在涨,但 cost per successful task 也一起涨,那不一定是好消息。


一套简单但够用的 Weekly Review

每周复盘时,AI PM 最少回答这 5 个问题:

  1. 哪个 use case 的 success rate 变了
  2. 哪类 bad answer 变多了
  3. 用户是因为什么在 regenerate
  4. 哪条模型路由最烧钱
  5. 哪个指标变化值得进入下周 roadmap

把这 5 个问题固定下来,团队的数据讨论会清楚很多。


Practice

拿你现在在做的一个 AI feature,把现有 dashboard 看一遍,然后补 3 个问题:

  1. 现在有没有明确的 success definition
  2. 有没有 cost per successful task
  3. 有没有稳定的人审抽样机制

如果这 3 个都没有,这个 metrics system 基本还停留在“看热闹”阶段。

📚 相关资源

❓ 常见问题

关于本章主题最常被搜索的问题,点击展开答案

AI 产品指标体系的三层结构是什么?

Business(revenue、conversion、retention、ROI)、Product/Quality(task success、satisfaction、accuracy、regenerate rate)、Efficiency/Cost(latency、token usage、cost per task、margin)。只有第一层和第三层、缺中间 quality 层,就不知道用户为什么流失;只有质量没有成本,业务永远算不过来。

把「AI 使用次数」当 North Star 为什么不靠谱?

太浅——它只衡量「AI 说过话」,不衡量「用户用了结果」。更合理是 successful task completion × quality factor:AI writing 看 weekly adopted output、support copilot 看 AI-assisted resolved tickets、AI search 看 successful answer sessions、coding assistant 看 accepted AI-generated code changes。

哪些 AI 指标看起来正常其实在误导你?

4 个常见陷阱:session length(长不一定好,可能是模型没解决问题)、total prompts(多不一定有价值,可能是用户在反复重试)、thumbs up rate(没反馈的人不代表满意)、avg cost per request(没结合 success 看信息不够)。任何单一指标都要找一个反向指标一起看。

AI 产品的 success definition 该怎么定?

按场景具体写:AI summary——用户不用大改就能继续用;AI drafting——输出被采纳而不是只生成;AI support——问题被解决而不是聊天轮数变长;AI search——用户拿到可信答案并停止继续搜。没有 success definition,后面所有指标都是半空的。

AI 成本指标怎么报才对业务有意义?

光报 monthly API bill 没管理价值。盯 4 个:cost per request(每次调用花多少)、cost per successful task(做成一件事的钱)、AI gross margin(扣掉 AI cost 还剩多少)、wasted generation ratio(多少生成根本没被用上)。如果 usage 在涨但 cost per successful task 也在涨,那不一定是好消息。