AI PM 认知升级:技术边界与商业逻辑
AI PM 认知升级:技术边界与商业逻辑
交付物:AI 产品模型选型矩阵 & 成本预估表
为什么 AI PM 需要认知升级?
传统产品经理的核心能力是"理解用户需求,设计解决方案"。但在 AI 时代,这个定义需要扩展——你不仅要理解用户,还要理解 AI 的能力边界、成本结构和技术限制。
很多产品经理在接触 AI 产品时会犯一个常见错误:把 AI 当成万能工具。他们会设想各种"理想"的功能,却不知道:
- 这个功能现有模型能不能做到?
- 做到了成本是多少?
- 用户愿意为这个功能付费吗?
这一章的目标,是帮你建立 AI 产品经理的核心认知框架,让你在设计 AI 产品时,能够做出有依据的决策。
1. LLM 运行机制:PM 必须理解的技术概念
1.1 Transformer 与 Token
Transformer 是当前所有主流大语言模型(GPT、Claude、Gemini)的底层架构。作为 PM,你不需要理解数学细节,但需要知道几个关键概念:
Token(词元)
- LLM 不是按"字"或"词"处理文本,而是按 Token 处理
- 1 个中文字 ≈ 1.5-2 个 Token
- 1 个英文单词 ≈ 1-2 个 Token
- 为什么重要:API 按 Token 计费,Token 数量直接影响成本
示例:
"你好,世界" = 5 个 Token(约)
"Hello, World" = 4 个 Token(约)
Context Window(上下文窗口)
- 模型能"记住"的最大 Token 数量
- GPT-4o: 128K tokens
- Claude 3.5 Sonnet: 200K tokens
- Gemini 1.5 Pro: 1M tokens
为什么重要:上下文窗口决定了你能输入多少信息。如果你的产品需要处理长文档(如合同审阅),就需要选择大窗口的模型。
1.2 模型的本质:概率预测机器
LLM 的本质是下一个 Token 预测器。它根据之前的文本,预测下一个最可能出现的 Token。
这意味着:
- LLM 没有真正的"理解",它是在做统计匹配
- LLM 会"一本正经地胡说八道"(Hallucination)
- LLM 的输出是概率性的,同样的输入可能产生不同的输出
PM 启示:
- 不要让 AI 处理需要 100% 准确的任务(如财务计算)
- 需要设计验证机制来检测幻觉
- 使用 temperature 参数 控制输出的确定性
2. 模型选型:闭源 vs 开源
2.1 主流模型对比
| 模型 | 厂商 | 定位 | 适用场景 | 价格区间 |
|---|---|---|---|---|
| GPT-4o | OpenAI | 全能旗舰 | 复杂推理、多模态 | $5-15/1M tokens |
| Claude 3.5 Sonnet | Anthropic | 代码/写作 | 长文档、代码生成 | $3-15/1M tokens |
| Gemini 1.5 Pro | 多模态 | 视频理解、长上下文 | $3.5-10.5/1M tokens | |
| GPT-4o mini | OpenAI | 性价比 | 简单任务、高并发 | $0.15-0.6/1M tokens |
| Llama 3.1 70B | Meta | 开源旗舰 | 私有部署、定制微调 | 自部署成本 |
| Qwen 2.5 72B | 阿里 | 中文优化 | 中文场景、国内合规 | 自部署/API |
2.2 选型决策树
你的场景需要什么?
│
├── 需要最强能力(复杂推理、专业领域)
│ └── GPT-4o / Claude 3.5 Opus
│
├── 需要高性价比(大量简单任务)
│ └── GPT-4o mini / Claude 3.5 Haiku
│
├── 需要私有部署(数据安全、合规要求)
│ └── Llama 3.1 / Qwen 2.5 / 私有化部署
│
├── 需要处理长文档(>50K tokens)
│ └── Claude 3.5 / Gemini 1.5 Pro
│
└── 需要多模态(图片/视频理解)
└── GPT-4o / Gemini 1.5 Pro
2.3 模型选型矩阵(交付物)
| 场景 | 推荐模型 | 备选模型 | 关键考量 |
|---|---|---|---|
| 智能客服 | GPT-4o mini | Claude Haiku | 成本优先,响应速度 |
| 代码生成 | Claude 3.5 Sonnet | GPT-4o | 代码质量,长上下文 |
| 文档总结 | Claude 3.5 | Gemini 1.5 | 长文档处理能力 |
| 知识问答 | GPT-4o + RAG | Claude + RAG | 准确性,幻觉控制 |
| 图片理解 | GPT-4o | Gemini 1.5 | 多模态能力 |
| 私有部署 | Llama 3.1 70B | Qwen 2.5 72B | 开源,可定制 |
| 中文场景 | Qwen 2.5 | Claude 3.5 | 中文理解,国内合规 |
3. 幻觉(Hallucination)识别与边界控制
3.1 什么是幻觉?
幻觉是指 LLM 生成看起来合理、但实际错误或捏造的内容。
常见幻觉类型:
- 事实错误:错误的日期、数字、人名
- 来源捏造:编造不存在的引用、论文
- 逻辑跳跃:看似合理但实际错误的推理
- 自信的无知:对不知道的问题给出自信的错误答案
3.2 幻觉检测策略
| 策略 | 实现方式 | 适用场景 |
|---|---|---|
| RAG 验证 | 用检索结果验证生成内容 | 知识密集型应用 |
| Self-Consistency | 多次生成,比较一致性 | 推理任务 |
| Fact-Check API | 调用外部验证服务 | 新闻、事实核查 |
| Human-in-the-Loop | 关键决策人工审核 | 高风险场景 |
| Confidence Score | 模型输出置信度 | 需要可解释性 |
3.3 PM 如何设计防幻觉机制?
产品设计原则:
1. 明确告知用户"AI 可能出错"
└── 在界面上标注"AI 生成内容,仅供参考"
2. 提供来源/引用
└── RAG 场景下,展示原文出处
3. 设置人工复核节点
└── 关键决策前,增加"确认"步骤
4. 限定使用范围
└── 不要让 AI 处理需要 100% 准确的任务
4. AI Native UX 原则
4.1 非确定性交互设计
传统软件是确定性的:点击按钮 → 固定结果。 AI 产品是非确定性的:同样的输入 → 可能不同的结果。
设计原则:
- 允许用户重新生成(Regenerate)
- 提供多个选项让用户选择
- 支持渐进式优化(迭代 Prompt)
4.2 Streaming 输出设计
LLM 生成内容需要时间(几秒到几十秒)。Streaming 让用户看到实时输出,而不是等待完整结果。
为什么重要:
- 减少用户焦虑
- 提升感知速度
- 用户可以提前判断是否满意
4.3 期望管理
| 场景 | 传统软件 | AI 产品 |
|---|---|---|
| 搜索 | 精确匹配 | 语义理解,可能有误差 |
| 生成 | 模板填充 | 创意生成,质量不稳定 |
| 对话 | 预设流程 | 自由对话,可能跑偏 |
| 推荐 | 规则匹配 | 个性化,需要数据积累 |
PM 启示:在产品设计中,主动管理用户期望,避免 AI 能力被过度神化。
5. Token Unit Economics(单位成本精算)
5.1 成本构成
AI 产品的成本主要包括:
- API 调用成本:按 Token 计费
- 基础设施成本:服务器、数据库、CDN
- 开发成本:工程师、PM、设计
- 运营成本:客服、内容审核
5.2 API 成本计算
以 GPT-4o 为例:
- 输入:$5 / 1M tokens
- 输出:$15 / 1M tokens
场景估算:智能客服机器人
假设:
- 每次对话平均 5 轮
- 每轮用户输入:50 tokens
- 每轮 AI 输出:200 tokens
- System Prompt:500 tokens
单次对话成本:
- 输入 tokens = 500 + (50 × 5) = 750 tokens
- 输出 tokens = 200 × 5 = 1000 tokens
- 成本 = (750 × $5 + 1000 × $15) / 1M
= $0.00375 + $0.015
= $0.01875 / 对话
日活 10,000 用户,每人 3 次对话:
- 日成本 = 10,000 × 3 × $0.01875 = $562.5
- 月成本 = $562.5 × 30 = $16,875
5.3 成本优化策略
| 策略 | 节省比例 | 适用场景 |
|---|---|---|
| 使用更小的模型 | 50-90% | 简单任务 |
| 压缩 Prompt | 10-30% | 固定模板场景 |
| 缓存重复请求 | 20-50% | 高频重复问题 |
| 本地模型兜底 | 30-70% | 混合部署 |
| 批量处理 | 20-40% | 非实时场景 |
5.4 成本预估表(交付物)
| 产品类型 | 日活用户 | 每用户调用 | 单次成本 | 月成本估算 |
|---|---|---|---|---|
| AI 客服 | 10,000 | 3 次 | $0.02 | $18,000 |
| AI 写作 | 5,000 | 5 次 | $0.05 | $37,500 |
| AI 搜索 | 50,000 | 10 次 | $0.01 | $150,000 |
| AI 编程 | 2,000 | 20 次 | $0.08 | $96,000 |
6. AI 产品商业价值评估
6.1 价值公式
AI 产品价值 = (效率提升 × 用户基数 × 付费意愿) - (API 成本 + 运营成本)
6.2 ROI 计算框架
Step 1: 量化效率提升
- 原来完成任务需要多长时间?
- 使用 AI 后需要多长时间?
- 时间成本 = 小时数 × 时薪
Step 2: 估算用户付费意愿
- 解决的痛点有多痛?
- 市场上有替代方案吗?
- 目标用户的付费能力?
Step 3: 计算 Unit Economics
- 每用户月成本(API + 分摊运营)
- 每用户月收入(订阅 / 按次付费)
- LTV(用户生命周期价值)vs CAC(获客成本)
6.3 商业模式选择
| 模式 | 优点 | 缺点 | 适用场景 |
|---|---|---|---|
| 订阅制 | 收入稳定 | 需要持续提供价值 | 高频使用场景 |
| 按量付费 | 低门槛 | 收入波动大 | API、工具类 |
| 免费增值 | 快速获客 | 转化率低 | 需要规模效应 |
| 企业定制 | 客单价高 | 销售成本高 | B2B 场景 |
实战练习
练习 1:模型选型
场景:你要做一个 AI 合同审阅工具,用户上传合同 PDF,AI 识别风险条款并给出建议。
问题:
- 应该选择什么模型?为什么?
- 上下文窗口需要多大?
- 如何控制幻觉风险?
练习 2:成本估算
场景:AI 写作助手,目标日活 5,000 用户,每用户每天生成 3 篇文章,每篇约 1,000 字。
问题:
- 计算每篇文章的 Token 数
- 估算单次生成成本(使用 GPT-4o mini)
- 计算月度 API 成本
练习 3:商业价值评估
场景:AI 客服机器人,替代人工客服处理 70% 的常见问题。
问题:
- 如何量化"替代人工"的价值?
- 客户愿意为这个方案付多少钱?
- 你的定价策略是什么?
本章小结
通过这一章的学习,你应该建立了以下认知:
- 技术认知:理解 Token、上下文窗口、幻觉等核心概念
- 选型能力:能够根据场景选择合适的模型
- 成本意识:能够估算 AI 产品的 API 成本
- 商业思维:能够评估 AI 产品的商业价值
下一章,我们将学习如何使用 Prompt Engineering 来提升文档生成效率。