logo
09

AI 团队协作:PM 与工程师的高效配合

⏱️ 45分钟

AI 团队协作:PM 与工程师的高效配合

AI 项目最常见的失败方式,不是模型不够强,而是 PM 和 Engineer 从第一周开始就在用两套语言说话。PM 讲 user value、deadline、体验;Engineer 讲 latency、hallucination、token、fallback。两边都没错,但如果没有共同的决策接口,项目会一直卡在“大家都觉得自己说清楚了”。

所以这页的重点不是讲谁该做什么,而是怎么把 AI 项目的协作从抽象讨论,变成可执行的分工和 review 机制。

AI PM Collaboration Workflow


先说结论:AI 协作最怕的不是意见不一致,而是边界不清

一个健康的 AI team,不需要 PM 懂所有技术细节,也不需要 Engineer 替 PM 定业务优先级。
真正重要的是三件事:

  1. 谁定义 success
  2. 谁判断 feasibility
  3. 谁对 bad outcome 负责

这三件事说不清,后面每次评审都会重复争论。


PM 和 Engineer 该怎么分工才合理

更实用的理解不是“谁更懂 AI”,而是谁负责哪类决策。

决策类型PM 更主导共同决策Engineer 更主导
用户问题定义用户任务、业务目标边界条件不主导
能力判断不主导能做多好、做到什么程度模型与架构可行性
交付标准success metric、上线标准eval / guardrail实现方式与测试
成本取舍ROI、优先级model routing、质量阈值技术优化细节
风险控制合规和业务风险fallback、review flow安全机制与隔离

PM 不该替 Engineer 承诺能力边界,Engineer 也不该替 PM 决定这件事值不值得做。


AI 项目里最常见的 4 类协作误区

误区实际后果
PM 只写“做一个 AI 助手”Engineer 无法判断范围和质量标准
Engineer 只说“技术上能做”团队误以为已经具备商用价值
双方都不写 edge case上线后全靠用户帮你发现问题
讨论只围绕模型,不围绕 taskroadmap 会越来越偏技术炫耀

如果你的周会总在讨论“要不要换模型”,但很少讨论“用户任务是否真的被完成”,协作方向已经有点歪了。


一份 AI 需求,至少要写到什么程度

AI feature 的需求文档,比普通功能更需要 examples 和 boundaries。

推荐至少写清这 6 块:

模块你应该写什么
user task用户要完成什么,而不是功能名
input / output输入是什么,输出长什么样
success definition怎么算真的帮到了用户
unacceptable failure哪些错法绝不能接受
latency / cost expectation用户能等多久,业务能花多少钱
review path出问题时如何回滚和兜底

没有这几块,Engineer 很容易只能凭经验补全你的需求。


例子:把模糊需求改成可协作需求

差的写法

做一个 AI 总结会议纪要功能

更好的写法

User task:
在 30 分钟会议后,用户希望 1 分钟内拿到可转发的 summary。

Input:
- transcript
- meeting title
- participants

Output:
- summary
- action items
- owner
- deadline if mentioned

Success:
- 用户无需大改即可发给 team
- action item 提取准确率达标

Unacceptable failure:
- 编造 owner
- 把讨论项写成已决定事项
- 漏掉关键 next step

这类需求写法,才真正能让 Engineer 进入正确的问题空间。


技术评审,不是让 Engineer 做单向汇报

AI technical review 更像一个 joint decision meeting。

建议每次评审至少回答这 5 个问题:

  1. 这个 use case 模型能稳定做到几分
  2. 失败的主要模式是什么
  3. 我们打算怎么评估它
  4. 这版上线的 guardrail 是什么
  5. 出问题时回滚哪个层

如果技术评审最后只留下“看起来能做”,那其实不算评审。


共同语言要尽量 productized

PM 不需要追着学所有术语,但一些关键词必须共用定义。

协作里更实用的解释
hallucination模型说得像真的,但其实不可靠
eval set用来验证版本前后差异的一组题
latency用户从提交到看到结果要等多久
fallback模型不稳时系统怎么兜底
grounding回答有没有基于真实 source

协作效率很大程度上取决于这些词双方是不是指同一件事。


冲突通常发生在哪

AI 项目里最常见的冲突,不是人际问题,而是 tradeoff 冲突。

冲突点PM 在意什么Engineer 在意什么
上线时间能不能尽快验证价值会不会带着明显风险上线
模型选择用户体验够不够强成本和稳定性是否可控
质量标准用户能不能接受这个标准技术上是否现实
scope能不能多做一点场景边界一大就很难稳

处理这类冲突最有效的方法,不是争论谁更懂,而是把问题改写成:

如果我们只先做最小可控场景,能不能先上线验证?


一套够用的协作节奏

更稳的 AI project cadence 通常是:

problem framing
  -> example collection
  -> technical review
  -> small eval
  -> limited rollout
  -> weekly quality review

这条线里,PM 最重要的贡献不是催进度,而是把例子、坏例子、业务判断带进来。


Weekly Review 该看什么

每周至少一起看这几类东西:

  • 3 个明显变好的 case
  • 3 个明显翻车的 case
  • 用户抱怨最多的 failure mode
  • 本周最贵的一条调用链
  • 下周是否要扩 scope 或收 scope

这比只看 ticket 完成率有用得多。


Practice

拿你现在正在推进的一个 AI feature,和 Engineer 对齐 4 件事:

  1. 成功样例长什么样
  2. 最不能接受的错误是什么
  3. 这版上线先覆盖哪些场景
  4. 出问题后先回滚哪一层

这 4 个问题对齐后,协作阻力会明显下降。

📚 相关资源