20
AI 交接与值班应急
AI 值班与交接:消灭“上下文断层”
值班(On-call)和交接最折磨人的不是任务多,而是信息碎。AI 在这里的核心角色不是替你做决定,而是帮你从乱七八糟的聊天记录和告警日志中,瞬间抓取关键上下文。
1) 事故通报:从“群聊乱战”到“结构化通报”
当线上出问题时,群里全是“收到”、“我查查”、“重启试试”。作为值班人员,你需要快速给老板和协作团队一个清晰的现状。
🚀 实战技巧:碎片化信息提取
将过去 10 分钟的群聊记录直接复制给 AI:
专家版 Prompt:
你是 SRE 响应专家。请阅读以下原始聊天记录(粘贴记录),提取并输出一份《事故快报》:
1. 【现状】目前受影响的业务模块和影响面。
2. 【进展】已执行的操作(如:回滚、扩容、摘除节点)。
3. 【关键节点】故障发现时间、首响时间、目前的排查阶段。
4. 【下一步】需要谁配合、预计多久给下一次更新。
注意:剔除聊天中的废话和表情包,只保留硬核事实。
2) 智能交接包:不只是写文档
传统的交接文档写完就过期。AI 可以帮你把“脑子里的零散信息”变成“新人的生存指南”。
💡 场景模拟:
你要休假一周,需要把项目交接给同事。
提升 Prompt:
我要休假,请帮我整理一份交接清单。
背景:项目 A 正在灰度,B 功能测试中,C 客户昨天投诉了接口慢。
任务:请输出:
- 【待办优先级】按紧急度排序(High/Medium/Low)。
- 【风险雷达】列出 3 个最可能出问题的地方及对应的“救火手册”(Runbook)。
- 【关系网】谁是核心决策人?出事了找谁最快?
- 【自检项】请新人在接手第一天必做的 3 件事。
3) 避坑指南:安全是红线
| 风险点 | 错误做法 | 专家建议 |
|---|---|---|
| 敏感信息 | 在 Prompt 里贴入数据库密码或 Token | 严禁上传任何真实密钥。使用 [DB_PASSWORD] 等占位符。 |
| 日志隐私 | 直接上传包含用户手机号/身份证的日志 | 先让 AI 写一个 Python 脚本来脱敏,或者手动模糊化关键信息。 |
| 过度依赖 | 照抄 AI 给出的修复命令(如 rm -rf) | AI 给出的命令必须经过人工二次确认,严禁在生产环境直接运行 AI 生成的复杂 Shell 脚本。 |
4) 进阶:自动化 Runbook
你可以让 AI 预先为你负责的模块写好“应急剧本”。
示例:
“你是系统专家。如果我的服务出现 HTTP 504 且 QPS 翻倍,请给我列出 5 个排查步骤和对应的命令。”
5) 动手练习
任务:模拟一次“假故障”。
- 随意写一段 5-8 行的混乱聊天记录。
- 让 AI 尝试将其总结为一份发给 CTO 的邮件通报。
- 调整 Prompt,直到 AI 能够准确识别出谁是“解决问题的负责人”。