logo
20

AI 交接与值班应急

⏱️ 20分钟

AI 值班与交接:消灭“上下文断层”

值班(On-call)和交接最折磨人的不是任务多,而是信息碎。AI 在这里的核心角色不是替你做决定,而是帮你从乱七八糟的聊天记录和告警日志中,瞬间抓取关键上下文


1) 事故通报:从“群聊乱战”到“结构化通报”

当线上出问题时,群里全是“收到”、“我查查”、“重启试试”。作为值班人员,你需要快速给老板和协作团队一个清晰的现状。

🚀 实战技巧:碎片化信息提取

将过去 10 分钟的群聊记录直接复制给 AI:

专家版 Prompt

你是 SRE 响应专家。请阅读以下原始聊天记录(粘贴记录),提取并输出一份《事故快报》:
1. 【现状】目前受影响的业务模块和影响面。
2. 【进展】已执行的操作(如:回滚、扩容、摘除节点)。
3. 【关键节点】故障发现时间、首响时间、目前的排查阶段。
4. 【下一步】需要谁配合、预计多久给下一次更新。
注意:剔除聊天中的废话和表情包,只保留硬核事实。

2) 智能交接包:不只是写文档

传统的交接文档写完就过期。AI 可以帮你把“脑子里的零散信息”变成“新人的生存指南”。

💡 场景模拟:

你要休假一周,需要把项目交接给同事。

提升 Prompt

我要休假,请帮我整理一份交接清单。
背景:项目 A 正在灰度,B 功能测试中,C 客户昨天投诉了接口慢。
任务:请输出:
- 【待办优先级】按紧急度排序(High/Medium/Low)。
- 【风险雷达】列出 3 个最可能出问题的地方及对应的“救火手册”(Runbook)。
- 【关系网】谁是核心决策人?出事了找谁最快?
- 【自检项】请新人在接手第一天必做的 3 件事。

3) 避坑指南:安全是红线

风险点错误做法专家建议
敏感信息在 Prompt 里贴入数据库密码或 Token严禁上传任何真实密钥。使用 [DB_PASSWORD] 等占位符。
日志隐私直接上传包含用户手机号/身份证的日志先让 AI 写一个 Python 脚本来脱敏,或者手动模糊化关键信息。
过度依赖照抄 AI 给出的修复命令(如 rm -rfAI 给出的命令必须经过人工二次确认,严禁在生产环境直接运行 AI 生成的复杂 Shell 脚本。

4) 进阶:自动化 Runbook

你可以让 AI 预先为你负责的模块写好“应急剧本”。

示例: “你是系统专家。如果我的服务出现 HTTP 504 且 QPS 翻倍,请给我列出 5 个排查步骤和对应的命令。”


5) 动手练习

任务:模拟一次“假故障”。

  1. 随意写一段 5-8 行的混乱聊天记录。
  2. 让 AI 尝试将其总结为一份发给 CTO 的邮件通报。
  3. 调整 Prompt,直到 AI 能够准确识别出谁是“解决问题的负责人”。