本文目录#
事故指挥角色#
- Incident Commander (IC):总体协调、决策、沟通;
- Operations Lead:执行技术操作;
- Communications Lead:对内对外通报;
- Scribe:记录事件与时间线;
- Subject Matter Expert:提供专业支持。
流程#
- 触发:告警或人工报告;
- 评估:确认严重等级,召集团队;
- 分配角色:IC 指定各角色,建立沟通频道;
- 缓解措施:Ops Lead 实施回滚、降级、限流;
- 沟通:定期向利益相关者更新状态;
- 结束标准:指标恢复、业务确认;
- 事后复盘:输出报告、改进行动项。
工具与模板#
- ChatOps(Slack、Teams)指定 war-room;
- PagerDuty、Opsgenie 值班调度;
- Runbook 模板(Google Docs/Confluence);
- 时间线记录工具(Blameless、JupiterOne)。
最佳实践#
- 单人负责决策,避免多人争夺;
- 定期训练(GameDay);
- 建立错误预算、发布策略联动;
- 复盘时关注流程与系统改进,不归咎个人。
自检清单#
- 是否定义清晰的角色与替补列表?
- 是否建立统一的事故通报模板与节奏?
- 是否追踪改进项并在后续验证?
参考资料#
- Google SRE Workbook - Incident Response:https://sre.google/workbook/incident-response/
- PagerDuty Incident Response 文档:https://response.pagerduty.com/
- Atlassian Incident Handbook:https://www.atlassian.com/incident-management/handbook
本作品系原创,采用知识共享署名-非商业性使用-禁止演绎 4.0 国际许可协议进行许可,转载请注明出处。