SRE事故响应和复盘的应用分享

作者:中国SRE联盟 时间:2022-11-24
《Google SRE工作手册》第三期事故响应和复盘的应用分享,内容包含了一次良好的紧急事件的响应流程,事后对紧急事件的学习和管理,以及紧急事件响应和事后总结的实际落地。

《Google SRE工作手册》第三期事故响应和复盘的应用分享

本期分享要点:

1、一次良好的紧急事件的响应流程

2、事后对紧急事件的学习和管理

3、紧急事件响应和事后总结的实际落地


一、一次良好的紧急事件的响应流程

有效的紧急事故管理是控制事故影响和迅速恢复运营的关键因素。

SRE紧急事件的响应流程


在书中的紧急事故管理章节,详细描述了对于同一件应急事件的两种处理方式(无流程管理、有流程管理)。经过对两次处理的分析对比,书中清晰的给出了一个结论:有效的紧急事故管理是控制事故影响和迅速恢复运营的关键因素。


因此为了降低影响和控制风险,我们需要制定紧急事件响应流程,并且不断地优化迭代。在制定响应流程管理紧急的事件的时候,流程需要满足事件响应的基本原则:

1、保持命令清晰;

2、指定明确定义的角色;

3、随时进行调试和缓解的工作记录;

4、尽早并经常公布事件;


为什么是这些基本原则?

1、清晰的命令有助于沟通交流,模棱两可的话语会有歧义影响对事件的判断;

2、明确的角色帮助大家在沟通交流中有目标有规划;

3、随时的工作记录帮助更好的分析和总结;

4、尽早并经常公布事件能有效的避免外部频繁的骚扰,处理人也可以得到更多的帮助;


SRE紧急事件的响应流程

• 一线同学过于关注技术,错过最佳止损时间 

• 多类型团队之间,协同处理应急事件困难 • 平台难以从应急事件维度提供止损建议及手段 

• 部分应急事件缺少处理经验,无参照 

• 部分SOP陈旧,不敢照着执行 

• 应急事件最新进展,无法及时有效传递

• 人员职责不清晰,调度困难 

• 止损事项存在漏做或重复做

• 个别同学不请自来,凑热闹聊八卦


二、事后对紧急事件的学习和管理

书写事后总结不是一种惩罚措施,而是整个公司的一次学习机会。

(1)为什么我们要进行事后总结,将错误公布出来?

书写事后总结不是一种惩罚措施,而是整个公司的一次学习机会。


(2)在事后总结中,我们能得到什么?

2.1 为了保证该事故被记录下来,理清所有的根源性问题;

2.1 保实施有效的措施使得未来重现的几率和影响得到降低,甚至避免重现;


(3)怎么去写一篇好的事后总结?

3.1 明晰:

    什么项目的什么事情,最好有具体的损失和影响?

3.2 行动项目:

    谁在什么时间点做了什么?原因?

3.3 对事不对人:

    诱因是什么?根本原因是什么?

    重点:如果诱因是人,怎么改善系统预防发生?

3.4 深度:

    对于问题的剖析可以再深入一些,最好能引发一些思考和讨论。

    例如:此类事故之前是否发⽣过,为什么再次发⽣,如何避免?应急响应是否有不⾜,事故处理⽅式是否最佳?


SRE高质量复盘

(4)如何推行事后文化?

4.1 组织奖励:

高层领导应该支持和鼓励有效的事后总结。


4.2 自下而上的认同:

人人都可以在事后总结中学习到东西。


三、紧急事件响应和事后总结的实际落地

SRE紧急事件响应和事后总结的实际落地


SRE紧急事件响应和事后总结的实际落地

SRE紧急事件响应和事后总结的实际落地

四、SRE在线直播视频回看

SRE事故响应和复盘的应用直播视频



五、SRE系列培训课程

SRE培训体系




SRE培训咨询:艾老师  18018650584(微信同号)