本期分享要点:
1、一次良好的紧急事件的响应流程
2、事后对紧急事件的学习和管理
3、紧急事件响应和事后总结的实际落地
一、一次良好的紧急事件的响应流程
有效的紧急事故管理是控制事故影响和迅速恢复运营的关键因素。
在书中的紧急事故管理章节,详细描述了对于同一件应急事件的两种处理方式(无流程管理、有流程管理)。经过对两次处理的分析对比,书中清晰的给出了一个结论:有效的紧急事故管理是控制事故影响和迅速恢复运营的关键因素。
因此为了降低影响和控制风险,我们需要制定紧急事件响应流程,并且不断地优化迭代。在制定响应流程管理紧急的事件的时候,流程需要满足事件响应的基本原则:
1、保持命令清晰;
2、指定明确定义的角色;
3、随时进行调试和缓解的工作记录;
4、尽早并经常公布事件;
为什么是这些基本原则?
1、清晰的命令有助于沟通交流,模棱两可的话语会有歧义影响对事件的判断;
2、明确的角色帮助大家在沟通交流中有目标有规划;
3、随时的工作记录帮助更好的分析和总结;
4、尽早并经常公布事件能有效的避免外部频繁的骚扰,处理人也可以得到更多的帮助;
• 一线同学过于关注技术,错过最佳止损时间
• 多类型团队之间,协同处理应急事件困难 • 平台难以从应急事件维度提供止损建议及手段
• 部分应急事件缺少处理经验,无参照
• 部分SOP陈旧,不敢照着执行
• 应急事件最新进展,无法及时有效传递
• 人员职责不清晰,调度困难
• 止损事项存在漏做或重复做
• 个别同学不请自来,凑热闹聊八卦
二、事后对紧急事件的学习和管理
书写事后总结不是一种惩罚措施,而是整个公司的一次学习机会。
(1)为什么我们要进行事后总结,将错误公布出来?
书写事后总结不是一种惩罚措施,而是整个公司的一次学习机会。
(2)在事后总结中,我们能得到什么?
2.1 为了保证该事故被记录下来,理清所有的根源性问题;
2.1 保实施有效的措施使得未来重现的几率和影响得到降低,甚至避免重现;
(3)怎么去写一篇好的事后总结?
3.1 明晰:
什么项目的什么事情,最好有具体的损失和影响?
3.2 行动项目:
谁在什么时间点做了什么?原因?
3.3 对事不对人:
诱因是什么?根本原因是什么?
重点:如果诱因是人,怎么改善系统预防发生?
3.4 深度:
对于问题的剖析可以再深入一些,最好能引发一些思考和讨论。
例如:此类事故之前是否发⽣过,为什么再次发⽣,如何避免?应急响应是否有不⾜,事故处理⽅式是否最佳?
(4)如何推行事后文化?
4.1 组织奖励:
高层领导应该支持和鼓励有效的事后总结。
4.2 自下而上的认同:
人人都可以在事后总结中学习到东西。
三、紧急事件响应和事后总结的实际落地
四、SRE在线直播视频回看
五、SRE系列培训课程
SRE培训咨询:艾老师 18018650584(微信同号)