《Google SRE工作手册》第二期SRE五大根基解读及实践分享
一、《Google SRE工作手册》
自2016年10月,Google第一本关于SRE的书籍问世以来,引起了行业的极大关注和兴趣。但是第一本太偏方法论,没有具体实例,很难落地。
所以Google在2018年7月,又出版了一本书,即《The Site Reliability Workbook》中文书名:《Google SRE工作手册》,作为第一本书籍的补充。
本书介绍了大量Google以及国外企业的真实案例。从基础到实践到流程三大板块,解密Google用工程思维解决运维问题的最佳实践。
二、SRE五大根基是什么?
为什么要实施SLO?
数据决策:采用一套经过深思熟虑的SLO,对可靠性工作的机会成本作出数据驱动型的决策。
合理优先级:将可靠性工程工作安排到一个合理的优先级,从而保证创建足够的可靠性。
SLI、SLO、SLA
制定SLO三问:
1. 这个SLO是否能识别或衡量服务的稳定性?
2. 这个SLO是否在当前资源及人力下可达成?
3. 达成SLO能否使用户满意或用户体验提升?
服务水平指标(SLI):衡量系统状态及质量的关键指标,如四大黄金指标:延迟、流量、错误以及饱和度。
服务水平目标(SLO): 简单说,就是SLI在一定时间窗口范围内要达到的目标,如一段时间内接口调用成功率>=99.9%。
服务水平协议 (SLA) : 企业围绕SLO发布的协议。在不满足SLO时向客户提供补偿的具体条约和协议。
三、SRE五大根基之监控
通过监控数据源度量指标的意图:
• 预期的变更
• 依赖关系
• 饱和度
• 服务流量现状
• 实施SLO
四、SRE在金山办公的实践
在线直播视频回看:
更多SRE学习资料:https://www.sretraining.cn