SRE五大根基解读及实践分享

作者:中国SRE联盟 时间:2022-11-07
《Google SRE工作手册》系列分享之SRE五大根基解读及实践分享,SRE五大根基是什么?为什么要实施SLO?SRE五大根基之监控,SRE在金山办公的实践是怎么样的?

 《Google SRE工作手册》第二期SRE五大根基解读及实践分享


一、《Google SRE工作手册》

Google SRE工作手册书籍


自2016年10月,Google第一本关于SRE的书籍问世以来,引起了行业的极大关注和兴趣。但是第一本太偏方法论,没有具体实例,很难落地。 


所以Google在2018年7月,又出版了一本书,即《The Site Reliability Workbook》中文书名:《Google SRE工作手册》,作为第一本书籍的补充。 


本书介绍了大量Google以及国外企业的真实案例。从基础到实践到流程三大板块,解密Google用工程思维解决运维问题的最佳实践。


二、SRE五大根基是什么?

SRE五大根基图


为什么要实施SLO?

数据决策:采用一套经过深思熟虑的SLO,对可靠性工作的机会成本作出数据驱动型的决策。

合理优先级:将可靠性工程工作安排到一个合理的优先级,从而保证创建足够的可靠性。


为什么要实施SLO?

SLI、SLO、SLA

制定SLO三问:
1. 这个SLO是否能识别或衡量服务的稳定性?

2. 这个SLO是否在当前资源及人力下可达成?

3. 达成SLO能否使用户满意或用户体验提升?


服务水平指标(SLI):衡量系统状态及质量的关键指标,如四大黄金指标:延迟、流量、错误以及饱和度。

服务水平目标(SLO): 简单说,就是SLI在一定时间窗口范围内要达到的目标,如一段时间内接口调用成功率>=99.9%。

服务水平协议 (SLA) :  企业围绕SLO发布的协议。在不满足SLO时向客户提供补偿的具体条约和协议。


三、SRE五大根基之监控

SRE五大根基之监控


通过监控数据源度量指标的意图:

• 预期的变更 

• 依赖关系

• 饱和度 

• 服务流量现状 

• 实施SLO


四、SRE在金山办公的实践

SRE在金山办公的实践

SRE平台


在线直播视频回看:

SRE五大根基之SLO


更多SRE学习资料:https://www.sretraining.cn