《Google SRE工作手册》系列读书分享之美图SRE团队的「稳定性运营」实践篇二(视频+文字版)

作者:SRE专委会 时间:2023-08-06
本期分享主题是美图SRE团队的稳定性运营实践,本期分享内容为「守」稳住基本盘。

 《Google SRE工作手册》

引言

本期分享主题是美图SRE团队的稳定性运营实践本期分享内容为「守」稳住基本盘

 

一、「守」稳住基本盘

◆ SRE体系建设指南

SRE体系建设指南

◆ SRE稳定性建设全景图(故障生命周期视角)


SRE稳定性建设全景图(故障生命周期视角)_20230806_16913359739594860


◆ 故障生命周期管理「故障后:故障复盘」

故障生命周期管理「故障后:故障复盘」

◆ 故障生命周期管理「故障后:故障报告」

故障生命周期管理「故障后:故障报告」

◆ 故障生命周期管理「故障定性:有效分类」

故障生命周期管理「故障定性:有效分类」

◆ 故障生命周期管理「故障定责:判定原则」

故障生命周期管理「故障定责:判定原则」

◆ 故障生命周期管理「故障预算:故障分」

故障生命周期管理「故障预算:故障分」

◆ 故障生命周期管理「故障定级:通用标准

故障生命周期管理「故障定级:通用标准」

◆ 故障生命周期管理「故障定级:业务个性标准」

故障生命周期管理「故障定级:业务个性标准」

◆ 故障治理「组织支撑」

故障治理「组织支撑」

◆ 故障治理「整体框架」

故障治理「整体框架」


二、互动答疑(Q&A)

石鹏(东方德胜)

2016年加入美图,运维技术专家,美图产品SRE负责人。目前在美图负责社区、商业化、实验室、影像SaaS、创新等全线产品的运维保障工作,同时参与公司日志、监控等基础设施的建设。参与或主导过多次公司基础设施的调整、改造,在监控、灾备、故障管理、稳定性运营等方面有一定的经验和积累。业界多个技术峰会的分享嘉宾或出品人。


Q1: 你们公司中有非常多类型的业务线,他们会根据自己的业务特点去制定一套符合实际业务特点的一些标准,然后通过协商映射到通用定级标准上,以把所有的业务线拉齐到同一个水平线上,去做整个故障预算的一个管理。这个过程是不是就类似于SLA?

A1:其实我们公司内部的话好像还没有特别去强调这个SLA,因为 SLA 更多是发生在甲乙双方这种公司的合作之间,先约定了一个SLO,然后承诺要达到什么样目标,在没有达到这个目标的情况下,根据不同的程度去协商一些补偿的策略,这个可能才是SLA。然后在内部的话更多是要去考核你实际的稳定性建设的水平,或者说我们这个周期里边故障预算的余额的情况,有没有达成我们的目标,而没有说在公司内部去订一些这种明确的SLA协议。


Q2: 假如遇到一个比较严重的一个故障,在重大故障来了以后,是故障委员会提供支撑吗?

A2:我们这个故障管理委员会更多的是来解决一些故障定级阶段的一些分歧,比如故障定级是否合理、故障分的分摊是否符合实情等。实际的故障处理是SRE、基础架构、研发同学等。这个故障管理委员会里面的成员角色更多的是一些BU的负责人,在故障处理过程中可能会做一些沟通协调类的工作。


Q3: 在故障治理的框架中,故障分是像错误预算一样直接去把它用掉,每个月用光的意思吗?还是说每个月打分?

A3:我们是扣分的逻辑,跟这个Google SRE里面讲的错误预算是一样。然后如果说你这个分数扣完了,你这个周期里面的故障管理的OKR,或者叫稳定性保障的OKR 就不达标了。


本期视频回看:


SRE专委会视频号