《Google SRE工作手册》系列读书分享之 组织视角下的金融企业SRE实践探讨 (视频+文字版)

作者:SRE专委会 时间:2023-07-28
本期分享主题是组织视角下的金融企业SRE实践探讨,本期分享内容为金融企业SRE现状与挑战、金融企业运维组织的SRE演进、运维平台工具与SRE文化实践的融合,以及统一告警/应急中心等工具建设分享。

‍‍‍ 《Google SRE工作手册》

引言

本期分享主题是组织视角下的金融企业SRE实践探讨本期分享内容为金融企业SRE现状与挑战、金融企业运维组织的SRE演进、运维平台工具与SRE文化实践的融合,以及统一告警/应急中心等工具建设分享。

 

一、金融企业SRE现状与挑战

(1)金融企业的SRE现状

P 理念吸收和实践探索阶段

P 没有专门的SRE岗位

P 缺少SRE在金融行业的实践案例

P 缺少SRE相关行业规范及标准指引

P 工具及平台建设缺少对SRE理念和实践的融合


(2)金融企业的SRE挑战

cons

P人员技能的挑战

P单一领域运维专家

P 工程能力与工程思维

P 组织文化的挑战

P 工程文化

P 协作模式

P 敏稳双态的系统形态

P 强监管对工具及平台建设的挑战

 

pros

P 运维体系化建设长期投入

P 专业领域工具较多

P 较完备规范的制度及流程

P 丰富的“来自生产的智慧”


(3) 数字化运维体系方法论


 数字化运维体系方法论

二、金融企业运维组织的SRE演进

应用运维-生产的智慧金融企业运维组织的SRE演进

P系统业务架构、技术架构、部署架构等

P历史故障经验

P应急预案

P特定业务行为与系统行为表现(跑批、秒杀、活跃行情等)

沉淀在专家头脑中不利于组织级能力沉淀


运维研发

P 工程思维

P 专业开发能力

P 新技术、理念接受快

P 缺少运维经验

P 对运维组织、流程、工作内容缺少理解

P 工具不好用

P 需求梳理不到位

P 运营推广受阻

 

 协同融合

P 运维专家参与需求梳理与产品设计

P 平台及工具沉淀生产智慧

P 组织级知识共享

P 利于推广运营

P 利于新理念和实践的引入和融合

P 激发创新

KOTTER组织变革八步模型

 

三、运维平台工具与SRE文化实践的融合

 流程与工作机制的SRE融合

   OnCall值班管理

l  控制负载(告警/异常)

l  灵活公平的Oncall

l  明确的值班流程与任务

l  线上化自动化的值班工具/工作台

 

◆ 异常事件管理(MTTR)

l  发现

l  响应

l  处置

l  根因定位

l  预案启动

l  应急指挥

l  发起集结

l  外部报告

l  风险揭示

l  复盘

 

◆ 监控管理

l  SLA/SLO/SLI

l  基于SLO的告警

l  SLI指标及告警

l  错误预算

 

◆ 发布管理

l  CI/CD

l  制品规范

l  流水线规范

l  参数配置规范

l  发布评审

l  金丝雀发布


  运维平台及工具建设与SRE的融合发布管理


运维平台


工具建设与SRE的融合

四、统一告警/应急中心等工具建设分享

(1)  统一告警平台

统一告警平台

 (2)  统一告警平台-深度消费CMDB

统一告警平台-深度消费CMDB

3)统一告警平台-ChatOps/多端操作

 统一告警平台-ChatOps 多端操作统一告警平台-ChatOps 多端操作

 

(4)统一告警平台-更多可能性

统一告警平台-更多可能性

 

(5)统一告警平台-与SRE实践的融合

统一告警平台-与SRE实践的融合

 

(6)应急中心

应急中心

 

(7)应急中心-可观测

应急中心-可观测

五、互动答疑(Q&A)

嘉宾

周光杰

某金融机构数字化运维研发,拥有十多年运维工作经验,负责过银行核心系统、证券互联网系统、运维平台研发,目前负责持续交付、统一监控、日志分析等相关运维研发工作。


Q1:金融企业的 IT组织架构是否比较固化?金融企业研发、运维分开很多年了,对于目前这样一个运维研发一体化来讲,带来更多是机遇还是挑战?哪个成分更多?

A1不同的规模的金融企业,它的 IT组织架构可能会有所不同。大型的国有银行及中型股份制商业银行,基本上都是研发、测试、运维三个中心,且每个中心各个团队之间分工都是比较细化、比较专业。但是对像我所在的券商来讲的话,组织架构还算是比较扁平化的。研发、测试、运维,沟通起来我觉得是没有什么障碍,协作起来是比较密切的。金融企业研发和运维的分离,对运维研发一体化来讲,是有机遇也有挑战。机遇的话,研运分离可能会把更多的精力去聚焦在自己关注的领域,会做的更专业。挑战的话, SRE 或者 DevOps 理念比较强调协作共享,研运分离之后会有一些协作方面的一些挑战,有一些横向的工作,推动起来就会有一定的困难。

 

Q2:为什么金融企业如此强调合规性,和行业监管有什么关系?这个监管的合规性在日常 IT 工作里面体现的多吗?

A2:还是比较多的,因为金融行业它是一个强监管的行业,金融企业的IT 系统的稳定性也是关系到民生的,所以它的一个稳定性还有合规性是至关重要的。不管是银保监会(现在叫做金融监督管理总局),还是证监会或者是证券行业协会,对金融企业的 IT的监管都是从严的。如果说是有严重的稳定性事故的话,那甚至会影响到金融企业的展业,也影响到金融企业的评级,所以金融企业普遍都是非常关注系统的稳定性,这种对稳定性的要求也非常契合强调可靠性的SRE

 

Q3:目前金融行业的DevOps 实施情况怎么样?有哪些主要的成功点?还有哪些不足?

 A3:我觉得DevOps 的理念在金融行业的接受度以及实践是挺多的。每年都有很多金融行业的研发团队会去过 DevOps 的认证,它确实会给研发效能带来改善,提升研发规范性及研发效能。金融企业的DevOps实施也有一些难点。第一点,标准化是比较难做的。因为像金融行业的话,比如说我们公司所在的证券行业,有比较多的第三方供应商采购的系统,交付制品比较难推动做标准化;第二点,金融行业,普遍是研运分离的,它的系统也是各自建设的,对于DevOpsCI/CD项目的实施,需要很多个不同的系统之间去做对接,另外开发环境和生态环境要做隔离,研发不能操作生产环境等等合规要求,都会给工具链的建设带来一些技术上面的挑战。最后,金融行业普遍对变更发布,有严格的流程管控和严格的审批,需要从审批链和工具链两个维度去考虑,把工具链和审批链做一个融合,然后尽量减少断点。

 

Q4:就您而言,认为金融企业是否真的适合 SRE或者DevOps?为什么?

A4:我觉得是合适的,特别是SRE,关注的就是系统的稳定性,稳定性对金融行业来讲,就是生命线。如果说这套理论和实践它是能够提升系统稳定性的,那金融行业是有动力去实践的。金融企业的业务是越来越复杂,因为展业需要新上的系统也越来越多,交付频次也是越来越高,系统之间的一个架构非常的复杂,上下游交互非常多,像微服务等新技术的采用,如果缺乏治理的话,导致微服务泛滥,对运维来讲是一个挑战。所以,采用 SRE 也好, DevOps 也好,能够给系统稳定性以及价值交付效能带来改善,我觉得还是值得投入和实践的。


 

往期视频回看:

SRE专委会视频号