引言
本期分享主题是组织视角下的金融企业SRE实践探讨,本期分享内容为金融企业SRE现状与挑战、金融企业运维组织的SRE演进、运维平台工具与SRE文化实践的融合,以及统一告警/应急中心等工具建设分享。
一、金融企业SRE现状与挑战
(1)金融企业的SRE现状
P 理念吸收和实践探索阶段
P 没有专门的SRE岗位
P 缺少SRE在金融行业的实践案例
P 缺少SRE相关行业规范及标准指引
P 工具及平台建设缺少对SRE理念和实践的融合
(2)金融企业的SRE挑战
cons
P人员技能的挑战
P单一领域运维专家
P 工程能力与工程思维
P 组织文化的挑战
P 工程文化
P 协作模式
P 敏稳双态的系统形态
P 强监管对工具及平台建设的挑战
pros
P 运维体系化建设长期投入
P 专业领域工具较多
P 较完备规范的制度及流程
P 丰富的“来自生产的智慧”
(3) 数字化运维体系方法论
二、金融企业运维组织的SRE演进
◆应用运维-生产的智慧
P系统业务架构、技术架构、部署架构等
P历史故障经验
P应急预案
P特定业务行为与系统行为表现(跑批、秒杀、活跃行情等)
沉淀在专家头脑中不利于组织级能力沉淀
◆运维研发
P 工程思维
P 专业开发能力
P 新技术、理念接受快
P 缺少运维经验
P 对运维组织、流程、工作内容缺少理解
P 工具不好用
P 需求梳理不到位
P 运营推广受阻
◆ 协同融合
P 运维专家参与需求梳理与产品设计
P 平台及工具沉淀生产智慧
P 组织级知识共享
P 利于推广运营
P 利于新理念和实践的引入和融合
P 激发创新
三、运维平台工具与SRE文化实践的融合
◆ 流程与工作机制的SRE融合
OnCall值班管理
l 控制负载(告警/异常)
l 灵活公平的Oncall
l 明确的值班流程与任务
l 线上化自动化的值班工具/工作台
◆ 异常事件管理(MTTR)
l 发现
l 响应
l 处置
l 根因定位
l 预案启动
l 应急指挥
l 发起集结
l 外部报告
l 风险揭示
l 复盘
◆ 监控管理
l SLA/SLO/SLI
l 基于SLO的告警
l SLI指标及告警
l 错误预算
◆ 发布管理
l CI/CD
l 制品规范
l 流水线规范
l 参数配置规范
l 发布评审
l 金丝雀发布
◆ 运维平台及工具建设与SRE的融合
四、统一告警/应急中心等工具建设分享
(1) 统一告警平台
(2) 统一告警平台-深度消费CMDB
(3)统一告警平台-ChatOps/多端操作
(4)统一告警平台-更多可能性
(5)统一告警平台-与SRE实践的融合
(6)应急中心
(7)应急中心-可观测
五、互动答疑(Q&A)
周光杰
某金融机构数字化运维研发,拥有十多年运维工作经验,负责过银行核心系统、证券互联网系统、运维平台研发,目前负责持续交付、统一监控、日志分析等相关运维研发工作。
Q1:金融企业的 IT组织架构是否比较固化?金融企业研发、运维分开很多年了,对于目前这样一个运维研发一体化来讲,带来更多是机遇还是挑战?哪个成分更多?
A1:不同的规模的金融企业,它的 IT组织架构可能会有所不同。大型的国有银行及中型股份制商业银行,基本上都是研发、测试、运维三个中心,且每个中心各个团队之间分工都是比较细化、比较专业。但是对像我所在的券商来讲的话,组织架构还算是比较扁平化的。研发、测试、运维,沟通起来我觉得是没有什么障碍,协作起来是比较密切的。金融企业研发和运维的分离,对运维研发一体化来讲,是有机遇也有挑战。机遇的话,研运分离可能会把更多的精力去聚焦在自己关注的领域,会做的更专业。挑战的话, SRE 或者 DevOps 理念比较强调协作共享,研运分离之后会有一些协作方面的一些挑战,有一些横向的工作,推动起来就会有一定的困难。
Q2:为什么金融企业如此强调合规性,和行业监管有什么关系?这个监管的合规性在日常 IT 工作里面体现的多吗?
A2:还是比较多的,因为金融行业它是一个强监管的行业,金融企业的IT 系统的稳定性也是关系到民生的,所以它的一个稳定性还有合规性是至关重要的。不管是银保监会(现在叫做金融监督管理总局),还是证监会或者是证券行业协会,对金融企业的 IT的监管都是从严的。如果说是有严重的稳定性事故的话,那甚至会影响到金融企业的展业,也影响到金融企业的评级,所以金融企业普遍都是非常关注系统的稳定性,这种对稳定性的要求也非常契合强调可靠性的SRE。
Q3:目前金融行业的DevOps 实施情况怎么样?有哪些主要的成功点?还有哪些不足?
A3:我觉得DevOps 的理念在金融行业的接受度以及实践是挺多的。每年都有很多金融行业的研发团队会去过 DevOps 的认证,它确实会给研发效能带来改善,提升研发规范性及研发效能。金融企业的DevOps实施也有一些难点。第一点,标准化是比较难做的。因为像金融行业的话,比如说我们公司所在的证券行业,有比较多的第三方供应商采购的系统,交付制品比较难推动做标准化;第二点,金融行业,普遍是研运分离的,它的系统也是各自建设的,对于DevOps、CI/CD项目的实施,需要很多个不同的系统之间去做对接,另外开发环境和生态环境要做隔离,研发不能操作生产环境等等合规要求,都会给工具链的建设带来一些技术上面的挑战。最后,金融行业普遍对变更发布,有严格的流程管控和严格的审批,需要从审批链和工具链两个维度去考虑,把工具链和审批链做一个融合,然后尽量减少断点。
Q4:就您而言,认为金融企业是否真的适合 SRE或者DevOps?为什么?
A4:我觉得是合适的,特别是SRE,关注的就是系统的稳定性,稳定性对金融行业来讲,就是生命线。如果说这套理论和实践它是能够提升系统稳定性的,那金融行业是有动力去实践的。金融企业的业务是越来越复杂,因为展业需要新上的系统也越来越多,交付频次也是越来越高,系统之间的一个架构非常的复杂,上下游交互非常多,像微服务等新技术的采用,如果缺乏治理的话,导致微服务泛滥,对运维来讲是一个挑战。所以,采用 SRE 也好, DevOps 也好,能够给系统稳定性以及价值交付效能带来改善,我觉得还是值得投入和实践的。
往期视频回看: