2024年5月24日,第二届服务韧性工程(SRE)论坛在杭州成功举办。本次会议由中关村人才协会作为指导单位,中国移动通信集团浙江有限公司和SRE创新联合体(中关村人才协会SRE专委会)联合主办,中移动信息技术有限公司,PeopleCert,雅菲奥朗、观测云等单位协办。会议邀请了来自通信、金融、制造、互联网行业等150余位SRE领域专业人士,共同探讨在数字经济时代下,如何通过技术创新和最佳实践提升企业的服务韧性和运维效率,以及SRE和人工智能领域的最新发展、创新和未来趋势。
在当今数字化转型的浪潮中,企业面临的最大挑战之一是如何确保其技术系统的可靠性和稳定性。为了应对这一挑战,混沌工程(Chaos Engineering)与服务韧性工程(SRE)的结合应运而生,成为提升系统可靠性与运维效率的创新实践。在本次2024第二届服务韧性工程(SRE)论坛上,中国移动信息技术中心的技术专家晁元宁,分享其在SRE与混沌工程结合的实践和经验,深入探讨这一主题。
中国移动信息技术中心技术专家,中国移动磐基CMChaos平台负责人 晁元宁
中国移动信息技术中心技术专家,中国移动磐基CMChaos平台负责人晁元宁分享了《混沌工程与SRE的结合》,他提到:随着企业数智化转型的浪潮,业务“上云”进度越来越快,团队对于技术栈的管理和系统维护难度不断增加。为了维护业务系统稳定,磐基引入SRE体系,在落地过程遇到管理、规划、质量把控等方面问题,在本次分享中重点介绍了以上问题如何规避、解决、优化,即如何结合混沌工程的方式来这些解决痛点。并认为:混沌工程不仅是运维工具还是有效管理工具、混沌工程是检验防护体系很好的手段。
一、SRE框架和混沌工程
SRE是一种由谷歌提出并广泛采用的工程实践,它将软件工程技术应用于运维领域,以提高系统的可靠性和可维护性。SRE的核心在于服务级别目标和协议(SLO/SLA)、监控和报警、自动化工具、故障管理和应急响应以及持续改进和文化建设。这些要素共同构成了SRE的框架,确保了服务的高可用性和快速响应能力。
混沌工程则是一种更为激进的方法,它通过在生产环境中主动引入故障来测试系统的弹性。这种方法的核心理念是通过主动制造混乱,观察系统在异常情况下的表现,从而发现并改进系统的潜在薄弱环节。混沌工程不仅是一种测试方法,更是一种受控的模拟危机,它能够帮助开发人员在代码中添加弹性,提升应用程序在紧急情况下的服务能力。
在实施SRE的过程中,企业可能会遇到多个方面的痛点和挑战。首先是战略规划的挑战,如何在快速变化的技术环境中制定有效的运维策略;其次是资源分配问题,如何合理地分配有限的资源以支持不断增长的业务需求;再者是团队协作的难题,不同团队之间如何高效协同工作,共同应对运维挑战;风险管理也是关键,如何识别和缓解潜在的技术风险;最后是文化变革,如何在组织内部培养一种持续改进和学习的文化。
二、中国移动CMChaos平台,如何解决企业痛点问题?
中国移动在混沌工程领域拥有丰富的经验,其CMChaos平台通过创新的混沌工程实践,为这些痛点提供了有效的解决方案,帮助企业构建起更加健壮和可靠的系统。为了解决上述痛点,中国移动推出了混沌工程平台CMChaos,它通过提供从基础层到应用层的故障注入能力,帮助客户快速构建起高可用的模拟演练场景。CMChaos平台采用微服务部署架构,确保了平台的高可用性和稳定性,同时支持主机类、应用类、网络类、存储类、安全类、信创兼容类以及中间件等多种复杂的演练事件和混沌实验场景。
CMChaos平台的工作过程包括定义目标和指标、选择混沌工具、实施混沌实验、结果分析、培养混沌工程文化和扩展应用。这一过程不仅帮助团队通过模拟故障情景来强化系统的韧性,而且通过持续的监控、实验和系统改进,帮助团队预防真实世界的故障,从而显著降低系统运行风险。
中国移动混沌工程平台结合了SRE的创新应用,通过自动化故障注入和实时监控,验证并提升系统的弹性和可靠性。它确保在突发故障和高负载情况下系统能够快速恢复,并满足服务级别目标(SLO),推动持续改进和跨团队协作。此外,CMChaos平台还提供了丰富的实践亮点,包括混沌工程演练、混沌可视化、监控信息、个性化脚本设计、实验记录和报告等,这些功能使得平台成为一个强大的工具,帮助企业应对运维工作中的各种挑战。
三、中国移动CMChaos平台,有哪些优势?
在体系化建设解决方案方面,CMChaos提供了服务全生命周期的支持,包括专业服务、行业解决方案、上云迁移和安全加固等。平台拥有1000+实践场景和300+原子事件,以及专家经验库和应急演练管理功能,这些都是确保企业能够有效应对各种挑战的关键因素.
业务线流程服务链是CMChaos平台的另一个重要优势。它支持从架构设计到生产发布的全流程,涉及编码、需求分析、测试环境部署、系统测试等各个环节。通过混沌工程的集成,为研发、运维、测试等不同角色提供定制化的支持和工具,确保了系统的稳定性和兼容性。
总结:
中国移动的实践证明,通过混沌工程与SRE的结合,能够为企业提供一个全面的系统可靠性解决方案。通过结合SRE框架的精髓与混沌工程的主动故障注入方法,中国移动CMChaos平台不仅提升了系统的弹性和可靠性,还促进了团队间的协作和文化的持续改进。随着技术的不断进步和企业需求的不断演变,CMChaos平台将继续引领混沌工程和SRE实践的潮流,帮助企业在复杂多变的技术环境中保持领先地位。