2024年5月24日,第二届服务韧性工程(SRE)论坛在杭州成功举办。本次会议由中关村人才协会作为指导单位,中国移动通信集团浙江有限公司和SRE创新联合体(中关村人才协会SRE专委会)联合主办,中移动信息技术有限公司,PeopleCert,雅菲奥朗、观测云等单位协办。会议邀请了来自通信、金融、制造、互联网行业等150余位SRE领域专业人士,共同探讨在数字经济时代下,如何通过技术创新和最佳实践提升企业的服务韧性和运维效率,以及SRE和人工智能领域的最新发展、创新和未来趋势。
“无观测,不运维”。基于可观测性构建SRE运维体系是当前IT运维领域的一大趋势。随着微服务和云原生技术的广泛应用,现代软件系统的复杂性日益增加。在这样的背景下,可观测性成为了确保系统稳定性、可靠性和性能的关键能力。与传统监控相比,可观测性提供了一个更全面、实时且可操作的视角,帮助工程师快速定位问题并做出决策。在本次2024第二届服务韧性工程(SRE)论坛上,吉利汽车集团运维平台组负责人李珂,分享了其在构建基于可观测性的SRE运维体系方面的丰富经验。
李珂 吉利汽车SRE主任工程师
吉利汽车SRE主任工程师李珂,带来了题为《基于可观测性构建SRE运维体系》的精彩演讲。他强调了可观测性在确保系统稳定性、可靠性和性能方面的关键作用,分享了吉利汽车从传统监控向可观测性转变的过程,并介绍了吉利汽车在可观测平台建设方面的经验。他希望通过这次演讲,与业界同仁交流看法,分享使用心得,共同推动SRE运维体系的发展与进步。
一、从传统监控到可观测性
用户体验可观测性通过用户行为追踪、性能指标监控和用户满意度评估等手段,全面评估系统用户体验,指导应用优化。应用性能可观测性则通过字节码注入方式,实现调用链全链路监控及代码级调用监控,指导开发人员优化代码、运维人员优化配置。此外,基础架构软件、基础设施和网络链路的可观测性,通过监控基础软件、机房硬件和网络流量等,实现资源瓶颈、可用性问题的快速发现和故障排除。
二、可观测体系的构建
在构建可观测体系时,有采集、传输、存储、展示和告警通知五个关键环节。采集环节需要适应全集团的监控需求,灵活支持业务变化。传输环节通过ONEAGENT实现数据接入方式的统一,保证数据处理的灵活性和数据一致性。存储环节采用高性能、低成本的方案,确保数据的可靠性和架构的可扩展性。展示环节通过灵活的数据展现形式和统一的查询语句,提供高效稳定的接口。告警通知环节则通过灵活的告警规则和渠道配置,实现统一的告警中心。
三、可观测性运维的落地实践
可观测性在运维中的落地实践,包括用户体验、应用性能、网络和基础架构的监控。通过数据分流、ETL处理海量数据,确保数据一致性和秒级查询效率。展示环节通过用户体验看板、应用性能看板、网络拓扑和云平台运维告警等,支持多渠道且用户可自行订阅。告警环节则通过业务运维告警、完善的一二三线支持和应急预案,实现快速响应。
四、应用性能可观测的深入探讨
在应用性能可观测方面,包括SAP、MES、Andon、ile、DSA等系统模块的关键请求监控,涵盖了生产准备、生产执行、生产相关和追溯件采集等环节。这些监控不仅帮助开发和运维团队优化代码和配置,还提高了生产效率和产品质量。
五、工具平台提升可观测平台效率
为了提升可观测平台的效率,有运营可视化、告警中心、监控、视图、运营、主机、SLA、业务拓补等多个环节与工具平台。这些工具平台通过健康度大屏、告警数据、资源利用率、告警分析等多维度可视化,实现了数据的集中监控和管理。
六、可观测性在吉利内部的应用场景
在吉利汽车内部,可观测性的应用场景包括合并metric、trace、log至统一观测平台,实现接入、查看、分析的集中监控。此外,通过CMDB+资源生命周期管理流程,解决了资产准确性及业务关联性问题,建立了故障响应及应急预案体系。
七、可观测性的未来发展
在可观测性的未来发展上,包括拨测、EBPF等技术的应用,以及用户体验、稳定性保障、容量管理和成本控制等多个方面。通过这些技术的应用,可以进一步提升系统的可观测性,实现更高效的运维管理。
总结:
随着技术的不断进步和业务需求的日益增长,可观测性已经成为现代IT运维不可或缺的一部分。通过李珂在2024第二届服务韧性工程(SRE)论坛上的分享,我们得以一窥吉利汽车集团在构建基于可观测性的SRE运维体系方面的先进实践和宝贵经验。从传统监控到全面可观测性的转变,不仅提高了系统的稳定性和可靠性,也为运维团队提供了更快速、更精准的问题定位和决策支持。我们期待在不久的将来,可观测性将带来更多创新的运维理念和实践,推动整个IT运维行业向更高效、更智能的方向发展。