于炎炎夏日的8月,金山办公(WPS)的学员们在讲师刘老师的指导之下,通过三天的实训,深入学习了SRE的实战课程,掌握了谷歌SRE核心概念、学习了 SRE的最佳实践,并进行了SLO和可观测性落地问题的深入研讨。金山软件的学友们通过三天的学习,圆满完成了此次SRE实战培训。
第一天SRE(站点可靠性工程)实战课程中,学员们主要学习了“SRE核心概念”以及“SRE企业实践”,深入探讨了包括一系列通过混合自动化、组织工作方式和业务协调来推进服务可靠性工程的实践。为专注于大规模服务可扩展性(scalability)和可靠性(reliability)的探索和实践,探讨基于SLO构建企业SRE能力。其中,学员们对于SRE反模式、通过SLO实现客户幸福感、构建安全和可靠的系统、全栈可观测性等新知识内容表达了强烈的兴趣和认同。
第二天SRE实战课程中,学员们深入学习了全栈可观测性、平台工程和AIOPs、SRE和事件响应管理、混沌工程等。SRE社区专家讲师主要围绕着“可观测性”和“SRE事件响应”等核心概念进行讲解。通过这个本阶段的学习,让学员们开始全面了解SRE的最新知识。
第三天SRE实战课程中 ,学员们在前2天SRE实战课程的基础上,深入学习和探讨了可观测性、故障根因定位等技术实践,更加深入和具体的学习了SRE相关技术。
在整个授课过程中,SRE社区的专家刘老师结合多年教学以及SRE落地实践,给同学们深刻的启发,通过3天SRE实战课堂的培训与学习交流,大家收获满满。学友们分享如下:
“对SLO有更深的理解,对团队来说对齐了认知,对落地SRE体系扫清障碍。”
“掌握SRE的相关概念,清楚了SRE的一些实践方式,清楚了SRE实践过程中该关注的一些指标。”
“深入理解SRE的发展历程、理论概念、工作内容和发展趋势。”
“对SRE有了更系统性的认识,通过在课堂上的交流与学习,对SRE实践过程中遇到的问题,有了更多的解决思路。”
“对SRE有了更加深入的认识,深入理解了SRE的整个流程及建议意义。”
“对于SLI、SLO、SLA几大指标的概念有了深入理解和思考,理解了自身角色,明确了后续努力的方向。”