服务韧性工程（SRE）论坛演讲实录 | 老娘舅：协同移动云推进自动化运维，提升系统稳定性

作者：SRE创新联合体时间：2024-01-14

2023年12月15日，2023首届服务韧性工程（SRE）论坛在杭州成功举办。本次会议由中国信息通信研究院·稳定性保障实验室、中国移动通信集团浙江有限公司联合主办，中关村人才协会、SRE专委会、雅菲奥朗、广通优云承办。会议邀请了来自通信、金融、医疗、制造等行业100余位SRE领域专业人士，共同探讨服务韧性工程的最新发展趋势和创新实践。老娘舅餐饮股份有限公司数据与技术中台负责人沈钊带来《携手移动云共建自动化运维能力，提升系统稳定性》主题演讲。

服务韧性工程（SRE）论坛

2023年12月15日，2023首届服务韧性工程（SRE）论坛在杭州成功举办。本次会议由‍中国信息通信研究院·稳定性保障实验室、中国移动通信集团浙江有限公司联合主办，中关村人才协会、SRE专委会、雅菲奥朗、广通优云承办‍。会议邀请了来自通信、金融、医疗、制造等行业100余位SRE领域专业人士，共同探讨服务韧性工程的最新发展趋势和创新实践。老娘舅餐饮股份有限公司数据与技术中台负责人沈钊带来《携手移动云共建自动化运维能力，提升系统稳定性》主题演讲。

老娘舅餐饮股份有限公司数据与技术中台负责人沈钊

老娘舅餐饮股份有限公司数据与技术中台负责人沈钊

老娘舅餐饮股份有限公司数据与技术中台负责人沈钊，进行《携手移动云共建自动化运维能力，提升系统稳定性》的演讲。他介绍了浙江移动自23年初与老娘舅合作，支撑老娘舅将多个业务系统迁移至移动云，并与移动云携手共建自动化运维能力，着重介绍了如何提高系统稳定性的方式。同时通过案例，阐述了自动化运维对系统效率和稳定性的积极影响。

以下为演讲实录：

老娘舅是一家深耕长三角的老牌餐饮企业，400家门店遍布江浙沪皖，老娘舅的米饭类产品可以说是全行业中的佼佼者。“追求101%的顾客满意”不仅仅是老娘舅的口号，更是实际行动。老娘舅的管理者们在餐厅的各个环节力求做到完美，再结合现代餐厅的全信息化营业模式，这也给信息系统的稳定带来了新的课题。

企业信息化介绍

公司层面能不能做到服务器、云服务、各系统的100%稳定？

答案是肯定能，但是为了这个目标老娘舅要付出极大的努力，在运维层面我把整个过程分为3个阶段，原始人、现代人、未来人，原始人用人的方式去做运维，现代人用工具去做运维，未来人采用自动化运维方式。

老娘舅运维发展历程

原始人阶段：早期老娘舅的服务器在线下机房中，运维工作全部由老娘舅的工程师负责。工程师的水平有限，往往只能做到事后解决，甚至于有些复杂的问题，事后都不能彻底解决。后来外包了第三方运维团队，第三方运维团队也只能做到一些简单的监控、备份，还原数据到是有了保障，但是服务器本身的稳定性随着年限越来越多问题、运维的硬件、软件、人工等成本蹭蹭蹭的往上涨。

现代人阶段：到现代人阶段的标志性事件就是上云，服务器上云首先解决了硬件设备老化带来的不确定性问题，然后也减少了运维团队的工作量变相减少了运维成本。上云之后改变了原本的运维方式，从以人为运维中心的运维方式改进为以运维工具为中心的运维方式，以前运维人员主要忙活在机房里，现在运维人员忙活在电脑前。本质其实并没有变化，总结来说都是事后解决问题。

未来人阶段：今年老娘舅做了一个非常重大的改革，就是将服务器迁移到移动云上，选择移动云主要看中的就是移动云的运维能力和配合度，以前云服务厂商更多的是幕后工作，只要服务器、网络没问题，就没事了。甚至于出现问题，只要客户不够专业就把问题推向资源不够用，既推卸了责任，又增加了营收，已经变成创收的另一个方式。移动云的运维团队和老娘舅紧密协作形成了一些自动化运维经验。

01.事前预防：

我主张运维工作应该是事前预防为先，事后总结为二，事中处理为末，以前往往是重视事中处理，以最快的方式解决，再做事后总结，很多问题还是会不断的重复发生，往往事前预防是做的最差的，要想做好事前预防不得不从组织管理过程入手去改进。

事前预警机制

（1）自动化开通配置：开通外网严格流程化，使用跳板机访问内网服务

通过对外网开通的限制很大程度上限制了外部对服务器漏洞的攻击，避免了很多的运维工作。修复漏洞是服务器运维过程中非常费力还容易出现新故障的事情，不仅仅是运维团队不愿意做，服务商也不愿意做。所以老娘舅和移动云的老师制订了共同参与的流程，保证每个外网开通都是必须的，限制范围的，甚至于有时效性的。访问内网的服务比如数据库则使用跳板机。这里不得不表扬一下移动云的跳板机，已经做到和真机的远程桌面几乎一样的操作体验，通常老娘舅两个显示器或者两个桌面切换非常方便。这也让很多小伙伴放下了对跳板机的不便利的反对。

（2）自动化告警：服务器告警智能化

内存超了，cpu跑满了，带宽跑满了，磁盘突然满了，这些信息早期老娘舅往往是事后分析才发现的，前几年是告警有的，但是“告警太多了没发现那个最重要的；告警只能在云平台上看，我又不可能24小时看着云平台的网页；告警的时候正好是睡觉的时候，不知道这事情。”这都是以前运维人员告诉老娘舅的理由。

今年老娘舅和移动云的老师一起做了一个告警中心，首先将告警分重要性，设定阈值，一般的告警就在网页上展示，由移动云的老师负责关注，重要的告警通过告警中心以文字的方式告警到该服务器的管理员、服务器上应用程序的开发公司，严重的告警通过告警中心以电话的方式通知到该服务器的管理员、服务器上应用程序的开发公司，老娘舅在电话告警中设计了，排班和升级机制，我对这个电话告警的理解，就是大人物办公桌上的那个没有拨号盘的“红色电话”。而且我在这个电话告警的后面设计了一个反馈流程，一旦触发了电话告警，就会要求相关负责人填写处理结果，并上升到信息部负责人的层面。让所有的人都知道这个电话告警是最重要的事情。

（3）自动化监管：自动化监管服务器的访问权限和用户权限，以确保数据安全

以前老娘舅堡垒机账号、管理员账号开通流程浮于表面，甚至于出现过人员离职了很久账号一直没有收回的情况。

现在老娘舅对接移动云开发了一个自动化巡查中心，主要是可以透视每个账号的权限范围、对应人员状态、操作记录，这样将有风险的操作、人员及时标记出来，及时纠正。下一步还将会对重要应用程序做类似的监管，比如数据库的敏感动作、应用程序的异常发布等。避免一些人为的意外的发生，保障了服务器的稳定，也救人于不幸。

（4）自动化云产品：云产品的使用一直是云服务商优于线下机房的一个重要优势

传统的云服务厂商的云服务产品不适合于现在多云策略的实施，迁云简直是一场灾难，移动云的自动化迁云工具，已经帮助我成功迁移了一整套数据中台、各种几百G的数据库、一整套BI平台、各种应用系统更是不在话下。这种工具大大降低了服务器的迁移难度，提高了迁移的成功率，也打消了服务商对于迁移的抵触情绪。

系统稳定迁移

（5）全员培训明确责任边界落实考核措施

传统的服务器运维是由运维工程师负责，运维工程师驱动程序员、服务商去进行运维工作，往往是推不动的。老娘舅和移动云的老师一起组织全员培训，除了运维人员、程序员和厂商的服务人员都要参与，根据所负责的范围进行培训和考核。并制定了运维工程师、公司内技术人员、厂商人员的责任划分和绩效考核，对发生的生产事故责任到人，考核到人。

02.事后总结：

生产事故已经发生了，当时解决了，是不是事情就结束了？以前确实就是这样的。“服务器重启了一下；内存加过了；日志清理了……”这就是以前的事后总结。老娘舅结合公司“亮灯机制”，由结合和移动云共创的告警中心，对电话告警的每一条内容都要求，进行5W反馈，核心目的是找到事故发生的真正的症结。“服务为什么挂掉了？内存之前告警过为什么没有处理？硬盘空间已经连续5天高于90%为什么没有响应”通过这样的一个一个深入人心的问题，将发生的生产事故总结后汇总到事前预防，精进事前预防的内容，更新培训教材，进一步将事故杜绝于事前预防中。形成一个管理闭环。

售后事件处理

03.事中处理：

每个系统有一个独立的事故处理流程，运维工程师明确知道对接的技术人员和服务商的联系方式，对事故处理过程的细节进行全程掌握，并编写事故处理报告。对于没有找到明确原因的事故，建立预估的监控机制，添加到事前预防机制中。对已经发生的事故在全域范围内进行排查并添加事前预防机制，以防止同类问题在其他服务器上重现。移动云老师作为老娘舅运维工程师的坚强后盾，为老娘舅快速定位问题，快速解决问题提供帮助，从原来1方定性事故，到现在2方定性事故，更好的避免了推卸责任，也更好的对事故的真实原因进行定位和处理。

综上所述，2024年，老娘舅计划联合移动云研发三个运维中心（监控告警中心、补丁外壳中心、密码管理中心），全面提升运维智能化、合规性，确保系统稳定可靠。用运维手段保证系统101%的稳定，用服务追求101%的顾客满意。

关注我们：

SRE专委会视频号

上一篇: 服务韧性工程（SRE）论坛演讲实录 | 雅菲奥朗：SRE是数字化转型时代的基础设施能力

下一篇: 服务韧性工程（SRE）论坛演讲实录 | 浙江移动：运营商ICT项目SRE运维的探索与实践

沪ICP备2022014351号-2

联系电话

021-53098865

联系邮箱

China.SREs@aliyun.com