服务韧性工程(SRE)论坛演讲实录 | 浙江移动:运营商ICT项目SRE运维的探索与实践

作者:SRE创新联合体 时间:2024-01-06
2023年12月15日,2023首届服务韧性工程(SRE)论坛在杭州成功举办。本次会议由中国信息通信研究院·稳定性保障实验室、中国移动通信集团浙江有限公司联合主办,中关村人才协会、SRE专委会、雅菲奥朗、广通优云承办。会议邀请了来自通信、金融、医疗、制造等行业100余位SRE领域专业人士,共同探讨服务韧性工程的最新发展趋势和创新实践。浙江移动网络部客户响应中心项目售后服务部负责人金振带来《运营商ICT项目SRE运维的探索与实践》主题演讲。

2023首届服务韧性工程(SRE)论坛


2023年12月15日,2023首届服务韧性工程(SRE)论坛在杭州成功举办。本次会议由中国信息通信研究院·稳定性保障实验室、中国移动通信集团浙江有限公司联合主办,中关村人才协会、SRE专委会、雅菲奥朗、广通优云承办。会议邀请了来自通信、金融、医疗、制造等行业100余位SRE领域专业人士,共同探讨服务韧性工程的最新发展趋势和创新实践。浙江移动网络部客户响应中心项目售后服务部负责人金振带来《运营商ICT项目SRE运维的探索与实践》主题演讲。

 

浙江移动网络部客户响应中心项目售后服务部负责人 金振

浙江移动网络部客户响应中心项目售后服务部负责人 金振

 

浙江移动网络部客户响应中心项目售后服务部负责人金振在这次分享中主要介绍了SRE在运营商ICT项目中的挑战与实践,并讲述了在运营商ICT项目环境中如何应对系统故障、提升服务可靠性。

 

以下为演讲实录:

数字经济为社会进步提供强大推动力,而运营商ICT项目是数字经济的重要组成部分和发展路径。截止2023年底,仅浙江移动就已部署1.4万个ICT项目,运维工作繁重。然而与传统的3G/4G/5G、专线、IDC和移动云业务相比,ICT项目的运维面临诸多挑战。

ICT项目的运维

困难举例(1):客户的网络存在“物理隔绝、数据隔绝”等问题,运行质量数据无法快速获取。

困难举例(1)

困难举例(2):客户的终端五花八门,且存在大量“哑设备”,无法与运营商OMC对接。

困难举例(2)

面临上述困难,我们贯彻“三步走”战略,实现从无到有,从有到优,从优到智的跨越。

“三步走”战略

 

Step 1:运维能力从无到有

构建完备的ICT项目SRE运维组件,包括“资源数据管理、运行质量纳管、运维流程管理、统一支撑门户”等四大能力。

四大能力


资源数据管理能力:ICT项目的资源数据管理,涉及“数据结构、数据获取、数据存储、数据稽核、数据分享”等关键能力的构建。

资源数据管理能力

运行质量监控能力(1/4):为丰富ICT项目监控手段,建立了四种采集渠道和七类质量纳管手段,覆盖全省3422个项目,确保运行质量纳管率达100%,设备在线率99.8%。

运行质量监控能力(1/4)

运行质量监控能力(2/4):打造ICT项目的专属OMC——DICT工作台,面向ICT项目做集中运维支撑,实现性能告警统一采集,设备网络统一监控,运维生产统一支撑,保障项目端到端运行质量,提升运维效率和客户感知。

运行质量监控能力(2/4)

运行质量监控能力(3/4):浙江移动推出“DICT轻量化保障系统”,为客户提供快速部署、即插即用的质量保障服务,支持自助运维,解决DICT项目组网和数据内网隔绝问题。该系统已在全省11个地市35个项目中成功应用。

运行质量监控能力(3/4)

运行质量监控能力(4/4):DICT轻量化保障系统在台州12345政务平台应用,实现质量可视化、运维自动化和视频智能诊断,有效管理阿里云和华为云虚拟机及多种设备,显著缩短故障处理时间。

运行质量监控能力(4/4)

运维流程管理能力:构建5个标准化运维流程,实现故障处理、投诉处理、主动服务、数据稽核及质检考核流程线上化,运维流程可视可管可控。

运维流程管理能力

统一运维支撑门户:打造政企业务运维支撑系统(简称“政企一体化平台”),面向政企业务运维提供统一门户接入、统一流程支撑、统一数据平台及统一底层能力。

统一运维支撑门户

运维能力从无到有的阶段效果:

运维能力从无到有的阶段效果

Step 2:运维能力从有到优:

从有到优的阶段,我司重点在四个环节进行了以下探索;

四大环节探索

质量问题发现环节:运维过程中,运营商和客户对视频监控项目的关注点存在差异。为满足客户更细致的需求,我们推出基于AI的视频质量诊断,以解决人工巡检的局限性。

质量问题发现环节

故障根因定位环节:在视频监控项目中,故障涉及终端、PON网络、承载网络和业务平台。传统处理方式效率低下,影响客户体验并增加维护成本。因此,我们引入基于拓扑收敛的故障定界定位方法以优化故障处理。

故障根因定位环节

客户投诉受理环节:政企客户更倾向于微信投诉,为提高处理效率,浙江移动打造了基于AI的自然语言对话机器人“浙移小T”,实现自动问答、受理、生成工单等功能,提供主动关怀。

客户投诉受理环节

客户主动服务环节:ICT项目数量多,维护人员投入有限,保障各类项目支撑需求和资源有效匹配,多维度分析项目数据,利用AI构建客户画像,生成客户专属服务方案,差异化分配服务资源。

客户主动服务环节

运维能力从有到优的阶段效果:

运维能力从有到优的阶段效果

Step3:运维能力从优到智|未来展望:

作为ICT项目的运维方,核心的痛点在于,如何在有限的运维成本下,为客户提供良好的产品体验。我司选择的路线,是借助AI,实现网络的“自智”。所谓网络自智,包括自监测、自优化、自愈合、自防护等四个维度的自动化和智能化运维。

四个维度的自动化和智能化运维

总体来说,浙江移动在ICT项目中面临网络隔绝和终端多样性挑战。为应对挑战,实施三步走战略:建立完备运维组件,利用AI提升效率和客户满意度,实现网络自智以提升客户体验。


关注我们:

SRE专委会视频号