中国联通阿里飞天平台运维团队首次实现大规模平台自主运维,阿里云 TAM 团队化身“智能云管”,携手中国联通开启运维合作新模式。
近日,中国联通阿里飞天平台运维团队(以下简称“联通阿里 MSP 团队”)首次独立进行联通 5 个专有云平台的一线运维工作,问题自解决率达到 75%,这是联通阿里 MSP 团队能力成长的重大里程碑,标志着中国联通已具备阿里平台大规模自主运维能力,同时也标志着阿里云与中国联通开启运维合作新模式。
中国联通拥有覆盖全国、通达世界的现代通信网络和全球客户服务体系,主要经营固定通信业务,截至 2022 年,用户规模达到 4.6 亿。为拥抱数字化浪潮,中国联通同阿里云全面展开深入合作,将多个核心业务部署到阿里飞天云底座上,阿里云 TAM 团队长期为中国联通提供贴合客户需求的稳定性保障建设,伴随客户成长。
随着云上业务不断增多,中国联通为保障生产系统稳定,进一步加强自主掌控,更好的支撑联通业务,急需建立一支具备自主运维能力的团队。自主运维绝非易事,必须先跨过团队能力建设,运维规范 & 体系建设,工具建设 3 座大山。
合作共赢,初见成效
经过半年多的实践,阿里云 TAM 团队与联通阿里 MSP 团队建成联通软研院本地化阿里飞天混合云平台的运维团队,负责阿里平台飞天底座的运维工作,保证飞天底座的可用性和可靠性,为飞天平台中间件运维保驾护航。阿里云 TAM 团队以智能云管方式持续发力,结合联通阿里 MSP 团队对上层应用熟悉的优势,双方在人才建设、稳定性建设、技术运营建设、故障应急建设 4 个方面深度合作,保障联通系统稳定运行。
人才建设:阿里云 TAM 团队总结多年运维联通专有云平台的经验,打造针对性的培训课程及实操作业场景、操作手册,联通阿里 MSP 团队将联通系统规划、应用特点、流量特征、调用关系等整理成专项课程,双方相互学习、取长补短,逐步成为既懂业务也懂平台的面向行业的技术专家。
稳定性建设:针对风险事件、故障场景,阿里云 TAM 团队与联通 MSP 团队基于数字化运维平台进行分析与挖掘,沉淀最佳实践,对应输出 1000 余篇解决方案,并结合专业的知识库系统呈现应急手册,常见问题均可通过历史案例得到解决,持续提升运维效率。
技术运营建设:结合实际运维体验,阿里与联通两个团队联合研发,建成统一事件管理、多云可观测性平台、库存水位一点看全等运维工具,让事件处置、问题发现、处置时效进行一体化的质量管理,使问题得到高效闭环,对历史问题可追溯,可沉淀,同时也极大提升了运维效率。
故障应急建设:阿里云 TAM 团队协同联通阿里 MSP 团队建立完善的故障应急体系,针对历史出现过或根据架构依赖关系失败场景提前进行识别,梳理出对应的应急预案体制,并在团队内进行定向的普及与应用、演练,确保最大程度的主动识别风险、处置风险,并在已发生异常事件中进行及时止损。
本地化 SRE 迈入由维转营的阶段,未来可期
自今年联通阿里 MSP 团队成立,目前已独立开展联通 5 个专有云平台的独立维护工作,包含变更、升级、容量管理,资源运营、智能运维工具开发等,累计生产变更 283 个,问题自解决率达到了 75%,全年零事故,实现了联通安全生产目标的要求。联通阿里 MSP 团队与阿里云 TAM 团队可以实现一线运维人员快速融合调配,在应急保障、专项攻坚等方面协同合作无障碍。
两个团队未来计划在版本升级、高级运维专家培养、完善运维工具建设等方面开展深度合作。阿里云时刻将客户满意度放在首位,携手中国联通持续运作运维合作新模式,让客户管好云,用好云。文章来源:https://www.toymoban.com/news/detail-418945.html
阿里云化身“智能云管”,助力中国联通首次实现大规模平台自主运维文章来源地址https://www.toymoban.com/news/detail-418945.html
到了这里,关于阿里云化身“智能云管”,助力中国联通首次实现大规模平台自主运维的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!