过亿云资源运维管控难?华为云CloudMap带你喝着咖啡做运维

这篇具有很好参考价值的文章主要介绍了过亿云资源运维管控难?华为云CloudMap带你喝着咖啡做运维。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

摘要:华为云站点数字化平台CloudMap携手华为云图引擎GES打造云服务全栈拓扑,网络流量路径和云服务动态依赖等空间关系数据,支撑现网运行态风险识别和分钟级定位定界,构建业界领先的数字化能力。

本文分享自华为云社区《构建站点数字孪生,支撑确定性运维:华为云九洲云图CloudMap》,作者:HWCloudAI 。

随着云计算产业的蓬勃发展,站点数字化进程方兴未艾,如何管理云站点中数目众多的云资源和日益复杂的关系数据,通过数字化技术提前识别和发现现网风险,保证现网不出重大事故成为当前SRE面临的巨大挑战。面对海量业务和运维数据,如何构建站点级数字孪生平台,让数据发挥自身价值为SRE所用,是迈入DataOps的我们亟需解决的问题。为此,华为云站点数字化平台CloudMap(以下简称“九洲平台CloudMap”)携手华为云图引擎GES打造云服务全栈拓扑,网络流量路径和云服务动态依赖等空间关系数据,支撑现网运行态风险识别和分钟级定位定界,构建业界领先的数字化能力。

1、传统云资源运维面临的挑战

传统的云资源的运维存在诸多问题:对风险的管控仍然依赖人工而不是工具系统,风火水电基础设施在遇到问题时因无法定位影响只能全局管控,使影响面无故扩大。由于缺乏云资源的拓扑信息,部分资源依赖获取不到会导致许多问题的搁置……提升云资源的自动化运维能力,面临诸多挑战:

缺乏拓扑信息,依赖分析难

不同的云资源(如租户信息、云服务信息、机柜机房信息)来源于不同的系统中,从软件层面的云服务,到硬件层面的机房机柜等,都可能出现各种各样的问题,并且不同的云服务之间存在着一些依赖关系,一个云服务出问题可能影响其他云服务。

自动化程度低,问题定位依赖人工

即使拥有这些依赖关系并存储在配置管理数据库中,传统运维手段也只能定位问题节点,对于问题的爆炸半径(如问题节点依赖的机柜机房信息、或者受到其依赖的其他云服务)往往要依赖手工定位。

运维诉求杂,查询类型多

此外运维例行维护、故障定位需要进行类型繁多的查询,既需要有实时性要求的单点深度链路查询支撑运维,也需要全局类链路统计等偏离线任务的查询支撑下游任务。

2、九洲平台CloudMap的解决方案

cloudmap,开发者上云,大数据,华为云,云计算,站点数字化,CloudMap,华为云图引擎GES

图 1 九洲平台CloudMap数据概览

九洲平台CloudMap携手华为云图引擎GES完成了亿级空间数据构建,通过租户资源拓扑构建、网络流量路径分析、服务动态依赖发现打造全链路可视能力,构筑基于站点视角的数字化平台,实现分钟级问题定界。

cloudmap,开发者上云,大数据,华为云,云计算,站点数字化,CloudMap,华为云图引擎GES

图 2 云上资源拓扑关系示意图

2.1 租户资源拓扑构建

租户资源拓扑是将实体抽象成与其大小、形状无关的“点”,而把连接实体的线路抽象成“线”。CloudMap通过整合各类系统中的数据信息,将华为云的租户与其相关租赁的物理机、虚拟机进行关系的构建并存储到华为云图引擎GES中,构建租户资源拓扑,使得依赖分析成为可能。在租户出现问题时第一时间能够通过“线”溯源回对应的租赁机器,并快速定位和解决其中的问题。

2.2 网络流量路径分析

华为云作为国内TOP云服务厂商,每日网络流量数据是比较庞大的,对于网络流量路径的管理和可视就如百度地图之于道路交通一样重要。而在运维场景下,掌握了网络流量路径可以进一步的补充由基础设施、基础服务到高阶服务之间的链路关系。CloudMap通过将请求流量进行监控,绘制出一个整体、清晰的物理和虚拟网络路径,可以准确截断问题的蔓延,提高自动化运维水平。

2.3 服务动态依赖发现

服务依赖发现是发现分布式软件系统中各组件依赖关系的过程,随着华为云的规模扩张,服务往往会被拆分为多个子服务。分布式软件系统通过不同子服务之间的组合,提供了稳定多样化的服务。与此同时,由于这些错综复杂的依赖关系,也伴随着很多连锁反应。其中最经典的案例就是由于单个服务的故障导致其在分布式软件系统中快速传播,导致大量的服务失效。在华为云的日常运维中,掌握各个服务的动态依赖是让云稳定可靠不可或缺的一项技术,它关系到了能否快速的找到保障服务的各个关联服务,避免其他服务引火烧身。CloudMap通过对服务间依赖的动态探测,构造全链路微服务依赖关系;同时借助GES的多跳查询能力,及时定位单服务问题的影响范围,避免大量服务失效,解决爆炸半径求解难的问题

cloudmap,开发者上云,大数据,华为云,云计算,站点数字化,CloudMap,华为云图引擎GES

图 3 服务资源视图查询示例

3、华为云图引擎GES助力CloudMap高效检索图数据

从数据入库到计算查询,华为云图引擎GES为九洲平台CloudMap的存储、查询和分析提供了一站式解决方案。

3.1 图数据建模

  1. 在复杂、庞大数据量的背景下很难使用传统的结构化数据库进行数据建模,图引擎帮助快速构建点到点、点到边之间的数据建模;
  2. 从基础设施到云服务,使用图引擎构建全栈元数据,创建了过亿的点边关系,同时这些点、边支持增加属性机制,让每个点、边都能存储对应的属性;
  3. 数亿级属性数据实现小时级数据导入能力,保证了数据的时效性。
cloudmap,开发者上云,大数据,华为云,云计算,站点数字化,CloudMap,华为云图引擎GES

图 4 简化后的元数据截选

3.2 多样接口能力

华为云图引擎GES提供了丰富的API接口查询能力,CloudMap通过调用GES API,实现接口化的查询逻辑。目前CloudMap有数十个查询请求通过GES的Cypher、PipelineQuery、PathQuery等接口完成,这些请求响应和返回格式统一,便于处理,简化了CloudMap的处理逻辑,降低了运维诉求杂,查询类型多带来的业务开发成本。查询请求的高效响应,让长链路的空间关系数据得以快速查询并消费。

cloudmap,开发者上云,大数据,华为云,云计算,站点数字化,CloudMap,华为云图引擎GES

3.3 计算分析

  • 秒级响应能力:在图引擎的强大算力支持下,九洲平台CloudMap实现了多点、多跳查询的能力,在复杂的空间关系中快速、准确的找到需要的数据及关系。其中利用业界领先的技术,图引擎将大量6-8跳查询的响应控制在秒级,使得CloudMap进行实时故障影响面分析、设备依赖关系查询成为可能;
  • 离线计算能力:在对于需要庞大计算量、大量数据的分析型任务中,图引擎提供了异步任务能力,通过提前执行离线查询/算法任务并缓存结果,保证了结果获取的效率,支撑了CloudMap向下游应用提供数据;
  • 强大索引机制:图引擎支持像关系型数据库一样的索引构建能力,可以基于label、属性等进行索引创建,实现全图属性过滤任务的快速响应;
  • 稳定可靠的查询能力:由于数据量大、查询链路长的原因,在查询过程中往往会使用大量内存,图引擎通过内存管理技术控制总内存使用量,让查询稳定可靠。
cloudmap,开发者上云,大数据,华为云,云计算,站点数字化,CloudMap,华为云图引擎GES

图 5 CloudMap数据示例

4、九洲平台CloudMap的应用

作为站点数字化平台,九洲平台CloudMap在图引擎GES上搭建运维图谱图模型,建立站点空间数据关系。通过叠加空间数据和运维作业数据,从而打破数据孤岛、消除数据断裂点,形成运维知识图谱,释放数据价值,助力故障快速定位定界:

cloudmap,开发者上云,大数据,华为云,云计算,站点数字化,CloudMap,华为云图引擎GES
  • 空间数据:通过提供华为云站点三类空间数据(租户资源拓扑、网络流量路径与服务架构依赖),提供从租户资源实例、物理网络到基础设施风火水电等全局视野,支撑快速识别服务影响与租户影响范围;
  • 知识图谱:基于以上空间数据,结合告警、变更、监控与事件等核心运维数据,通过整合整理,再提取出故障线索,形成发现即定界能力,提升黑盒和自愈恢复触达效率。
  • 专家经验:在各个运维场景下不断固化专家经验并进行实践和沉淀,使得专家经验真正使能运维数据。

截止目前,CloudMap空间关系数据已覆盖30+云服务,在分布式缓存服务DCS、云数据库服务RDS、文档数据库服务DDS和大数据服务MRS等高阶服务故障快恢场景应用落地。除此之外,CloudMap还为站点风控、变更风控、故障快恢等多个运维场景提供了数据底座和计算能力,极大提升了现网运维效率,为华为云稳定可靠,为SRE确定性运维而持续努力。

点击关注,第一时间了解华为云新鲜技术~文章来源地址https://www.toymoban.com/news/detail-810156.html

到了这里,关于过亿云资源运维管控难?华为云CloudMap带你喝着咖啡做运维的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【FAQ】关于华为推送服务因营销消息频次管控导致服务通讯类消息下发失败的解决方案

    使用华为推送服务下发IM消息时,下发消息请求成功且code码为80000000,但是手机总是收不到消息; 在华为推送自助分析(Beta)平台查看发现,消息发送触发了频控。 2023年1月05日起,华为推送服务对咨询营销类消息做了单个设备每日推送数量上限管理,具体数量上限可以查看

    2023年04月19日
    浏览(39)
  • 【运维】华为交换机常用命令

    华为交换机的基本配置命令 华为交换机的常用命令: 进入系统视图——sy 交换机命名——sysname huawei 返回上一级——quit(q) 直接返回视图——return(ret) 保存配置——save(sa) 重启设备——reboot 查看配置——display current-configuration(dis cur) 查看VLAN——dis vlan 查看端口—

    2024年02月07日
    浏览(41)
  • 【华为OD】运维日志排序

    题目描述 : 运维工程师采集到某产品线网运行一天产生的日志n条,现需根据日志时间先后顺序对日志进行排序,日志时间格式为H:M:S.N。 H表示小时(0~23) M表示分钟(0~59) S表示秒(0~59) N表示毫秒(0~999) 时间可能并没有补全,也就是说,01:01:01.001也可能表示为1:1:1.1。   输入描述

    2024年02月14日
    浏览(30)
  • DB2 HADR+TSA运维,TSA添加资源组的命令

    Tivoli System Automation(TSA)是一个高可用性集群管理软件,DB2 TSA+HADR高可用方案可以实现DB2 hadr主备的自动检测切换。本文详细介绍了TSA的常用命令,如何把CDC或者DSG添加到TSA集群中,以及TSA的错误分析方法 常用命令: lsrpdomain/lsrpnode - 查询domain和node信息: [db2inst1@p0-pbd-pbd-db2

    2024年02月10日
    浏览(81)
  • 华为资深工程师带你了解华为七大根技术

    看得见的是产品,看不见的是背后的基础研究和技术创新。 根技术是技术树之根,持续为技术树提供滋养,决定企业的荣枯。 华为技术有限公司在全球有超80+基础技术实验室,170+联合实验室、创新实验室;研发人员11.4万名,占比55.4%,每年研发投入占销售收入10% ,全球持有

    2024年02月07日
    浏览(53)
  • 过亿资产地址被拉入黑名单?Tether地址冻结功能该怎么用?

    一直以来收到不少用户私信求助,表示自己的USDT发生转错账/被盗/诈骗等类似问题,损失不少金额。所以再次提醒大家不要泄露自己的私钥!不要点击未知网站,谨防钓鱼事件的发生!在暗潮汹涌的区块链世界里,光有警惕心还不够,还得掌握相关的知识技能才能更好的保护

    2024年02月15日
    浏览(50)
  • 手把手带你玩转HetuEngine:资源规划与数据源对接

    本文分享自华为云社区《【手把手带你玩转HetuEngine】(三)HetuEngine资源规划》,作者: HetuEngine九级代言 。 HetuEngine支持在服务层角色实例和计算实例两个维度进行资源规划,并且支持在高并发场景下通过启动多个计算实例进行负载分担和均衡,从而满足各种业务场景下的资

    2024年02月12日
    浏览(39)
  • 华为安全专家带你入门安全多方计算

    6月8日(本周四) 19:00—21:00 ,华为安全专家带你入门安全多方计算,欢迎参加! 考虑以下应用场景: Alice认为她可能患有某种遗传病,Bob有一个包含DNA模式与各类疾病的数据库。Alice可将她的DNA序列交给Bob得到诊断结果。然而,Alice不想泄露自己的DNA序列,也不想Bob及其他人

    2024年02月08日
    浏览(47)
  • 揭秘高效运维:如何用kubectl top命令实时监控K8s资源使用情况?

    往期精彩: 提升CKA考试胜算:一文带你全面了解RBAC权限控制! kubectl top 是一个用于查看 Kubernetes 集群中资源使用情况的命令。它可以显示节点或Pod的CPU、内存和存储的使用情况。该命令要求正确配置 Metrics Server 并在服务器上工作。 Metrics Server 是 Kubernetes 内置自动缩放管道的

    2024年02月19日
    浏览(49)
  • 开源免费虚拟化KVM的部署及其虚拟机资源变更、快照、克隆等常见运维操作

    实践说明:基于RHEL9(AlmaLinux9.1)部署,同类系统(CentOS9,RockyLinux9等)适用,但适用场景是不限于此的。 文档说明:本文档旨在帮助快速应用KVM虚拟化技术,重在实践操作,提供了简要参考。 文档形成时期:2021-2023年 因系统或软件版本不同,构建部署可能略有差异,但本文未做细

    2024年02月02日
    浏览(53)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包