华为云CCE集群健康中心:一个有大量的专家运维经验的云原生可观测平台

这篇具有很好参考价值的文章主要介绍了华为云CCE集群健康中心:一个有大量的专家运维经验的云原生可观测平台。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

本文分享自华为云社区《新一代云原生可观测平台之华为云CCE集群健康中心》,作者:云容器大未来。

"Kubernetes运维确实复杂,这不仅需要深入理解各种概念、原理和最佳实践,还需要对集群的健康状态、资源利用率、容器的稳定性等多个方面进行风险评估。当集群出现故障时,我们通常需要花费大量时间来分析各种日志和监控信息,以找出问题的根本原因。"一位IT公司运维总监如此说道。

近年来,越来越多的公司转向了基于Kubernetes的云原生架构。随着微服务和云原生架构的变得越来越复杂,我们也收到不少客户反馈在生产中进行监控和故障排除变得越来越困难。虽然CCE云原生可观测平台提供了监控、告警、日志等功能,能够让用户更加方便的定位问题,但是同样也无形中提高了运维人员的技术门槛。为了让运维和开发人员能够从繁重的故障定位排查中解脱出来,CCE服务提供了集群健康诊断能力。

CCE集群健康诊断集合了容器运维专家的经验,为您提供了集群级别的健康诊断最佳实践。可对集群健康状况进行全面检查,帮助您及时发现集群故障与潜在风险,并给出对应的修复建议供您参考。

▎开箱即用:免开通零依赖,一键健康诊断

集群健康诊断功能作为CCE内置健康专家系统,可以在不依赖任何插件和其他服务的情况下独立运行。用户无需繁琐的开通与配置流程,就可以一键触发集群健康诊断。

华为云CCE集群健康中心:一个有大量的专家运维经验的云原生可观测平台,技术交流,云计算,云原生,华为云,运维,云原生

图1 一键健康诊断

▎定时巡检:无人值守,持续守护集群健康

在主动运维场景,比如集群升级前后或业务重保期间,用户可随时主动触发健康诊断来保障业务的顺利运行。另一方面,在日常运维中,我们无法一直盯屏保障,为了将客户从这种低级的劳动中解放出来,健康诊断支持定时巡检功能,只需要简单的配置定时任务,健康诊断任务就可以在后台守护您的集群健康,并将检查结果定时存档,方便随时回溯复盘。

华为云CCE集群健康中心:一个有大量的专家运维经验的云原生可观测平台,技术交流,云计算,云原生,华为云,运维,云原生

图2 健康检查结果

▎多维诊断:丰富的诊断项,集群全方位体检

CCE集群健康诊断提炼了运维专家提供的高频故障案例,覆盖了集群/核心插件/节点/工作负载/外部依赖等多种维度的健康检查,并且所有的诊断项都给出了风险评级、影响风险、以及修复建议。

  • 集群维度:包括集群运维能力检查,安全组配置检查,集群资源规划检查等诊断项。

华为云CCE集群健康中心:一个有大量的专家运维经验的云原生可观测平台,技术交流,云计算,云原生,华为云,运维,云原生

图3 集群维度诊断项

  • 核心插件维度:覆盖监控、日志、coredns、存储等核心插件的健康检查。

华为云CCE集群健康中心:一个有大量的专家运维经验的云原生可观测平台,技术交流,云计算,云原生,华为云,运维,云原生

图4 核心插件维度诊断项

  • 节点维度:包括节点资源负载情况和节点状态诊断。

华为云CCE集群健康中心:一个有大量的专家运维经验的云原生可观测平台,技术交流,云计算,云原生,华为云,运维,云原生

图5 节点维度诊断项

  • 工作负载维度:包括工作负载配置检查,Pod资源负载检查,Pod状态诊断等。

华为云CCE集群健康中心:一个有大量的专家运维经验的云原生可观测平台,技术交流,云计算,云原生,华为云,运维,云原生

图6 工作负载维度诊断项

  • 外部依赖维度:主要包括ECS和云硬盘等资源配额检查。

华为云CCE集群健康中心:一个有大量的专家运维经验的云原生可观测平台,技术交流,云计算,云原生,华为云,运维,云原生

图7 外部依赖维度诊断项

▎智能分析:智能健康评级,专业修复建议

CCE集群健康诊断会针对故障和潜在风险,给出风险等级并提供修复建议。风险等级按照紧急程度分为高风险和低风险两种:

  • 高风险:说明该诊断项会危及到集群或应用稳定性,可能造成业务损失,需要尽快修复。
  • 低风险:说明该诊断项不符合云原生最佳实践,存在潜在的风险,但是不会马上对业务造成重大影响,建议修复。

在每一次健康诊断完成之后,所有的诊断结果会被汇总分析,并给出最终的集群健康评分,该评分反映了集群的整体健康状况。健康评分较低的集群往往存在较大的故障风险,需要引起集群管理员的高度重视。

华为云CCE集群健康中心:一个有大量的专家运维经验的云原生可观测平台,技术交流,云计算,云原生,华为云,运维,云原生

图8 健康风险等级评估

▎案例分析:一次安全组误操作导致的业务故障

CCE作为通用的容器平台,安全组规则的设置适用于通用场景。集群在创建时将会自动为Master节点和Node节点分别创建一个安全组。如果用户不小心误操作了默认安全组中的规则,可能会导致节点网络不通等问题,而且这种问题往往比较难以排除,需要花费较多的时间才能定位到安全组的原因,影响业务恢复速度。这种情况我们可以通过健康中心的巡检功能来进行故障诊断。

例如修改一个集群的默认安全组规则,将Master与Node通信规则,从允许改为拒绝。

华为云CCE集群健康中心:一个有大量的专家运维经验的云原生可观测平台,技术交流,云计算,云原生,华为云,运维,云原生

图9 修改安全组规则

以上操作会导致集群部分功能异常,如网络不通出现无法执行kubectl命令的问题。

这种问题往往难以排查,会消耗用户大量的时间来寻找根因。此时如果用户在CCE健康中心执行一次健康巡检,会发现安全组高风险巡检项提示:

华为云CCE集群健康中心:一个有大量的专家运维经验的云原生可观测平台,技术交流,云计算,云原生,华为云,运维,云原生

图10 安全组异常提示

通过诊断详情可以直接定位异常安全组,便于进行针对性修复:

华为云CCE集群健康中心:一个有大量的专家运维经验的云原生可观测平台,技术交流,云计算,云原生,华为云,运维,云原生

图11 定位异常安全组

整个故障诊断流程方便快捷,可以大幅减低故障排查时间,帮助客户业务更稳定的运行在CCE集群上。

▎结语

CCE集群健康诊断功能,集成沉淀了大量的专家运维经验,目标是为客户提供更加智能、快捷的运维能力。当前该能力依然在快速迭代,后续我们会增加巡检结果通知、风险评估阈值调整以及更丰富的诊断项等能力,为大家带来更智能、更可靠稳定的云原生系统。

服务体验请访问:云容器引擎_CCE_搭建_部署_企业级云容器_容器引擎-华为云

点击关注,第一时间了解华为云新鲜技术~文章来源地址https://www.toymoban.com/news/detail-811418.html

到了这里,关于华为云CCE集群健康中心:一个有大量的专家运维经验的云原生可观测平台的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Linux 删除大量小文件的两种方案 | 运维进阶

    【摘要】 Linux如何删除大量小文件?本文介绍了两种方法。 【作者】赵靖宇 环境: RHEL 6.5 + Oracle 11.2.0.4 需求: 使用df -i巡检发现Inodes使用率过高,需要清理删除文件来解决。如果Inodes满,该目录将不能写,即使df -h查看还有剩余空间。 这是因为通配符*在执行时会替换为具体

    2024年02月08日
    浏览(35)
  • 【Kubernetes运维篇】零故障升级Pod健康探测详解

    中文官方参考文档: Pod探测是Kubernetes中的一种机制, 用于检测Pod的状态和健康状况。当探测到Pod状态不正常时,根据重启策略进行相应的Pod操作 ,探测可以帮助Kubernetes集群自动化地管理容器的健康状态,提高应用程序的可靠性和可用性。 探测针对Pod中容器进行操作,所以探

    2024年02月08日
    浏览(40)
  • 贵州华夏生态交易中心交易规则分享,助市场健康发展

    近年来,生态产品交易市场的发展日益受到关注,生态产品交易活动你参与过吗?选择一个合规安全的交易平台对于生态产品交易商来说是是一个好的开端。贵州华夏生态交易中心是一个重要的生态产品交易平台,将贵州丰富的生态资源优势转化为产业优势和经济优势,充分发挥在

    2024年04月09日
    浏览(34)
  • 华为安全专家带你入门安全多方计算

    6月8日(本周四) 19:00—21:00 ,华为安全专家带你入门安全多方计算,欢迎参加! 考虑以下应用场景: Alice认为她可能患有某种遗传病,Bob有一个包含DNA模式与各类疾病的数据库。Alice可将她的DNA序列交给Bob得到诊断结果。然而,Alice不想泄露自己的DNA序列,也不想Bob及其他人

    2024年02月08日
    浏览(30)
  • 华为云专家出品《深入理解边缘计算》电子书上线

    华为开发者大会PaaS生态电子书推荐,助你成为了不起的开发者! 什么是边缘计算?边缘计算的应用场景有哪些? 华为云出品《深入理解边缘计算》电子书上线 带你系统理解云、边、端协同的相关原理 了解开源项目的源码分析流程 学成能够对云、边、端主流开源实现进行定

    2024年02月11日
    浏览(27)
  • 倒计时 1 天!浙江大学、乘云数字、阿里云等多位技术专家教授解读最新运维技术

    莫听监控繁杂声,何妨观测且徐行; 智能诊断快胜马,一键运维定乾坤。 各位朋友们,距离系统运维 MeetUp 开始只剩 2 天!此次 MeetUp 将围绕 Linux 的应用和系统可观测,eBPF 跟踪以及诊断技术等系统运维热门话题进行,活动上也将重磅发布“龙蜥一站式自动化运维 SysOM 3.0”,

    2024年02月13日
    浏览(29)
  • ES 集群的健康值状态

    绿色 :所有分片都可用 黄色 :至少有一个副本不可用,但是所有主分片都可用,此时集群能提供完整的读写服务,但是可用性较低。 红色 :至少有一个主分片不可用,数据不完整。此时集群无法提供完整的读写服务。集群不可用。 新手误区:对不同健康状态下的可用性描

    2024年02月12日
    浏览(28)
  • kylin集群反向代理(健康检查)

            前面一篇文章提到了使用nginx来对kylin集群进行反向代理, kylin集群使用nginx反向代理-CSDN博客 文章浏览阅读349次,点赞8次,收藏9次。由于是同一个集群的,元数据没有变化,所以,直接将原本的kylin使用scp的方式发送到其他节点即可。说明一下,192.168.200.12是我

    2024年02月02日
    浏览(36)
  • Zookeeper的集群健康监测与报警

    Zookeeper是一个开源的分布式协调服务,用于构建分布式应用程序的基础设施。它提供了一组简单的原子性操作来管理分布式应用程序的数据,并确保数据的一致性。Zookeeper的核心功能包括: 集群管理:Zookeeper可以管理一个集群中的节点,并确保集群中的节点数量始终保持在预

    2024年01月21日
    浏览(25)
  • 华为认证云计算专家(HCIE-Cloud Computing)--练习题

    1.(判断题)华为云stack支持鲲鹏架构,业务可从X86过渡到鲲鹏。 正确答案:正确 2.(判断题)业务上云以后,安全方面由云服务商负责,客户自己不需要做任何防护 A 对 B 错 正确答案:B 3.( 多选题 ) 某企业有一个购物系统部署在HCS,可以选择哪些服务做安全保障? A WAF B HSS C DBAS

    2024年01月17日
    浏览(42)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包