灭火图 - 故障发现和定位的入口

这篇具有很好参考价值的文章主要介绍了灭火图 - 故障发现和定位的入口。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

通过深入分析和解决企业在可观测性和稳定性保障方面的挑战,Flashcat 提出了“灭火图”这一关键概念。

  • 灭火图以服务/模块/基础组件/基础设施等为维度,以聚合的视角实时度量某个特定维度的可用性(典型指标包括时延、流量、错误、饱和度),并为该可用性指标自动设定合理的阈值,可以回溯历史上的指定时间点的可用性状态(典型的跨度为24小时)。
  • 灭火图是发现服务健康与否的入口,也是整个故障定位信息系统的核心,从灭火图开始,可以下钻到具体的接口/基础设施/链路分析数据/问题特征/相关事件等关键维度,引导技术团队高效、精准的定位故障。

今天详细为大家介绍服务故障定位的入口工具:Flashcat-灭火图

灭火图的功能定位是什么?

在建设和使用可观测性平台的过程中,我们是否经常遇到以下这些问题:

  • 数据分散:需要观测的数据一部分在这个平台,一部分在那个平台,查看和对比的时候切来切去十分苦恼
  • 数据太多:一个主机几十个指标,一个微服务几十个指标,追溯问题的时候成百上千的指标和日志等各类数据,不知从何下手
  • 难以追溯:发现了服务发生问题,是否是网络设备出现问题还是底层基础设施出现问题?追溯时要先确定底层是哪些设备,再依次排查对应数据,效率很低
  • 难以解决:不同的模块和设备往往是不同的人负责的,发生问题时如果没有负责人的及时介入,从查问题到解决问题,可能会被“踢皮球”,在过程中浪费了大量时间

通过灭火图,我们针对性的解决监控中这些痛点,更加快速的帮助用户发现、定位并解决问题。

灭火图,是Flashcat故障定位环节的入口,也是连接Flashcat中各分析能力的核心。

我们可以通过Flashcat的北极星系统和智能告警发现业务异常,日常巡检中则可以通过浏览灭火图,快速聚焦可能出现问题或者已经出现问题的接口、模块以及下层的组件和基础设施,并下钻查看其中具体是哪一部分发生问题。

通过灭火图卡片的关联分析入口,查看所有卡片相关的数据并通过灵活多样化的分析工具和下钻功能继续找到问题根因并解决。

也可通过卡片告警功能对问题发生进行及时预警,以便更加及时的解决可能发生的问题。以灭火图为入口,一站式完成问题的发现、定位、解决、预防的一系列操作。

那么同样也常被用作日常巡检和问题排查的仪表盘和灭火图又有何区别呢?

  • 【组织形态上】 灭火图是结构化的,可以同时观测系统的多个部分,如功能/组件/基础设施,还可以层层下钻,查看具体对象的指标/日志/链路/事件等,是系统的立体抽象和关键数据的浓缩;相比之下,仪表盘更侧重于数据的平铺、多样化展示,各个仪表盘间往往是并列的关系,常用于监控对象明细数据的呈现。
  • 【功能上】 灭火图基于结构化的优点,汇聚串联了各种分析功能和排查问题的最佳实践,比如功能卡片飘红,我们可以下钻查看功能对应的指标,发现成功率下降,继续下钻查看对应时间点的日志,以及进一步查看链路分析数据/问题特征/相关事件等;仪表盘则更侧重于数据展示丰富性的实现,配备简单的变量切换查看功能。
  • 【使用上】 在故障处理时,问题范围收敛、排查路径引导等环节更多需要使用到灭火图。而当问题定位到某个具体的对象,如一台服务器或一个数据库时,则可以查看这个对象的仪表盘详情,用于做更为详细的分析。因此仪表盘可以作为基于灭火图追查问题的一个最终环节,两者结合起来加速问题的排查分析,灭火图也提供了串联仪表盘的功能,让整个定位分析过程变得更为流畅。

传统仪表盘: 

灭火图: 

推荐一个 Flashcat 灭火图针对C端服务的最佳实践

  1. 将灭火图首页层级规划为:接口、微服务、组件、基础设施。
  2. 确定支持北极星业务线的核心接口(如订单系统核心接口、用户系统核心接口等)、微服务及对应负责人。
  3. 确定支持以上接口和微服务的组件(如MySQL、Redis、Kafka等)、基础设施(网络、DNS等)及对应负责人。
  4. 基于灭火图的各类模板创建规则,规则将自动生成接口、微服务、组件和基础设施的灭火图卡片,并分层展示。同时规则可定期自动执行,自动更新卡片。
  5. 灭火图能够自动关联日志、trace等信息,也可手动补充关联,如某微服务的变更事件、某组件的仪表盘等。
  6. 巡检或故障处理时,在灭火图首页观测服务的全局状态,有飘红的部分则下钻追查,收敛问题范围,并按关联的线索排查相应的指标、日志、tracing、事件等。

针对不同的行业或toC和toB的特点,灭火图配置和观测的对象可以灵活设置。

此外,灭火图能够快速生成为拓扑大屏展示形式,非技术人员也可以简明的完成日常巡检和异常观察。

灭火图的应用范围

灭火图是IT系统全局健康状态的量化,也是服务故障的处理入口,在需要稳定性保障的场景都可以发挥其价值。

例如:

  • 门店类业务
  • 出行类业务
  • 电商类业务
  • …..

总结

灭火图正成为企业提升稳定性保障能力,加速故障定位不可或缺的工具。

了解灭火图的更多详情请访问快猫星云官网:https://flashcat.cloud/文章来源地址https://www.toymoban.com/news/detail-818327.html

到了这里,关于灭火图 - 故障发现和定位的入口的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 手机无法通过wifi上网的原因分析(路由器故障)

    手机软件及路由制式不兼容、布网不佳 目前,Wi-Fi上网越来越普及。根据Wi-Fi联盟统计的数据,近两年,全球Wi-Fi用户每年以20%的速度增长。同时,在中国,移动、联通、电信三大运营商共建设了100万处Wi-Fi热点。Wi-Fi联盟首席执行官Edgar Figueroa直言,目前国内运营商大力扩展

    2024年02月05日
    浏览(45)
  • 【运维】第04课:入口网关服务注册发现-Openrety 动态 uptream

    本课时,我将带你一起了解入口网关服务的注册发现,并使用 OpenResty 实现一套动态 Upstream。 基于本课时我们将要学习的内容,我建议你课前先了解一下 Nginx 的基础,同时熟悉基础的 Lua 语言语法,另外再回顾一下 HTTP 的请求过程,对于 Nginx 的负载均衡基本原理也要有基础的

    2024年02月16日
    浏览(42)
  • 【数据挖掘与人工智能可视化分析】可视化分析:如何通过可视化技术进行数据挖掘和发现

    作者:禅与计算机程序设计艺术 数据挖掘(Data Mining)和人工智能(Artificial Intelligence,AI)已经成为当今社会热点话题。这两者之间的结合也带来了很多挑战。作为数据科学家、机器学习工程师、深度学习研究员等,掌握了数据的获取、清洗、处理、建模、应用这些技术的前提下,

    2024年02月07日
    浏览(74)
  • Kubernetes 集群的异常处理手段,包括集群自愈、集群监控、日志收集、集群规模扩容、节点问题处理、Pod问题定位、网络故障诊断、应用性能瓶颈分析、应用访问失效问题排查等方面知识

    作者:禅与计算机程序设计艺术 随着容器技术的普及和应用,容器集群已经成为云计算领域中一个重要的基础设施,用来提供快速、可扩展、高可用和弹性的服务。Kubernetes(简称K8s)是最具代表性的开源容器编排引擎之一,通过自动化部署、管理和调度容器ized application,极

    2024年02月07日
    浏览(41)
  • 安全事件分析思路及逻辑_当菜省公司安全专业发现一个告警,该告警中显示一台wn主机频繁的通过445端口探测其(1)

    ​ 误报排除方法:如果短时间内扫描大量不存在的web页面(人工达不到的速度,比如上面一分多钟达到208次)那就很有可能是在探 测web目录是否存在一些中间件 ​ 查看扫描的部分路径是否一些常见中间件的url,比如上面一直扫描web是否存在mysql的管理工具,如果扫描到 my

    2024年04月27日
    浏览(35)
  • 配网故障定位装置:让电力故障无所遁形

    随着科技的不断发展,电力系统的安全和可靠性越来越受到重视。在这个背景下,恒峰智慧科技研发的配网行波型故障预警与定位系统HFP-GZS1000应运而生。它基于成熟的行波测距技术,集智能传感器、混供取能、深度学习算法等诸多先进技术于一身,广域同步采集配电线路高

    2024年01月17日
    浏览(45)
  • 【Maven】如何发现,定位,解决依赖冲突

    运行的时候可能报出错误xx类找不到xx方法,xx类找不到,很有可能就是冲突导致的。 idea安装插件,maven helper 比如我有两个依赖,guava和findbug。 他们都用到了jsr305,但是我依赖的版本不同。可以进入pom文件点击下面的通过Dependency Anazlyer来查看冲突。 可以打印出依赖关系树

    2024年02月11日
    浏览(39)
  • mysql主从同步配置及故障定位

    主节点:     1) 启动二进制日志;         vim /etc/my.cnf | vim /etc/my.cnf.d/server.cnf             [mysqld]             log-bin=master-bin             server-id=1             innodb_file_per_table=ON             skip_name_resolve=ON         systemctl restart mysqld     2) 为当前节点设

    2024年02月11日
    浏览(54)
  • 【方法复现】主动配电网故障定位方法研究

    目录 1 主要内容 算例模型 期望故障电流状态函数 评价函数(膨胀率函数) 算例验证方法 详实的文档说明 2 部分程序 3 程序结果 4 下载链接 该程序方法复现了《基于改进多元宇宙算法的主动配电网故障定位方法研究》_郑聪,建立了含分布式电源的主动配电网故障定位方法

    2023年04月09日
    浏览(39)
  • zabbix自动发现linux系统挂载的nas盘,并实现读写故障的监控告警

    一.准备好被监控机器上面执行脚本,以备服务端发现和监控 脚本的内容: ZABBI安装路径可执行文件及配置文件根据实际部署的路径更改 二.ZABBIX监控模板导出的XML文件如下: 三.导入模板,在被监控的主机上执行脚本和应用监控模板,实现对被监控主机NAS盘读写情况的监控 并根据实

    2024年02月10日
    浏览(35)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包