TiDB 多集群告警监控-初章-监控融合、自动告警处理

这篇具有很好参考价值的文章主要介绍了TiDB 多集群告警监控-初章-监控融合、自动告警处理。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

author:longzhuquan

背景

随着公司XC改造步伐的前进,越来越多的业务选择 TiDB,由于各个业务之间需要物理隔离,避免不了的 TiDB 集群数量越来越多。虽然每套 TiDB 集群均有两个详细的监控 Dashboard、Grafana,但对于运维来说几十套集群的监控、告警、巡检均需消耗巨大的精力。

“融合工具” - 拥抱开源

虽然 TiDB 本身的 Prometheus 也可进行数据的整合,但场景太过于单一,达不到预想效果。对于运维以及业务来说几十套集群上百个节点均需要做到告警消息及时告知、监控大盘、可在单一页面上便捷的查看所有Grafana信息、Dashboard监控可进行语句级别的查询。TiDB 是一款优秀的开源软件,本着拥抱开源的心态,经过大量的调研以及基于成本的考量,最终选择了在监控领域的开源产品夜莺。夜莺产品架构如下:

TiDB 多集群告警监控-初章-监控融合、自动告警处理,夜莺监控,tidb,nightingale

选择夜莺监控主要有两点:

1、兼容多个数据源接口,Prometheus、Zabbix、ES 等。这使得对于多套集群的 TiDB 无需做额外改动,只需要将 Prometheus 数据源接入即可获得所有采集数据。从而进行后续告警数据加工,且 ES 等数据源的支持也可为后续多集群日志整合提供可能性。

2、完全开源,成本低。无论是适配成本以及资源成本在同类产品中都占据优势。

TiDB 多集群告警监控-初章-监控融合、自动告警处理,夜莺监控,tidb,nightingale

工具安装

工具安装

详细的安装步骤请参考官网 安装部署详解 这里不在赘述。

由于整体项目为XC,监控也需要进行XC考量,所以将监控底层存储 MYSQL 替换为TiDB。Redis替换为某国产中间价。实际测试可百分百兼容。

业务组设计

整个监控的告警、监控不仅仅是面向 DBA,对应业务组的重要应用人员也有权知道后端数据库资源使用情况。业务组之间耦合性较低,每个业务仅关心自己的业务,DBA 则需要管控所有集群。针对此种场景在进行监控具体指标设计之前,需要按照不同需求进行业务组、角色、团队设计。

设计规则

用户管理:1、LDAP用户登录帐号,2、虚拟机器人+token地址(内部飞书告警)

TiDB 多集群告警监控-初章-监控融合、自动告警处理,夜莺监控,tidb,nightingale

TiDB 多集群告警监控-初章-监控融合、自动告警处理,夜莺监控,tidb,nightingale

团队管理:以一级部门名称+产品名称+业务系统命名(对应飞书接收群组名称),对应告警接收组 eg :ITXX部门- TiDB-XXX业务系统

TiDB 多集群告警监控-初章-监控融合、自动告警处理,夜莺监控,tidb,nightingale

业务组管理:以产品名称+一级部门+产品名称+系统名称命名(对应告警规则组),此处第一个产品名称为自动折叠设置。

TiDB 多集群告警监控-初章-监控融合、自动告警处理,夜莺监控,tidb,nightingale

角色管理:告警机器人账户、业务组人员账户、监控管理员账户,不同角色不同权限。

TiDB 多集群告警监控-初章-监控融合、自动告警处理,夜莺监控,tidb,nightingale

告警规则制定

制定完成业务组后,第一步实现飞书自动告警功能。

添加数据源

为方便管理数据源命名规范为:

部门_中间件名_业务系统_环境_IP(prometheus)

eg:XXIT_TiDB_ JAVA_PRO_127_0_0_1

TiDB 多集群告警监控-初章-监控融合、自动告警处理,夜莺监控,tidb,nightingale

添加告警规则

告警管理-告警规则-点击对于业务组-新增,同样为后续运维性考量,需严格设置规范命名规则。其中PromQL规则则按照自我需求编写即可,后续我司规则将会提交至开源社区,感兴趣可参考。

规则名称:业务系统描述+告警简介

备注:对应告警集群

数据源:只关联业务系统对应的数据源

告警接收组:对应业务组

TiDB 多集群告警监控-初章-监控融合、自动告警处理,夜莺监控,tidb,nightingale

TiDB 多集群告警监控-初章-监控融合、自动告警处理,夜莺监控,tidb,nightingale

TiDB 多集群告警监控-初章-监控融合、自动告警处理,夜莺监控,tidb,nightingale

告警模板制定(此处可根据需求自行编写通知模板)

系统配置-通知模板-飞书

告警环境: 测试环境 
服务名称: {{index .TagsMap "paasName"}}{{index .TagsMap "serviceName"}} 
级别状态: S{{.Severity}} {{if .IsRecovered}}Recovered {{else}}Triggered{{end}} 
告警对象: {{if.TargetIdent}}{{.TargetIdent}} {{else}}{{index .TagsMap "instance"}}{{end}} 
规则名称: {{.RuleName}}{{if .RuleNote}} 
规则备注: {{.RuleNote}}{{end}} 
监控指标: {{.TagsJSON}} 
{{if .IsRecovered}}
恢复时间: {{timeformat .LastEvalTime}}
{{else}}
触发时间: {{timeformat .TriggerTime}} 
触发时值: {{.TriggerValue}}
{{end}} 
发送时间: {{timestamp}}

成果展示

告警管理-业务组告警规则-不同业务组不同集群全部整合

TiDB 多集群告警监控-初章-监控融合、自动告警处理,夜莺监控,tidb,nightingale

飞书告警效果

TiDB 多集群告警监控-初章-监控融合、自动告警处理,夜莺监控,tidb,nightingale

结语

本篇文章粗浅的介绍了如何通过夜莺补齐 TiDB 告警融合缺失的问题,当然文章篇幅有限,实际会有更多细节,如感兴趣欢迎垂询。

下一章将会介绍如何融合多集群 Grafana ,以及 Dashboard 部分功能实现,做到一个页面即可查看几十甚至上百节点集群的难题。文章来源地址https://www.toymoban.com/news/detail-797437.html

到了这里,关于TiDB 多集群告警监控-初章-监控融合、自动告警处理的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 夜莺(Flashcat)V6监控(五):夜莺监控k8s组件(上)

        目录 (一)Kubernetest监控体系 1.Kubernetes监控策略 (二)K8s-ApiServer组件监控 (1)我们先创建一个namespace来专门做夜莺监控采集指标 (2)创建认证授权信息rbac     (3)使用prometheus-agent进行指标采集 ① 创建Prometheus的配置文件 ② 部署Prometehus Agent (三)K8s-ControllerManager组件监控 (1)创建

    2024年02月06日
    浏览(45)
  • zabbix自动发现linux系统挂载的nas盘,并实现读写故障的监控告警

    一.准备好被监控机器上面执行脚本,以备服务端发现和监控 脚本的内容: ZABBI安装路径可执行文件及配置文件根据实际部署的路径更改 二.ZABBIX监控模板导出的XML文件如下: 三.导入模板,在被监控的主机上执行脚本和应用监控模板,实现对被监控主机NAS盘读写情况的监控 并根据实

    2024年02月10日
    浏览(38)
  • 夜莺(Flashcat)V6监控(五):夜莺监控k8s组件(下)---使用kube-state-metrics监控K8s对象

    目录 (一)前言 (二)categraf作为Daemonset的方式去运行监控k8s组件  (1)1.24版本以下的k8s集群部署方法: ①创建autu.yaml绑定权限 ②Daemonset部署categraf采集监控kubelet,kube-proxy ③测试数据是否采集成功  (2)1.24版本以上的k8s集群部署方法: ①创建secret token 绑定sa账号 ③测试认证 ④Daemo

    2024年02月09日
    浏览(45)
  • 夜莺(Flashcat)V6监控(二):夜莺页面全网最详细功能介绍及案列

    目录 (一):如何把数据转发给多个时序库 (二):监控仪表盘的配置 (三):告警的配置管理            (1):告警规则 ①: 基础配置 ②:规则配置:分为Metric和Host机器类型的告警 ③: 生成配置 ④:通知配置   (2): 内置规则   (3) 屏蔽规则   (4) 订阅规则   (5) 活跃告警

    2024年02月06日
    浏览(42)
  • 夜莺(Flashcat)V6监控(一):介绍及其部署

         夜莺监控( Nightingale )是一款国产、开源云原生监控分析系统,采用 All-In-One 的设计,集数据采集、可视化、监控告警、数据分析于一体。于 2020 年 3 月 20 日,在 github 上发布 v1 版本,已累计迭代 60 多个版本。从 v5 版本开始与 Prometheus、VictoriaMetrics、Grafana、Telegraf、

    2024年02月05日
    浏览(40)
  • Linux 企业级夜莺监控分析工具远程访问

    夜莺监控是一款开源云原生观测分析工具,采用 All-in-One 的设计理念,集数据采集、可视化、监控告警、数据分析于一体,与云原生生态紧密集成,提供开箱即用的企业级监控分析和告警能力。夜莺于 2020 年 3 月 20 日,在 github 上发布 v1 版本,已累计迭代 100 多个版本。 本地

    2024年02月08日
    浏览(42)
  • 开源运维监控系统-Nightingale(夜莺)应用实践(未完)

      某业务系统因OS改造,原先的Zabbix监控系统推倒后未重建,本来计划用外部企业内其他监控系统接入,后又通知需要自建才能对接,考虑之前zabbix的一些不便,本次计划采用一个类Prometheus的监控系统,镜调研后发现Nightingale兼容Prometheus,又有一些其他功能增强,又在一些

    2024年02月04日
    浏览(46)
  • 【夜莺(Flashcat)V6监控】4.采集器Categraf介绍

    Categraf 是一个监控采集 Agent,类似 Telegraf、Grafana-Agent、Datadog-Agent,希望对所有常见监控对象提供监控数据采集能力,采用 All-in-one 的设计,不但支持指标采集,也希望支持日志和调用链路的数据采集。来自快猫研发团队,和 Open-Falcon、Nightingale 的研发是一拨人。 categraf 的代

    2024年02月07日
    浏览(42)
  • 夜莺n9e监控V6架构以及部署(Nightingale)

    一官方网址 1夜莺github网址:https://github.com/ccfos/nightingale 2这Flashcat官网:https://flashcat.cloud/ 相关包下载可以在github的Releases里面下载也可以在Flashcat官网下载 夜莺的定位:定位类似于grafana。grafana更擅长看图,夜莺更擅长告警规则的管理(主打的多个团队权限的管理,项目的协

    2024年02月09日
    浏览(35)
  • 提高错误日志处理效率!使用Python和钉钉机器人实现自动告警聚合

    日志是非常重要的信息资源。它们记录了应用程序的运行状态、错误和异常情况,帮助我们了解系统的健康状况以及发现潜在的问题。为了高效地管理和分析日志数据,许多组织采用了Elasticsearch、Logstash和Kibana(ELK)堆栈作为日志收集和分析的解决方案。 开发一个实时监控和

    2024年02月11日
    浏览(45)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包