阿里云ACK托管版安装Prometheus并配置kafka告警

这篇具有很好参考价值的文章主要介绍了阿里云ACK托管版安装Prometheus并配置kafka告警。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

前提条件:

1.已有ACK集群。

一、ACK集群中创建prometheus、alert的持久化的存储类(总共创建2个,步骤一致,名称和挂载的nas盘或者子目录不同而已)。grafana的dashboard持久化通过添加配置文件并打标签实现。

prometheus.yaml.gz,Devops,阿里云,kafka,云计算

prometheus.yaml.gz,Devops,阿里云,kafka,云计算

一、在应用市场找到ack-prometheus-operator,点击进入后选择"一键部署"。

prometheus.yaml.gz,Devops,阿里云,kafka,云计算

 二、选择集群名称后进入下一步

prometheus.yaml.gz,Devops,阿里云,kafka,云计算

 三、默认一键部署的yaml文件修改如下部分,左边为修改后,右边是一键部署默认参数。

prometheus.yaml.gz,Devops,阿里云,kafka,云计算

四、点击"确定"进行部署,如果提示冲突,那就是之前安装过,有podsecuritypolicy、Clusterrole等冲突,按照提示删除即可。

五、可以查看我们配置的kafka的监控(当然如果你在yaml中未配置kafka监控或其他监控,后续按照下图格式手动添加也是可以的)

prometheus.yaml.gz,Devops,阿里云,kafka,云计算

 prometheus.yaml.gz,Devops,阿里云,kafka,云计算

 六、配置kafka的grafana图表

(1)登录grafana界面,账号是admin,密码是一键部署时yaml文件中配置的密码,然后在导入界面,导入官方的模板id为7589,但是下次grafana重启就会丢失这个dashboard。

prometheus.yaml.gz,Devops,阿里云,kafka,云计算

prometheus.yaml.gz,Devops,阿里云,kafka,云计算

 (2)通过配置文件添加dashborad。

prometheus.yaml.gz,Devops,阿里云,kafka,云计算

prometheus.yaml.gz,Devops,阿里云,kafka,云计算

添加配置文件后需要给配置文件打上grafana_dashboard的标签才能生效

kubectl -n monitoring label cm ack-prometheus-operator-kafka grafana_dashboard=kafka-exportor-overview

 (3)命令创建

kubectl -n monitoring create cm ack-prometheus-operator-kafka --from-file=kafka.json

kubectl -n monitoring label cm ack-prometheus-operator-kafka grafana_dashboard=kafka-exportor-overview

七、在k8s的ingress中添加路由信息,并解析对应域名,解析后访问grafana的域名,登录查看效果。

prometheus.yaml.gz,Devops,阿里云,kafka,云计算

至此kafka的监控及界面展示就做完了。

八、告警信息配置

prometheus.yaml.gz,Devops,阿里云,kafka,云计算

yaml文件如下

apiVersion: monitoring.coreos.com/v1
kind: PrometheusRule
metadata:
  labels:
    app:      ack-prometheus-operator
    release:  ack-prometheus-operator
  name: ack-prometheus-operator-kafka.rules
spec:
    groups:
        - name: kafka消费滞后告警
          rules:
          - alert: kafka消费滞后
            expr: sum(kafka_consumergroup_lag{topic!="sop_free_study_fix-student_wechat_detail"}) by (consumergroup, topic) > 1000
            for: 3m
            labels:
              serverity: warning
              status: 严重
            annotations:
              summary: "kafka消费滞后"
              description: "{{$.Labels.consumergroup}}##{{$.Labels.topic}}:消费滞后超过1000持续3分钟(当前:{{$value}})"
     
          - alert: kafka-exporter down
            expr: kafka_exporter_build_info < 1
            for: 3m
            labels:
              serverity: warning
              status: 严重
            annotations:
              summary: "kafka-exporter down"
              description: "kafka-exporter down {{$.Labels.instance}}"
     
          - alert: kafka server down
            expr: kafka_brokers < 1
            for: 3m
            labels:
              serverity: warning
              status: 严重
            annotations:
              summary: "kafka server down"
              description: "kafka server down {{$.Labels.job}}"

九、配置钉钉告警方式,这部分参考其他文档完成。

十、promotheus查看和维护

查看配置文件

kubectl get secret -n monitoring prometheus-ack-prometheus-operator-prometheus -o json | jq -r '.data."prometheus.yaml.gz"' | base64 -d | gzip -d

1.先将现有的prometheus.yaml文件导出为prometheus.yaml。
kubectl get secret -n monitoring prometheus-ack-prometheus-operator-prometheus -o json | jq -r '.data."prometheus.yaml.gz"' | base64 -d | gzip -d > prometheus.yaml 2.打开文件进行编辑
vim prometheus.yaml
3.编辑后进行压缩 gzip prometheus.yaml
4.压缩后进行base64编码并拷贝编码后结果 base64 prometheus.yaml.gz -w 0 ## -w 0 表示不换行,不成块
5.编辑保密字典文件进行替换 kubectl edit secret -n monitoring prometheus-ack-prometheus-operator-prometheus
6.保存后再次查看是否为修改后内容 kubectl get secret -n monitoring prometheus-ack-prometheus-operator-prometheus -o json | jq -r '.data."prometheus.yaml.gz"' | base64 -d | gzip -d 7.必要时重启生效文章来源地址https://www.toymoban.com/news/detail-815431.html

到了这里,关于阿里云ACK托管版安装Prometheus并配置kafka告警的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • prometheus进程监控配置告警及解决grafana监控面板不展示主机名问题

    process_exporter进程监控及告警 监控服务器全部或某些进程是否健康,以及进程所占用资源是否异常使用process_exporter监测器进行进程信息的采集与node_exporter监测器相同,需要监测哪台服务器的进程,就将process_exporter监测器部署在哪台 安装process_exporter wget Release v0.7.10 · ncabato

    2024年02月13日
    浏览(44)
  • Prometheus接入AlterManager配置企业微信告警(基于K8S环境部署)

    注意:请基于 Prometheus+Grafana监控K8S集群(基于K8S环境部署)文章之上做本次实验。 1、创建企业微信机器人 点击登入企业微信网页版: 应用管理 机器人 创建应用 创建好之后如上图,我们获取 点击查看获取 Secret 值。 2、获取企业ID 1、创建AlterManager ConfigMap资源清单 执行YAML资源

    2024年02月04日
    浏览(41)
  • 玩转prometheus告警 alertmanger(一)之prometheus告警规则

    目录 1. 告警系统原理概述 2.  配置prometheus规则 2.1 配置告警规则目录 2.2 告警规则 3. 查看效果 在开始之前,需要了解下prometheus和altermanger之间的关系是什么?从prometheus的架构及生态系统组件来看   Prometheus从targets中抓取指标(metric)并存储,通过对指标进行分析生成告警

    2024年02月13日
    浏览(40)
  • 【Linux】部署Prometheus + Grafana简介、监控及设置告警详细操作(多种方式安装,亲测无问题)

    🍁 博主简介   🏅云计算领域优质创作者   🏅华为云开发者社区专家博主   🏅阿里云开发者社区专家博主 💊 交流社区: 运维交流社区 欢迎大家的加入! 服务器类型 IP地址 组件 Prometheus 服务器、agent 服务器、grafana 服务器 172.16.11.209 Prometheus、node_exporter、Grafana

    2024年02月13日
    浏览(46)
  • prometheus告警处理

    一.告警简介 1.工作流程 prometheus收集监测的信息 prometheus.yml 文件中定义 rules 文件,rules 里包含告警信息 prometheus 把告警信息 push 给 altermanager,alertmanager 里定义收件人和发件人 altermanager 发送文件到邮箱或微信 2.告警生命周期 定期采集监控数据 定期扫描告警规则,发现告警

    2023年04月08日
    浏览(36)
  • prometheus实战之三:告警规则

    欢迎访问我的GitHub 这里分类和汇总了欣宸的全部原创(含配套源码):https://github.com/zq2599/blog_demos 本篇概览 本文是《prometheus实战》系列的第三篇,一起来学习prometheus的告警功能,如下图所示,整个告警功能分为规则和通知两部分,本篇是有关规则的详细介绍,至于命中规则后

    2024年02月02日
    浏览(36)
  • 云原生监控系统Prometheus:基于Prometheus构建智能化监控告警系统

    目录 一、理论 1.Promethues简介 2.监控告警系统设计思路 3.Prometheus监控体系 4.Prometheus时间序列数据 5.Prometheus的生态组件 6.Prometheus工作原理 7.Prometheus监控内容 8.部署Prometheus 9.部署Exporters 10.部署Grafana进行展示 二、实验 1.部署Prometheus 2.部署Exporters 2.监控远程MySQL 3.部署Grafana进行

    2024年02月07日
    浏览(46)
  • 容器云平台监控告警体系(五)—— Prometheus发送告警机制

    在Prometheus的架构中告警被划分为两个部分,在Prometheus Server中定义告警规则以及产生告警,Alertmanager组件则用于处理这些由Prometheus产生的告警。本文主要讲解Prometheus发送告警机制也就是在Prometheus Server中定义告警规则和产生告警部分,不过多介绍Alertmanager组件。 在Prometheus中

    2023年04月23日
    浏览(46)
  • [云原生] Prometheus之部署 Alertmanager 发送告警

    Prometheus 对指标的收集、存储与告警能力分属于 Prometheus Server 和 AlertManager 两个独立的组件,前者仅负责定义告警规则生成告警通知, 具体的告警操作则由后者完成。 Alertmanager 负责处理由 Prometheus Server 发来的告警通知,Alertmanager对告警通知进行分组、去重后,根据路由规则

    2024年04月10日
    浏览(46)
  • 【云原生】Prometheus之部署 Alertmanager 发送告警

    Prometheus 对指标的收集、存储与告警能力分属于 Prometheus Server 和 AlertManager 两个独立的组件,前者仅负责定义告警规则生成告警通知, 具体的告警操作则由后者完成。 Alertmanager 负责处理由 Prometheus Server 发来的告警通知,Alertmanager对告警通知进行分组、去重后,根据路由规则

    2024年02月16日
    浏览(44)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包