如何实现对主机的立体监控?

这篇具有很好参考价值的文章主要介绍了如何实现对主机的立体监控?。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

如何实现对主机的立体监控?,监控,主机监控

主机监控是保证系统稳定性和性能的重要环节之一,那应该如何实现对主机的立体监控?

本期EasyOps产品使用最佳实践,我们将为您揭晓:

  • 主机应该如何分组和管理?

  • 主机监控应该关注哪些关键性指标?

背 景

通过监控主机的各项指标,我们可以及时发现问题、诊断故障,并采取相应的措施来确保主机的正常运行。本文将结合之前的最佳实践,综合性介绍主机监控的目标和实现方式,以帮助您有效地监控主机的关键指标。

主 机 监 控 目 标

在进行主机监控时,我们通常关注以下几个重要指标:

如何实现对主机的立体监控?,监控,主机监控

在监控上述指标的实践中,我们不仅会进行指标的采集和监测,还会对异常情况进行告警处理。在进行告警时,我们注重提供丰富的信息和指标,以更加友好和直观的方式向用户发送告警通知,以协助用户进行告警分析和故障排查。

通过丰富的告警信息,我们可以提供更多的上下文和细节,帮助用户更好地理解告警的原因和影响。告警信息可能包括详细的指标数值、触发告警的条件、相关的主机或服务信息等,以帮助用户快速定位问题所在。

下面,我将基于EasyOps平台的优维的EasyOps监控系统,一步一步从0开始实践如何对主机实现立体监控。

实 践

1.主机分类

首先,为了更好地进行主机监控,我们需要对主机进行分类。通常情况下,我们会关注生产环境中的主机,或者具备一些特定特征的主机。通过对主机进行分类,我们可以更有针对性地进行监控和管理。而借助 CMDB 平台的查询策略,我们可以方便地对主机进行分类和查看。

主机分类的方式可以根据不同的需求和业务场景来确定。以下是一些常见的主机分类方式:

  • 按照环境分类:将主机划分为生产环境、开发环境、测试环境等,以便针对不同环境进行监控和管理。

  • 按照业务应用分类:将主机按照所承载的业务应用进行分类,例如 Web 服务器、数据库服务器、应用服务器等,以便更好地追踪和管理各个业务应用的性能和可用性。

  • 按照地理位置分类:将主机按照地理位置进行分类,例如不同地区、不同数据中心或机房的主机,以便进行地域性的监控和管理。

  • 按照硬件配置分类:将主机按照硬件配置进行分类,例如不同型号、不同规格的主机,以便更好地了解不同硬件配置对性能的影响。

在本次实践中,我的监控对象分为两种类型:

  • 按环境和用途区分,以归类于“生产环境主机”

  • 按虚拟化类型区分,已归类于“宿主机“

如下图所示:

如何实现对主机的立体监控?,监控,主机监控

上面可以看到有两条查询策略,仅需点击查询策略后即可过滤出主机组。

2.采集策略

在优维的EasyOps监控系统中,主机作为最基本和基础的监控资源对象,已经内置好主机采集策略。我们可能需要稍微对采集范围做一些调整,以符合我们的监控目标需求。此处我将重新建立一条监控采集策略,以帮助您了解一条采集策略需要包含哪些基本内容:

新建采集策略

点击右上角的新建,选择system套件,填入所需的任务名,指标集等信息。

如何实现对主机的立体监控?,监控,主机监控

特别说明:system套件是主机采集套件,将对主机的cpu、内存、网络、磁盘、文件系统和进程等信息进行采集。

选择采集实例范围

如何实现对主机的立体监控?,监控,主机监控

此处基于CMDB的查询策略,可快速过滤出目标主机组。此处,我们过滤出生产环境的宿主机作为监控对象。如下所示:

如何实现对主机的立体监控?,监控,主机监控

点击下一步保存即可。

稍等片刻,即可看到所有的实例对象的采集状态都是正常,说明指标采集成功。

如何实现对主机的立体监控?,监控,主机监控

针对于宿主机这个主机组,已经配置完成。

而针对于生产环境主机这个主机组,步骤也一样,此处不赘述。

3.告警规则

接下来针对监控目标的表格,设定告警规则。我们的告警规则设定如下,仅供参考:

如何实现对主机的立体监控?,监控,主机监控

新建规则

右上角点击新建规则

如何实现对主机的立体监控?,监控,主机监控

注意,选择的类型为:主机。

而后添加监控目标,此处的监控目标就是CMDB查询策略中定义好的规则。此处我们已经把规则建立好,因此可以直接绑定已有查询策略:

如何实现对主机的立体监控?,监控,主机监控

建立告警套件策略

我们的阈值条件判断是:主机5分钟单核平均负载大于5「或」cpu使用率大于85%,因此这是一个或条件。此时在告警来源中,我们选择「从【阈值条件.任意条件】产生」;如果是与条件,则选择「从所有条件产生」。

如何实现对主机的立体监控?,监控,主机监控

为了准确触发告警,系统使用连续的3个数据点来判断是否达到告警条件。每分钟采集一次数据,如果在连续的3分钟内命中告警条件,系统将触发相应的告警通知。

在设计告警策略时,系统考虑了告警的延迟,以适应可能的瞬时异常情况,从而提高告警的准确性。因此,即使出现短暂的异常情况,系统会等待一段时间确认后再触发告警,以减少误报的可能性。

如何实现对主机的立体监控?,监控,主机监控

告警分析

当主机发出告警后,了解关于该主机的上下文信息对于告警分析和问题解决非常重要。监控平台支持联动CMDB模型中的属性信息,可以非常灵活地在告警信息中包含来源于CMDB的实例属性,并且还能关联目标指标的关联指标信息,以提供更丰富的信息支持。比如:

  • 主机负责人:在告警通知中包含主机的负责人联系信息,以便管理员可以直接与负责人进行沟通和协调。

  • 关联指标:对于本例中的CPU负载告警,我们可以在告警通知中包含当前的CPU使用率

因此,我们可以基于告警分析中的告警丰富和信息丰富去完成。

信息丰富:添加负责人

通过选择CMDB的主机模型中的属性信息,添加到告警通知中,让我们可以得知该主机的负责人,以便当主机告警时可以得知应该谁去处理该告警。

如何实现对主机的立体监控?,监控,主机监控

指标丰富:丰富CPU信息

如何实现对主机的立体监控?,监控,主机监控

此时告警模板中就可以添加丰富的信息。

更多地,根据实际情况添加即可。如下告警分析供参考:

如何实现对主机的立体监控?,监控,主机监控

告警通知

最后,添加告警通知。告警通知支持多种通知媒介,此处以钉钉机器人为例子说明。

如何实现对主机的立体监控?,监控,主机监控

简单地填写好配置信息后,我们重点添加告警内容的模板,结合我们上一篇的最佳实践《一个“好”的告警通知是怎样的?》,我们可以得出以下的模板

这里给出一个示例,如下:

●告警模板:

{{time|ts2str:'%Y-%m-%d  %H:%M'}} 产生告警事件</font></h2>

| 事件类型 | SLO事件 |   

| --- | --- |   

| 告警等级 | {{levelName}} |   

| 告警资源 | {{******}} |   

| 告警信息 |  {{originContent}} |     

| 运营负责人 |{{instance|jsonpath:'$.owner[*].name'|unique|join:','}} |   

| 持续时长 | {{duration|duration_format:'zh'}} |   

| 首次发生时间 | {{startTime|ts2str:'%Y-%m-%d %H:%M'}} |   

| 事件详情 | [请点击](http://*****.******.*****/next/events/{{eventId}}/detail) | 

| 策略详情 | [请点击](http://*****.******.*****/next/events/alert-rule/alert-rule/{{ruleId}}/edit) |{% if  metricName != "主机agent状态" && metricName != "detect_code" && metricName != "detect_time_cost" %}| 采集任务 | [{{collectorJob|showname|default:"请点击"}}](http://*****.******.*****/next/infra-monitor/setting/collection-strategy/{{collectorJob|mvalue:"instanceId"}}/detail) |{% elif  metricName == "detect_code" || metricName == "detect_time_cost" %}| 采集任务 | [{{collectorJob|showname|default:"请点击"}}](http://*****.******.*****next/infra-monitor/setting/collection/detect/{{collectorJob|mvalue:"instanceId"}}/detail) |{% endif %}

●告警解除模板:

{{time|ts2str:'%Y-%m-%d  %H:%M'}} 告警事件解除</font></h2>

| 事件类型 | SLO事件 |   

| --- | --- |   

| 告警等级 | {{levelName}} |   

| 告警资源 | {{******}} |   

| 告警信息 |  {{originContent}} |     

| 运营负责人 |{{instance|jsonpath:'$.owner[*].name'|unique|join:','}} |   

| 持续时长 | {{duration|duration_format:'zh'}} |   

| 首次发生时间 | {{startTime|ts2str:'%Y-%m-%d %H:%M'}} |   

| 事件详情 | [请点击](http://*****.******.*****/next/events/{{eventId}}/detail) | 

| 策略详情 | [请点击](http://*****.******.*****/next/events/alert-rule/alert-rule/{{ruleId}}/edit) |{% if  metricName != "主机agent状态" && metricName != "detect_code" && metricName != "detect_time_cost" %}| 采集任务 | [{{collectorJob|showname|default:"请点击"}}](http://*****.******.*****/next/infra-monitor/setting/collection-strategy/{{collectorJob|mvalue:"instanceId"}}/detail) |{% elif  metricName == "detect_code" || metricName == "detect_time_cost" %}| 采集任务 | [{{collectorJob|showname|default:"请点击"}}](http://*****.******.*****/next/infra-monitor/setting/collection/detect/{{collectorJob|mvalue:"instanceId"}}/detail) |{% endif %}

保存后即完成了告警规则。

当告警发生时,会发出如下通知:

如何实现对主机的立体监控?,监控,主机监控

告警解除后,发出以下通知:

如何实现对主机的立体监控?,监控,主机监控

到此为止,主机监控的配置已经完成,此时您的主机已经纳入到监控系统中,通过主机监控,您可以及时掌握主机的状态和性能情况。

如何实现对主机的立体监控?,监控,主机监控

并且通过告警和监控dashboard,及早发现并分析潜在问题,提高系统的稳定性和可靠性。文章来源地址https://www.toymoban.com/news/detail-636322.html

到了这里,关于如何实现对主机的立体监控?的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Prometheus相关的主机监控指标

    CPU负载指标 node_load1 node_load5 node_load15 以上三个指标为主机CPU平均负载,分别对应一分钟、五分钟和十五分钟的时间间隔。CPU负载是指某段时间内占用CPU时间的进程和等待CPU时间的进程数之和。一般来说,cpu负载数/cpu核数如果超过0.7,应该开始关注机器性能情况 ,如果超过

    2023年04月17日
    浏览(34)
  • Linux部署Zabbix主机监控

    目录 一、zabbixx监控端 1.1 安装mysql、php环境  1.2 安装zabbinx3.4 1.3 配置数据库 1.4 为 Zabbix server/proxy 配置数据库 1.5 启动 Zabbix server 进程 1.6 配置php 1.7 安装Zabbix-Agent 1.8 访问测试 二、zabbix-agent被监控端 2.1 安装插件zabbix-agent 2.2 测试是否监控到被控端 三、zabbix终端初始化 IP 主机

    2024年02月13日
    浏览(36)
  • VMware如何实现与主机通信、文件共享、拖拽复制

    VMware主要有两个功能: 自动识别与主机相同的分辨率,在虚拟机上刚安装系统后,虚拟系统内容显示比较小,这个时候安装VMware Tools,即可全屏。 可实现与主机的拖拽文件复制,可在主机与虚拟机之间进行文件直接拖拽完成复制。(以linux kali系统的VMware Tools安装为例) 主要

    2024年02月09日
    浏览(32)
  • 【完整版】zabbix企业级监控(概念、简单操作、页面优化、监控主机自己、监控linux、监控Win10)

    第三阶段基础 时  间:2023年7月19日 参加人:全班人员 内  容: zabbix企业级监控 目录 一、Zabbix概述 (一)Zabbix简介 (二)Zabbix运行条件: (三)Zabbix功能 (四)优劣势 (五)zabbix的监控原理: (六)扩展:zabbix的监控架构 (七)Grafana简介: (八)Zabbix特点 二、zabb

    2024年02月02日
    浏览(40)
  • prometheus进程监控配置告警及解决grafana监控面板不展示主机名问题

    process_exporter进程监控及告警 监控服务器全部或某些进程是否健康,以及进程所占用资源是否异常使用process_exporter监测器进行进程信息的采集与node_exporter监测器相同,需要监测哪台服务器的进程,就将process_exporter监测器部署在哪台 安装process_exporter wget Release v0.7.10 · ncabato

    2024年02月13日
    浏览(44)
  • Windows:prometheus + grafana + wmi_exporter+ 主机信息监控页面 + 支持主机信息告警

    下载地址:Download | Prometheus 选择对应的系统的版本下载并解压压缩包,运行程序 本人在window系统上操作 双击 验证 浏览器输入http://localhost:9090/ 点击Staatus=Targets 出现以下即成功   下载地址:Download Grafana | Grafana Labs 同理选择对应的系统下载(本人通篇均使用window系统 下载并

    2024年02月12日
    浏览(49)
  • netdata监控服务器主机(包括Docker容器)

    创建挂载目录 docker运行 通过ip:19999端口访问web界面 此时默认是英文界面,netdata暂不支持中文语言 下载汉化文件,我这直接git拉取 修改dashboard.js文件 快速搜索定位/NETDATA.jQuery ,将jquery版本修改成jquery-3.6.0.min.js 进入netdata容器 切换到web目录下 将dashboard_info.js、、index.html、

    2024年02月11日
    浏览(61)
  • Prometheus+Grafana+AlertManager监控Linux主机状态

    Docker搭建并配置Prometheus Docker拉取并配置Grafana Docker安装并配置Node-Exporter Docker安装并配置cAdvisor Docker安装并运行Alertmanager 点击Add your first data source 选择Prometheus Prometheus server URL中输入IP地址及端口号 注意:此处IP地址为Prometheus在Docker容器内部的IP地址 查看容器内ID方法: 退出

    2024年02月11日
    浏览(38)
  • Linux 主机磁盘繁忙度监控实战shell脚本

    Linux 磁盘繁忙度是指磁盘的使用率和活动水平。可以通过一些工具来监测磁盘繁忙度,如 iostat、iotop、sar 等。 其中,iostat 是一个常用的工具,可以提供关于磁盘活动的详细统计信息。通过运行命令 iostat -x 1 可以实时监测磁盘的使用情况,其中 %util 列就表示磁盘的繁忙度,

    2024年02月10日
    浏览(36)
  • GitHub 跑了 1200 多台 MySQL 主机,如何实现无缝升级到 8.0 版本?

    GitHub 团队近日分享了他们将 GitHub.com 的底层数据库无缝升级到 MySQL 8.0 的经验,我们来看看他们是如何完成了这一壮举。 15 年前,GitHub 最初是一个带有单个 MySQL 数据库的 Ruby on Rails 应用程序。从那时起,GitHub 不断发展其 MySQL 架构,以满足平台的扩展和弹性需求,包括构建

    2024年02月03日
    浏览(36)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包