基于DCGM和Prometheus的GPU监控方案

这篇具有很好参考价值的文章主要介绍了基于DCGM和Prometheus的GPU监控方案。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

DCGM(Data Center GPU Manager)即数据中心GPU管理器,是一套用于在集群环境中管理和监视Tesla™GPU的工具。

它包括主动健康监控,全面诊断,系统警报以及包括电源和时钟管理在内的治理策略。

它可以由系统管理员独立使用,并且可以轻松地集成到NVIDIA合作伙伴的集群管理,资源调度和监视产品中。

DCGM简化了数据中心中的GPU管理,提高了资源可靠性和正常运行时间,自动化了管理任务,并有助于提高整体基础架构效率。

注意: 虽然可以通过nvidia-smi命令将相关的信息采集,并定期汇报到数据存储进行数据分析计算和展现,但是涉及到一整套的监控体系的整合,仍然需要使用方进行一些列的改造。因此这里,我们采用NVIDIA官方提供的DCGM方案来进行GPU数据采集,并通过声称下一代监控系统的Prometheus进行整个监控和告警的集成。

DCGM工具部署

 $ git clone 

# 构建dcgm-exporter工具,其实就是nvidia官方对于nvidia-docker2.x推出的用于gpu数据监控的工具
# 最终会将gpu卡的metrics基本信息存储以metrics的数据格式存储到文件中
$ cd dcgm-exporter
# nvidia/dcgm-exporter:latest
$ make

$ docker run -d --runtime=nvidia --rm --name=nvidia-dcgm-exporter nvidia/dcgm-exporter

# 查看dcgm-exporter收集到的gpu metrics数据
$ docker exec -it nvidia-dcgm-exporter tail -n 10  /run/prometheus/dcgm.prom
dcgm_ecc_dbe_aggregate_total{gpu="0",uuid="GPU-b91e30ac-fe77-e236-11ea-078bc2d1f226"} 0
# HELP dcgm_retired_pages_sbe Total number of retired pages due to single-bit errors.
# TYPE dcgm_retired_pages_sbe counter
dcgm_retired_pages_sbe{gpu="0",uuid="GPU-b91e30ac-fe77-e236-11ea-078bc2d1f226"} 0
# HELP dcgm_retired_pages_dbe Total number of retired pages due to double-bit errors.
# TYPE dcgm_retired_pages_dbe counter
dcgm_retired_pages_dbe{gpu="0",uuid="GPU-b91e30ac-fe77-e236-11ea-078bc2d1f226"} 0
# HELP dcgm_retired_pages_pending Total number of pages pending retirement.
# TYPE dcgm_retired_pages_pending counter
dcgm_retired_pages_pending{gpu="0",uuid="GPU-b91e30ac-fe77-e236-11ea-078bc2d1f226"} 0  

dcgm-exporter采集指标项以及含义:

指标含义dcgm_fan_speed_percentGPU 风扇转速占比(%)dcgm_sm_clockGPU sm 时钟(MHz)dcgm_memory_clockGPU 内存时钟(MHz)dcgm_gpu_tempGPU 运行的温度(℃)dcgm_power_usageGPU 的功率(w)dcgm_pcie_tx_throughputGPU PCIe TX传输的字节总数 (kb)dcgm_pcie_rx_throughputGPU PCIe RX接收的字节总数 (kb)dcgm_pcie_replay_counterGPU PCIe重试的总数dcgm_gpu_utilizationGPU 利用率(%)dcgm_mem_copy_utilizationGPU 内存利用率(%)dcgm_enc_utilizationGPU 编码器利用率 (%)dcgm_dec_utilizationGPU 解码器利用率 (%)dcgm_xid_errorsGPU 上一个xid错误的值dcgm_power_violationGPU 功率限制导致的节流持续时间(us)dcgm_thermal_violationGPU 热约束节流持续时间(us)dcgm_sync_boost_violationGPU 同步增强限制,限制持续时间(us)dcgm_fb_freeGPU fb(帧缓存)的剩余(MiB)dcgm_fb_usedGPU fb (帧缓存)的使用 (MiB)

其实到这,DCGM的工具集已经完整的将我们需要的gpu的metrics数据采集出来了,并且是符合prometheus的数据格式和标准的,此时,我们可以根据实际的情况编写一个简单的api程序,将采集到的数据以api的形式暴露出去,就可以让整个prometheus server对各个gpu主机的metrics进行采集和监控。

不过官方提供了基于kubernetes集群中pod方式的api接口,采用golang语言开发,具体使用情况可继续往下看。

prometheus gpu metrics exporter

在gpu-monitoring-tools项目中,默认提供了一个pod-gpu-metrics-exporter模块,用于在kubernetes集群中的gpu-metrics的部署,官方的示例步骤如下:

  • nvidia-k8s-device-plugin
  • Deploy GPU Pods

注意: 在使kubernetes集群中部署的前提是你的GPU要托管在k8s集群内部,这也就意味着你得先成功将带GPU的主机成功托管到集群中,并且能够调度GPU资源

 # 创建一个监控的命名空间
# Create the monitoring namespace
$ kubectl create namespace monitoring

# Add gpu metrics endpoint to prometheus
$ kubectl create -f prometheus/prometheus-configmap.yaml

# Deploy prometheus
$ kubectl create -f prometheus/prometheus-deployment.yaml

$ kubectl create -f pod-gpu-metrics-exporter-daemonset.yaml

# Open in browser: localhost:9090

# 具体的docker镜像构建和运行
# 依然是gpu-monitoring-tools项目
$ cd  pod-gpu-metrics-exporter
$ docker build -t pod-gpu-metrics-exporter .

# 运行dcgm-exporter
$ docker run -d --runtime=nvidia --rm --name=nvidia-dcgm-exporter nvidia/dcgm-exporter

# 运行gpu-metrics-exporter
$ docker run -d --privileged --rm -p 9400:9400 -v /var/lib/kubelet/pod-resources:/var/lib/kubelet/pod-resources --volumes-from nvidia-dcgm-exporter:ro nvidia/pod-gpu-metrics-exporter:v1.0.0-alpha

# 此时就将上述的那个dcgm-exporter中采集到数据成功暴露到对外的接口了
$ curl -s localhost:9400/gpu/metrics  

需要注意的是,在gpu-metrics-exporter的程序中,是针对pod的方式来采集gpu的metrics的信息,并且附带了pod本身的基本信息。

因此如果你的gpu主机还未在kubernetes集群中托管,官方提供的镜像可能并不能直接使用,需要对src/http.go文件中采集的路径进行改变,将默认的gpuPodMetrics改成gpuMetrics即可,两者会去读取不同的dcgm-exporter暴露出来的metrics文件,否则访问api接口时会发现无法找到metrics文件.

 func getGPUmetrics(resp http.ResponseWriter, req *http.Request) {
    //metrics, err := ioutil.ReadFile(gpuPodMetrics)
    metrics, err := ioutil.ReadFile(gpuMetrics)
    if err != nil {
        http.Error(resp, err.Error(), http.StatusInternalServerError)
        glog.Errorf("error responding to %v%v: %v", req.Host, req.URL, err.Error())
        return
    }
    resp.Write(metrics)
}  

参考gpu-metrics-exporter

图省事的,可以直接下载如下两个镜像,在已经work 的GPU主机上直接运行.

  • dcgm-exporter: docker pull bgbiao/dcgm-exporter:latest
  • gpu-metrics-exporter: docker pull bgbiao/gpu-metrics-exporter:latest
 # 确定dcgm-exporter是运行的
$ docker run -d --runtime=nvidia --rm --name=nvidia-dcgm-exporter bgbiao/dcgm-exporter

$ docker run -d --privileged --rm -p 9400:9400  --volumes-from nvidia-dcgm-exporter:ro bgbiao/gpu-metrics-exporter

# 检查gpu暴露出来的基础信息
$ curl -s localhost:9400/gpu/metrics
dcgm_ecc_dbe_aggregate_total{gpu="0",uuid="GPU-b91e30ac-fe77-e236-11ea-078bc2d1f226"} 0
....
....  

Prometheus数据存储和Grafana数据展示

注意: 有了上述的gpu-metrics-exporter之后,我们的gpu相关的运行数据就可以premetheus兼容的方式获取了,此时在prometheus-server上配置,去定期pull数据即可。

我们的prometheus-server目前部署在kubernetes集群内部,因此这里分享如何将集群外gpu主机的监控数据采集到kubernetes集群内部的prometheus中,并使用统一的Grafana进行展示。

创建endpoint以及对应的service

 # gpu-metrics的endpoint和service配置

$ cat endpoint-gpus.yaml
apiVersion: v1
kind: Endpoints
metadata:
  name: gpu-metrics
  namespace: monitoring
  labels:
    app: gpu-metrics
subsets:
- addresses:
  - ip: 172.16.65.234
  ports:
  - port: 9400
    name: http-metrics
    protocol: TCP
---
apiVersion: v1
kind: Service
metadata:
  namespace: monitoring
  name: gpu-metrics
  labels:
    app: gpu-metrics
spec:
  ports:
  - name: http-metrics
    port: 19400
    targetPort: 9400
    protocol: TCP

$ kubectl  apply -f endpoint-gpus.yaml

# 查看创建的相关资源
$ kubectl  get ep,svc -n monitoring  -l app=gpu-metrics
NAME                    ENDPOINTS            AGE
endpoints/gpu-metrics   172.16.65.234:9400   5m24s

NAME                  TYPE        CLUSTER-IP      EXTERNAL-IP   PORT(S)     AGE
service/gpu-metrics   ClusterIP   10.253.138.97   <none>        19400/TCP   5m24s

# 测试service暴露的端点
# 确保集群内部可以访问service暴露出来的endpoint即可

$ curl 10.253.138.97:19400/gpu/metrics
# HELP dcgm_sm_clock SM clock frequency (in MHz).
# TYPE dcgm_sm_clock gauge
dcgm_sm_clock{gpu="0",uuid="GPU-b91e30ac-fe77-e236-11ea-078bc2d1f226"} 1328
# HELP dcgm_memory_clock Memory clock frequency (in MHz).
# TYPE dcgm_memory_clock gauge
dcgm_memory_clock{gpu="0",uuid="GPU-b91e30ac-fe77-e236-11ea-078bc2d1f226"} 715  

创建prometheus抓取数据的规则

 $ cat prometheus-gpus.yml
apiVersion: monitoring.coreos.com/v1
kind: ServiceMonitor
metadata:
  labels:
    app: gpu-metrics
  name: gpu-metrics
  namespace: monitoring
spec:
  # 对应的端点是上面创建的svc的ports
  endpoints:
    # 定义endpoint采集的时间和采集的URI
  - interval: 30s
    port: http-metrics
    path: /gpu/metrics
  jobLabel: app
  # 匹配monitoring命名空间的app=gpu-metrics的svc
  namespaceSelector:
    matchNames:
    - monitoring
  selector:
    matchLabels:
      app: gpu-metrics

$ kubectl  apply -f prometheus-gpus.yml
servicemonitor.monitoring.coreos.com/gpu-metrics created

$ kubectl  get servicemonitor  -n monitoring gpu-metrics
NAME          AGE
gpu-metrics   69s  

当上述资源创建完成后,在集群内部的prometheus-server中就可以找到对应的target,确认状态为up即表示prometheus已正常采集集群外gpu的metrics数据了,接下来数据就会以30s为间隔,源源不断的将数据采集到prometheus存储中.

gpu监控,prometheus,docker,容器

prometheus-gpu-targets

Grafana的监控展示

到这里,我们已经到万里长征的最后一步了,就是把prometheus中gpu的监控数据用grafana展示出来,以实时去分析一些gpu的基本数据。

在grafana官网中,已经有大佬制作了gpu监控的相关模板,比如[GPU-Nodes-Metrics](因此,对于我们使用者来说,在grafana的面板中,将该模板导入即可使用。

gpu监控,prometheus,docker,容器

选择导入方式创建

gpu监控,prometheus,docker,容器

指定模板(dashboard id或json)

gpu监控,prometheus,docker,容器

注意:确认prometheus库正确后即可导入

gpu监控,prometheus,docker,容器

最终的GPU监控图

参考项目

gpu-monitor-tools

gpu-metrics-grafana文章来源地址https://www.toymoban.com/news/detail-704216.html

到了这里,关于基于DCGM和Prometheus的GPU监控方案的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 云原生监控系统Prometheus:基于Prometheus构建智能化监控告警系统

    目录 一、理论 1.Promethues简介 2.监控告警系统设计思路 3.Prometheus监控体系 4.Prometheus时间序列数据 5.Prometheus的生态组件 6.Prometheus工作原理 7.Prometheus监控内容 8.部署Prometheus 9.部署Exporters 10.部署Grafana进行展示 二、实验 1.部署Prometheus 2.部署Exporters 2.监控远程MySQL 3.部署Grafana进行

    2024年02月07日
    浏览(49)
  • prometheus+cadvisor监控docker容器

    一、安装cadvisor 二、运行容器 若出现如下报错 执行 三、访问页面 ip:8088 四、Prometheus集成 五、在grafana中导入面板 六、监控图

    2024年02月11日
    浏览(46)
  • 【云原生】Docker容器命令监控+Prometheus监控平台

    目录 1.常用命令监控 docker ps docker top docker stats 2.weave scope 1.下载 2.安装 3.访问查询即可 3.Prometheus监控平台 1.部署数据收集器cadvisor 2.部署Prometheus 3.部署可视化平台Gragana 4.进入后台控制台 1.常用命令监控 docker ps 字段含义 docker top 查看指定容器内的进程 选项 查看详细docker容器

    2024年02月15日
    浏览(44)
  • Prometheus配置Grafana监控大屏(Docker)

    从容器拷贝配置文件至对应目录 查看内容 删除临时docker容器 相关参数说明 http://ip:3000/,注意端口开放 修改中文界面(不需要可以跳过) 点击右上角头像,选择Profile 打开菜单,在连接中选择数据源 选择Prometheus 填写服务地址 确保服务可以访问后,点击保存 最方便就是通过

    2024年01月24日
    浏览(47)
  • Docker的监控-Prometheus(普罗米修斯)

    docker top   #容器的动态进程 docker stats #列出每个容器的cpu、内存、io   docker logs  #查看容器日志  emerg  alert   crit  error  warning  notice  info  debug 一、sysdig  轻量级的系统监控程序 docker run -it --rm --name sysdig --privileged=true --volume=/var/run/docker.sock:/host/var/run/docker.sock --volume=

    2024年02月06日
    浏览(35)
  • Docker容器监控(Cadvisor +Prometheus+Grafana)

    环境部署,接着上一篇文章Docker容器部署(Cadvisor +InfluxDB+Grafana)开始 目录 1、先清理一下容器 2、部署Cadvisor 3、访问Cadvisor页面 4、部署Prometheus 5、准备配置 6、运行prometheus容器 7、访问prometheus页面 8、部署Grafana  9、配置Grafana  10、测试 1、先清理一下容器 2、部署Cadvisor 3、

    2024年02月14日
    浏览(40)
  • 基于Prometheus监控Kubernetes集群

    目录 ometheus优势 Prometheus工作服务过程 Prometheus核心组件 Prometheus实践架构图 Grafana简介 Grafana特点 一、环境准备 1.1、主机初始化配置 1.2、部署docker环境 二、部署kubernetes集群 2.1、组件介绍 2.2、配置阿里云yum源 2.3、安装kubelet kubeadm kubectl 2.4、配置init-config.yaml 2.5、安装master节

    2024年02月12日
    浏览(46)
  • Docker安装Prometheus和Grafana监控Redis

    使用 Docker 安装 Grafana 和 Prometheus 无疑是最简单的,我们接下来将采用此种方式。 查看Prometheus镜像 拉取镜像 在 /home/zhangshixing/prometheus/ 目录下创建Prometheus的配置文件 prometheus.yml : 运行Prometheus,把宿主机中的配置文件 prometheus.yml 挂载到容器中去: 浏览器访问: 如果遇到:

    2024年02月12日
    浏览(47)
  • 使用prometheus+grafana+cadvisor架构监控docker容器实战

    本次实验包括两个内容: 1.使用docker原生命令和Linux shell脚本结合的传统方式,对容器进行监控; 2.采用云原生监控利器prometheus对docker容器进行监控; 文章收录到 csdn 我是沐风晓月的博客 【prometheus监控系列】专栏 ,此专栏是 沐风晓月 对云原生prometheus的的总结,希望能够加

    2023年04月12日
    浏览(49)
  • 构建Docker容器监控系统(Cadvisor +Prometheus+Grafana)

            Cadvisor是Google开源的一款用于展示和分析容器运行状态的可视化工具。通过在主机上运行Cadvisor用户可以轻松的获取到当前主机上容器的运行统计信息,并以图表的形式向用户展示。 阿里云镜像加速器 阿里云登录 - 欢迎登录阿里云,安全稳定的云计算服务平台 欢

    2024年02月14日
    浏览(59)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包