nvitop: 史上最强GPU性能实时监测工具

这篇具有很好参考价值的文章主要介绍了nvitop: 史上最强GPU性能实时监测工具。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

原文链接:https://mp.weixin.qq.com/s/SlOJZmF08v3-6o6rXWIHaQ

Code: https://github.com/XuehaiPan/nvitop

引言


相信大家在用NVIDIA-GPU训练网络模型的时候,都会习惯性的在终端nvidia-smi一下吧?最直接的目的是为了查看哪些卡正在使用,哪些卡处在空闲,然后挑选空闲的卡号进行网络训练。

「了解哪块卡处在空闲只是普通算法工程师的普通需求」

咱们作为一名资深的算法工程师,毕竟身兼多职:上要开发AI算法,下要管理服务器,左要带新人,右要PPT汇报上级。

对于管理服务器:刚买的新服务器你得装系统吧?得装Driver,Cuda,Cudnn吧?时不时还得盯一下服务器各个卡的运行状况,毕竟刚入职的小年青有时候一顿操作,一个人占用全服务器95%以上的内存把服务器直接卡死也不是没有可能。

nvitop是一个非常全面的NVIDIA-GPU设备运行状况的实时监控工具,它将GPU利用率,显存占比,卡号使用者,CPU利用率,进程使用时间,命令行等等集于一身,并以差异化的颜色进行个性化展示,安装过程也非常简单,强烈大家推荐使用,让自己在管理服务器的时候事半功倍!

以下图1展示了nvitop和nvidia-smi命令的界面对比结果:

nvitop: 史上最强GPU性能实时监测工具,ai,Powered by 金山文档

图1. nvitop(左) VS nvidia-smi(右)

nvitop效果展示


「NviTop」 An interactive NVIDIA-GPU process viewer and beyond, the one-stop solution for GPU process management.

nvitop是一款交互式NVIDIA-GPU设备性能&资源&进程的实时监测工具。

相比于nvidia-smi命令,nvitop在实时监控GPU设备资源&性能上具备全方位优势:

  • 以更美观的颜色,和更直观的进度条实时展示某块GPU卡所处进程的GPU&CPU内存以及利用率占比

  • 作为资源监控器,它包括如下功能:树状视图、环境变量查看、进程过滤、进程指标检测等

  • 可追踪某个单项进程在GPU&CPU上内存和利用率占比的历史纪录,并利用Bar直观展示

  • 可直观展示某块GPU的使用者、使用时间、使用命令行、GPU和CPU占用率记录

  • 可使用工具提供的API搭建自定义监控工具

完整API说明文档请移步:https://nvitop.readthedocs.io

以下展示了nvitop命令工具的部分效果图:

nvitop: 史上最强GPU性能实时监测工具,ai,Powered by 金山文档

图2. nvitop有多种监控模式可供选择

nvitop: 史上最强GPU性能实时监测工具,ai,Powered by 金山文档

图3. 监控过程信息过滤和丰富的色彩界面

nvitop: 史上最强GPU性能实时监测工具,ai,Powered by 金山文档

图4. 支持MIG

nvitop: 史上最强GPU性能实时监测工具,ai,Powered by 金山文档

图5. 类似频谱的条形图(with option --colorful)

nvitop: 史上最强GPU性能实时监测工具,ai,Powered by 金山文档

图6. 监控特定进程的关键性性能指标 (shortcut: Enter / Return).

nvitop: 史上最强GPU性能实时监测工具,ai,Powered by 金山文档

图7. nvitop同时也支持windows系统!

nvitop特性


监控信息丰富且展示直观

显示比nvidia-smi更全面的资源监控信息,和更直观的表现形式

监控模式

可以作为资源监控器一直运行,而不是只能单独查看一次结果

  • 支持条形图和历史图

  • 监控信息排序 & 监控信息过滤

  • 可通过键盘向进程发送信号

  • GPU进程及其父进程的树视图屏幕享受

  • 提供环境变量屏幕,帮助信息屏幕,并支持鼠标点击的交互式操作

交互式

可在监控模式下响应用户输入(来自键盘或鼠标),比gpustat和py3nvml更具优势

高效性

  • 该工具直接使用NVML Python bindings进行绑定并查询设备运行状态,而不是解析nvidia-smi(与nvidia-htop相比)

  • TTLCache使用from cachetools支持稀疏查询和缓存结果(与py3nvml相比)

  • curses使用库而不是printANSI转义码显示信息(与py3nvml相比)

  • 使用多线程异步收集信息并更快的响应用户输入(与nvtop相比)

便携性

适用于Linux和Windows

  • 使用跨平台库psutil获取主机进程信息,而不是调用ps -p <pid>子进程(与nvidia-htop和py3nvml相比)

  • 用纯Python编写,支持pip安装(与nvtop相比)

可集成

易于集成到其它应用程序中,而不仅仅是监控功能(与nvidia-htop和nvtop相比)

安装指南


「官方安装教程」 https://github.com/XuehaiPan/nvitop/blob/main/README.md

因为nvitop采用纯Python编写,所以推荐采用pip命令进行安装,官方安装说明文档中提供了五种安装方式:

  • 使用pipx进行安装

pipx run nvitop
  • 使用pip3进行安装

pip3 install --upgrade nvitop
  • 使用conda进行安装

conda install -c conda-forge nvitop
  • 从Github拉取最新版本进行安装

pip3 install git+https://github.com/XuehaiPan/nvitop.git#egg=nvitop
  • clone项目并手动安装

git clone --depth=1 https://github.com/XuehaiPan/nvitop.gitcd nvitoppip3 install .

「注意」 如果在安装后遇到nvitop: command not found错误,请检查你是否将Python控制台脚本路径(例如,${HOME}/.local/bin)添加到您的PATH环境变量中。或者,你可以直接使用python3 -m nvitop命令

使用方法


命令行使用方法

# Monitor mode (when the display mode is omitted, `NVITOP_MONITOR_MODE` will be used)
$ nvitop  # or use `python3 -m nvitop`

# Automatically configure the display mode according to the terminal size
$ nvitop -m auto     # shortcut: `a` key

# Arbitrarily display as `full` mode
$ nvitop -m full     # shortcut: `f` key

# Arbitrarily display as `compact` mode
$ nvitop -m compact  # shortcut: `c` key

# Specify query devices (by integer indices)
$ nvitop -o 0 1  # only show <GPU 0> and <GPU 1>

# Only show devices in `CUDA_VISIBLE_DEVICES` (by integer indices or UUID strings)
$ nvitop -ov

# Only show GPU processes with the compute context (type: 'C' or 'C+G')
$ nvitop -c

# Use ASCII characters only
$ nvitop -U  # useful for terminals without Unicode support

# For light terminals
$ nvitop --light

# For spectrum-like bar charts (requires the terminal supports 256-color)
$ nvitop --colorful

将监控信息写入到TensorBoard中

import os

import torch
import torch.nn as nn
import torch.nn.functional as F
from torch.utils.tensorboard import SummaryWriter

from nvitop import CudaDevice, ResourceMetricCollector
from nvitop.callbacks.tensorboard import add_scalar_dict

# Build networks and prepare datasets
...

# Logger and status collector
writer = SummaryWriter()
collector = ResourceMetricCollector(devices=CudaDevice.all(),  # log all visible CUDA devices and use the CUDA ordinal
                                    root_pids={os.getpid()},   # only log the descendant processes of the current process
                                    interval=1.0)              # snapshot interval for background daemon thread

# Start training
global_step = 0
for epoch in range(num_epoch):
    with collector(tag='train'):
        for batch in train_dataset:
            with collector(tag='batch'):
                metrics = train(net, batch)
                global_step += 1
                add_scalar_dict(writer, 'train', metrics, global_step=global_step)
                add_scalar_dict(writer, 'resources',      # tag='resources/train/batch/...'
                                collector.collect(),
                                global_step=global_step)

        add_scalar_dict(writer, 'resources',              # tag='resources/train/...'
                        collector.collect(),
                        global_step=epoch)

    with collector(tag='validate'):
        metrics = validate(net, validation_dataset)
        add_scalar_dict(writer, 'validate', metrics, global_step=epoch)
        add_scalar_dict(writer, 'resources',              # tag='resources/validate/...'
                        collector.collect(),
                        global_step=epoch)

API使用手册

「详见」 https://nvitop.readthedocs.io/

写在最后


本文介绍了一款NVIDIA-GPU设备的性能实时监控工具,相比于其它监控工具而言(eg, nvidia-smi,nvidia-htop,py3nvml,nvtop等等),具有全方位碾压的优势,推荐大家使用!文章来源地址https://www.toymoban.com/news/detail-718144.html

到了这里,关于nvitop: 史上最强GPU性能实时监测工具的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【Unity】GPU骨骼动画 GPU Spine动画 2D/3D渲染性能开挂 动画合批 支持武器挂载 支持实时获取骨骼位置

     GPU 3D骨骼动画和 GPU 2D Spine动画插件均包含在【万人同屏整合方案】中,老板们可在某宝搜:[游戏开发资源商店] 以获取全套方案的所有源码插件。 插件功能: 1. 支持3D动画转GPU动画  2. 支持2D Spine动画转GPU动画 3. 支持挂点、支持挂载物、动态切换挂载物、实时获取挂点T

    2024年01月18日
    浏览(44)
  • 【Unity】GPU骨骼 GPU Spine动画 2D/3D渲染性能开挂 合批渲染 支持武器挂载 动画事件 动画融合 实时获取骨骼位置

     GPU 3D骨骼动画和 GPU 2D Spine动画插件均包含在【万人同屏整合方案】中,老板们可在某宝搜:[游戏开发资源商店] 以获取全套方案的所有源码插件。   万人同屏渲染避障锁敌方案实现对抗战斗demo 展示GPU动画高级功能 动画事件 动画平滑过渡 融合   插件功能: 1. 支持3D动画

    2024年02月22日
    浏览(48)
  • 世上最强6个AI写作工具 赶快收藏吧

    在当今数字化时代,人工智能技术已经渗透到了各个领域,其中写作领域也不例外。近年来,越来越多的AI写作工具应运而生,它们不仅可以大大提高写作效率,而且能够帮助写作者提升文章的质量和吸引力。在本文中,我们将介绍史上最强的6个AI写作工具,这些工具不仅具

    2024年02月09日
    浏览(33)
  • 史上最强Java八股文面试题,堪称2023最强!!!

    前言 很多同学会问Java面试八股文有必要背吗? 我的回答是:很有必要。你可以讨厌这种模式,但你一定要去背,因为不背你就过不了。 国内的互联网面试,恐怕是现存的、最接近科举考试的制度。 而且,我国的八股文确实是独树一帜。以美国为例,北美工程师面试比较重

    2024年02月04日
    浏览(42)
  • 14个最强大的建筑设计AI工具

    在整个行业中,建筑师在他们的创造性追求中正在拥抱一个新的合作伙伴:AI。 一旦受到重复和单调的困扰,建筑工人发现自己正处于数字革命的风口浪尖,其中比特和字节掌握着自动化和曾经难以想象的可能性的关键。 推荐:用 NSDT设计器 快速搭建可编程3D场景。 AI革命并

    2024年02月14日
    浏览(45)
  • 如何监测和优化阿里云服务器的性能?有哪些性能分析工具和指标?

    如何监测和优化阿里云服务器的性能?有哪些性能分析工具和指标? 阿里云服务器性能监测与优化是云计算服务中一个非常重要的环节。为了确保服务器稳定、高效地运行,我们需要对其性能进行监测,并在监测的基础上进行优化。本文将为您介绍如何监测和优化阿里云服务

    2024年02月11日
    浏览(49)
  • 基于英特尔开发套件的实时AI图像处理技术的茶叶病害监测物联网系统

    作者: 浙江大学 刘兆隆 文章指导:罗雯,李翊玮 随着茶叶产业的快速发展,茶叶的品质和安全性日益受到人们的关注。茶叶植株在生长过程中容易受到各种病虫害的侵害,这不仅会影响茶叶的产量,还会严重影响茶叶的品质。传统的茶叶病虫害诊断主要依赖于农民的经验判

    2024年04月28日
    浏览(53)
  • 史上最强C语言教程----指针(初阶)

    目录 1、指针是什么? 2. 指针和指针类型 2.1 指针+-整数 2.2 指针的解引用 3. 野指针 3.1 野指针成因 3.2 如何规避野指针 4. 指针运算 4.1 指针+-整数 4.2 指针-指针 4.3 指针的关系运算 5. 指针和数组  6. 二级指针 7. 指针数组 指针是什么? 指针理解的2个要点: 1. 指针是内存中一个

    2023年04月19日
    浏览(47)
  • 史上最强.NET数据分页方法

    【前言】 本文讲述的.NET数据分页方法为【史上最强】,已被多家大型科技公司实战采用  也被圈内多家知名IT培训机构转载收藏。   【正文】 支持.Net Core(2.0及以上)与.Net Framework(4.5及以上) 可以部署在Docker, Windows, Linux, Mac。 数据分页,几乎是任何应用系统的必备功能。但当

    2024年02月11日
    浏览(47)
  • Spring 最常用的注解,史上最强整理!

    @Data : 标注在类上,提供类的get、set、equals、hashCode、canEqual、toString方法 @AllARrgsConstructor 标注在类上 相当于全参构造 @NoARrgsConstructor 标注在类上 相当于无参构造 @Component //用于实例化对象可以用在所有的类上,一般标注在不属于三层上的时候相当于bean id=\\\"\\\" class=\\\"\\\"/ @Controll

    2024年02月01日
    浏览(51)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包