【nvidia-smi:command not found】如何在集群服务器上使用nvidia-smi查看GPU信息

这篇具有很好参考价值的文章主要介绍了【nvidia-smi:command not found】如何在集群服务器上使用nvidia-smi查看GPU信息。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

1. nvidia-smi指令输出分析

对于普通的多卡服务器,nvidia-smi命令可以显示有关 NVIDIA 显卡和 GPU 的详细信息,如输入

nvidia-smi

得到以下输出,可以看到相应的CUDA版本,GPU显存大小等信息。
【nvidia-smi:command not found】如何在集群服务器上使用nvidia-smi查看GPU信息,小记,服务器,linux

2. 集群上使用nvidia-smi指令

如果登录了服务器后,直接在命令行中输入nvidia-smi,会有如下报错:
bash: nvidia-smi: command not found
这是因为在集群中,我们只是登录到服务器上了,但没有运行作业,没有分配到GPU。我们需要提交一个作业,并在作业中运行nvidia-smi指令,从输出文件中读取相关信息。

以使用LSF作业调度系统为例,提交作业时往往需要编写一个check_nvidia_smi.sh文件,如下所示:

#/bin/bash
#BSUB -J nvidia-smi
#BSUB -n 1
#BSUB -q gpu
#BSUB -o 你的输出目录/nvidia_smi.txt
#BSUB -gpu "num=1:mode=exclusive_process"
nvidia-smi

其中,
-J 指定作业名称
-n 表示作业使用的核心数量
-q 表示将作业提交的队列,gpu表示使用gpu队列,如果不确定队列名称可以使用bqueues指令来查看
-o 表示输出文件的指定路径
-gpu “num=1:mode=exclusive_process” 表示独占1张卡来运行作业

然后在命令行中提交此作业

bsub < check_nvidia_smi.sh

即可在输出路径中找到输出文件,查看相应信息:
【nvidia-smi:command not found】如何在集群服务器上使用nvidia-smi查看GPU信息,小记,服务器,linux文章来源地址https://www.toymoban.com/news/detail-684409.html

到了这里,关于【nvidia-smi:command not found】如何在集群服务器上使用nvidia-smi查看GPU信息的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【已解决】nvidia-smi报错:NVIDIA-SMI has failed because it couldn’t communicate with the ... 阿里云GPU服务器

    如题,起因是在阿里云GPU服务器上,使用原先正常运行的镜像生成了容器,但容器的显卡驱动出问题了,使用nvidia-smi命令会报错 NVIDIA-SMI has failed because it couldn’t communicate with the NVIDIA driver. 尝试使用官网.run文件重新安装显卡驱动会报错ERROR: Unable to load the kernel module ‘nvidia

    2024年02月11日
    浏览(40)
  • Ubuntu服务器有一张显卡nvidia-smi指令不能显示问题(未解决)

    问题描述: 服务器重装Ubuntu 22.04系统,具备10张显卡,使用nvidia-smi显示只有9张显卡,有一张显卡消失了,重装驱动也不能解决问题。参考博客:(600条消息) ubuntu 18.04 两张GPU显卡,nvidia-smi只显示一张_nvidia-smi只显示一张显卡_Jason.su.ai的博客-CSDN博客  1、使用lspci |grep NVIDIA指令

    2024年02月11日
    浏览(36)
  • ubuntu服务器关机重新开机之后nvidia-smi不显示但nvcc -C没问题

    安装stable diffusion webui过程中发现的问题。 出现报错: AssertionError: Torch is not able to use GPU; add --skip-torch-cuda-test to COMMANDLINE_ARGS variable to disable this check 然后来看nvidia-smi 的时候发现驱动挂了 1. nvcc -V,查看cuda是可以看到的 说明之前至少安装cuda的时候没挂,应该是服务器启动的

    2024年02月12日
    浏览(78)
  • 如何查看电脑显卡详细信息以及nvidia-smi各参数介绍

    主要分为两个部分: 如何查看电脑显卡详细信息 nvidia-smi各参数介绍 1. 如何查看电脑显卡详细信息 不论是windows系统还是linux,打开命令行,输入 nvidia-smi 即可。 windows:显卡型号为 GeForce MX150 Linux:两块 GeForce RTX 2080 卡 2. nvidia-smi各参数介绍 一块一块介绍 GPU :GPU的ID,对应的

    2024年02月03日
    浏览(70)
  • Linux | nvidia-smi 命令使用记录

    参考文章链接:https://blog.csdn.net/weixin_44966641/article/details/121228579 nvidia smi(也称为NVSMI)为来自 Fermi 和更高体系结构系列的 nvidia Tesla、Quadro、GRID 和 GeForce 设备提供监控和管理功能。GeForce Titan系列设备支持大多数功能,为GeForce品牌的其余部分提供的信息非常有限。NVSMI是一种

    2024年02月02日
    浏览(48)
  • nvidia-smi报错(已解决):NVIDIA-SMI has failed because it couldn‘t communicate with the NVIDIA driver 原因分析

    基本是follow下面教程修复的 nvidia-smi报错:NVIDIA-SMI has failed because it couldn‘t communicate with the NVIDIA driver 原因及避坑解决方案_打拳的土豆的博客-CSDN博客 1 背景分析: 可能是由于断电重启造成的 当再次跑实验时,发现cuda不可用,于是输入“nvidia-smi”才发现了一个错误,如下:

    2024年02月09日
    浏览(87)
  • nvidia/cuda doker容器使用nvidia-smi不能找到命令

    参考资料 NVIDIA官方安装文档 CSDN博客 运行环境 wsl子系统Ubuntu 20.04 docker19.03以上 问题:使用docker pull nvidia/cuda:11.4.2-cudnn8-runtime-rockylinux8 在容器中使用nVidia-smi 出现命令无法找到的问题 百度好久,看了几篇文章,最后发现运行cuda的容器不支持调用主机的显卡,需要下载nvidia-

    2023年04月08日
    浏览(47)
  • 矩池云上使用nvidia-smi命令教程

    nvidia-smi全称是NVIDIA System Management Interface ,它是一个基于NVIDIA Management Library(NVML)构建的命令行实用工具,旨在帮助管理和监控NVIDIA GPU设备。 接下来我介绍一下,用nvidia-smi命令来查询机器GPU使用情况的相关内容。​ 我以上图的查询内容为例,已经复制出来了,如下, 我们来

    2024年02月16日
    浏览(45)
  • 一次必搞定Ubuntu上安装nvidia驱动教程--nvidia-smi

    Nvidia官网 (https://www.nvidia.cn/) Nvidia驱动下载地址:https://www.nvidia.cn/Download/index.aspx?lang=cn NVIDIA显卡驱动可以通过如下指令删除以前安装的NVIDIA驱动版本,重新安装。 注意!在安装NVIDIA驱动以前需要禁止系统自带显卡驱动nouveau:可以先通过指令lsmod | grep nouveau查看nouveau驱动的启

    2024年02月17日
    浏览(41)
  • 深度学习烦人的基础知识(2)---Nvidia-smi功率低,util高---nvidia_smi参数详解

    如下图所示,GPU功率很低,Util占用率高。 这个训练时不正常的! Pwr是指GPU运行时耗电情况,如图中GPU满载是300W,目前是86W与GPU2的空载情况功率相等。说明GPU没有在真正运行。 GPU-Util高说明它的核心被占用了,占用率为100%。 打个比方,把GPU看做是人。三个人,一个在举重,

    2024年01月16日
    浏览(39)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包