【已解决】nvidia-smi不显示正在使用GPU的进程

这篇具有很好参考价值的文章主要介绍了【已解决】nvidia-smi不显示正在使用GPU的进程。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

1 问题背景

环境:

  • 远程服务器Ubuntu20.04
  • CUDA 11.6

现象:在日志文件和终端均显示Python脚本已使用了GPU

nvidia-smi不显示进程,告别Bug,python,pytorch,开发语言,linux,ubuntu
但是nvidia-smi中的Processes进程无显示

nvidia-smi不显示进程,告别Bug,python,pytorch,开发语言,linux,ubuntu

2 问题探索

首先,可以看到

|   0  Tesla V100-PCIE...  On   | 00000000:0F:00.0 Off |                    0 |
| N/A   34C    P0    37W / 250W |   1603MiB / 16384MiB |      0%      Default |

GPU显存被占用,换言之有实例在正常使用GPU,表明不是硬件、显卡驱动等问题。

检查Pytorch是否正确配置

>>> import torch
>>> print(torch.cuda.is_available())
True

证明也不是Pytorch的问题

接着安装一个工具查看正在使用显卡的进程

apt install -y psmisc
fuser -v /dev/nvidia*

终端输出

                     USER        PID ACCESS COMMAND
/dev/nvidia-uvm:     root     kernel mount /dev/nvidia-uvm
                     root      12860 F...m python
/dev/nvidia-uvm-tools:
                     root     kernel mount /dev/nvidia-uvm-tools
/dev/nvidia7:        root     kernel mount /dev/nvidia7
                     root      12860 F...m python
/dev/nvidiactl:      root     kernel mount /dev/nvidiactl
                     root      12860 F...m python

由于我这里诊断的进程是一个使用GPU的python脚本,所以记下脚本的PID: 12860

查看系统进程

ps -aux

输出

USER         PID %CPU %MEM    VSZ   RSS TTY      STAT START   TIME COMMAND
...
root       12860  576  4.2 32781208 17343484 pts/0 Sl+ 14:11 269:00 python test.py
root       13510  0.0  0.0  13900  9076 ?        Ss   14:36   0:00 sshd: root@notty
root       13549  0.0  0.0   7024  3768 ?        Ss   14:37   0:00 bash
root       15003  0.0  0.0   9092  4092 pts/3    Ss   14:50   0:00 /usr/bin/bash --init-file /root/.vscode-server/bin/da76f93349a72022ca4670c1b84860304616aaa2/out/vs/workbench/contrib/terminal/b
root       15352  0.0  0.0   5476   592 ?        S    14:55   0:00 sleep 180
root       15698  0.0  0.0  10856  3316 pts/3    R+   14:58   0:00 ps -aux

PID: 12860对应的python脚本,正好是我怀疑没用上GPU的脚本,证明该python实例实际上成功跑在了GPU上

3 问题解决

nvidia-smi不显示正在使用GPU的进程很可能不是一个问题,而是GPU的使用率太低(多发生在远程高性能服务器运行小型实验的情形),如遇到相关问题,可按上面步骤自检

4 告别Bug

本文收录于《告别Bug》专栏,该专栏记录人工智能领域中各类Bug以备复查,文章形式为:问题背景 + 问题探索 + 问题解决,订阅专栏+关注博主后可通过下方名片联系我进入AI技术交流群帮忙解决问题文章来源地址https://www.toymoban.com/news/detail-824133.html


👇源码获取 · 技术交流 · 抱团学习 · 咨询分享 请联系👇

到了这里,关于【已解决】nvidia-smi不显示正在使用GPU的进程的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【已解决】nvidia-smi报错:NVIDIA-SMI has failed because it couldn’t communicate with the ... 阿里云GPU服务器

    如题,起因是在阿里云GPU服务器上,使用原先正常运行的镜像生成了容器,但容器的显卡驱动出问题了,使用nvidia-smi命令会报错 NVIDIA-SMI has failed because it couldn’t communicate with the NVIDIA driver. 尝试使用官网.run文件重新安装显卡驱动会报错ERROR: Unable to load the kernel module ‘nvidia

    2024年02月11日
    浏览(40)
  • docker内部执行nvidia-smi无任何显示的解决方法

    贺志国 2023.4.11 今天在Docker内部编译程序,发现与 CUDA 相关的代码居然没有编译,于是在Docker内部执行Nvidia显卡驱动检测命令 nvidia-smi ,执行完毕后,无任何输出,也没有任何报错信息,但在Docker外部执行该命令,结果如下图所示,没有任何异常: 最开始我以为是Docker启动有

    2024年02月07日
    浏览(56)
  • Ubuntu服务器有一张显卡nvidia-smi指令不能显示问题(未解决)

    问题描述: 服务器重装Ubuntu 22.04系统,具备10张显卡,使用nvidia-smi显示只有9张显卡,有一张显卡消失了,重装驱动也不能解决问题。参考博客:(600条消息) ubuntu 18.04 两张GPU显卡,nvidia-smi只显示一张_nvidia-smi只显示一张显卡_Jason.su.ai的博客-CSDN博客  1、使用lspci |grep NVIDIA指令

    2024年02月11日
    浏览(36)
  • 解决 Ubuntu 重启后输入 nvidia-smi 显示 no devices were found 的问题

    根据下面的链接,使用 ubuntu-drivers devices 和 sudo ubuntu-drivers install 安装推荐的版本后 Ubuntu 卸载重装 Nvidia 显卡驱动-CSDN博客 第一次重启电脑是可以使用显卡驱动的,但是之后每次再重启后再输入 nvidia-smi,就会显示:no devices were found 最初一周我一直都懒得搜到底是为什么会出

    2024年01月23日
    浏览(49)
  • Ubuntu下nvidia-smi失败,使用dkms解决

    nvidia-smi显示无法与驱动通讯 一般来说是因为机器重启linux内核自动更新导致,可以尝试回退内核版本,或者使用dkms安装该内核下驱动配套的包,这里主要介绍使用dkms如何处理 查看已安装的nvidia驱动版本 显示 说明我电脑上nvidia驱动的版本是nvidia-525.116.04 安装dkms和相关包 安

    2024年02月13日
    浏览(37)
  • 记一次“nvidia-smi”在容器中映射GPU资源时的排错

    在云渲染容器组pod中,有xx,xx,xx,unity四个container容器组成,然后因为unity容器镜像的构成是基于vlukan(cudagl相关)和cuda-base打包的,这里的cuda是nvidia的一个驱动版本,类似显卡驱动。现象是启动unity容器后无法运行nvidia-smi和vlukaninfo 初步排查: 因为容器化运行需要依赖宿

    2024年02月03日
    浏览(37)
  • nvcc --version和nvidia-smi显示的CUDA Version不一致

    CUDA有两种API,一个是驱动API(Driver Version),依赖NVIDIA驱动,由nvidia-smi查看,另一个是运行API(Runtime Version)是软件运行所需要的,一般驱动API版本=运行API版本即可。 驱动API的依赖文件由GPU driver installer安装,nvidia-smi属于这一类API; 运行API的依赖文件由CUDA Toolkit installer安

    2024年02月10日
    浏览(42)
  • ubuntu20.04装显卡驱动nvidia-smi显示成功的血泪史

    注意这只是我个人在安装驱动过程中踩过的坑,不要直接照着我的方法装 在csnd上看了许多教程,最终选择直接命令行输入 ubuntu-drivers devices 可以看到推荐的版本是525 于是执行sudo apt install nvidia-driver-525(好像这一步执行完后没有报错) 打开软件更新看到  然后我就根据网上

    2023年04月15日
    浏览(46)
  • nvidia-smi报错(已解决):NVIDIA-SMI has failed because it couldn‘t communicate with the NVIDIA driver 原因分析

    基本是follow下面教程修复的 nvidia-smi报错:NVIDIA-SMI has failed because it couldn‘t communicate with the NVIDIA driver 原因及避坑解决方案_打拳的土豆的博客-CSDN博客 1 背景分析: 可能是由于断电重启造成的 当再次跑实验时,发现cuda不可用,于是输入“nvidia-smi”才发现了一个错误,如下:

    2024年02月09日
    浏览(87)
  • Linux | nvidia-smi 命令使用记录

    参考文章链接:https://blog.csdn.net/weixin_44966641/article/details/121228579 nvidia smi(也称为NVSMI)为来自 Fermi 和更高体系结构系列的 nvidia Tesla、Quadro、GRID 和 GeForce 设备提供监控和管理功能。GeForce Titan系列设备支持大多数功能,为GeForce品牌的其余部分提供的信息非常有限。NVSMI是一种

    2024年02月02日
    浏览(48)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包