【已解决】nvidia-smi报错:NVIDIA-SMI has failed because it couldn’t communicate with the ... 阿里云GPU服务器

这篇具有很好参考价值的文章主要介绍了【已解决】nvidia-smi报错:NVIDIA-SMI has failed because it couldn’t communicate with the ... 阿里云GPU服务器。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

问题描述

如题,起因是在阿里云GPU服务器上,使用原先正常运行的镜像生成了容器,但容器的显卡驱动出问题了,使用nvidia-smi命令会报错 NVIDIA-SMI has failed because it couldn’t communicate with the NVIDIA driver.

尝试使用官网.run文件重新安装显卡驱动会报错ERROR: Unable to load the kernel module ‘nvidia.ko’. This happens most frequently when this kernel module was built against the wrong or improperly configured kernel sources, with a version of gcc that differs from the one used to build the target kernel, or if a driver such as rivafb, nvidiafb, or nouveau is present and prevents the NVIDIA kernel module from obtaining ownership of the NVIDIA graphics device(s), or no NVIDIA GPU installed in this system is supported by this NVIDIA Linux graphics driver release.

按照报错信息,怀疑是内核版本或者gcc版本有误,更换了多个内核版本和gcc版本,使用了网上很多这两种保存相关的解决思路,都没能解决,一筹莫展。

放弃了原先的镜像,新建了空的容器,但是空的容器也会报NVIDIA-SMI has failed because it couldn’t communicate with the NVIDIA driver的错,并且空的容器居然也装不上显卡驱动,遂怀疑是容器本身的问题。

解决方案

发现可能是容器本身的设置有问题,设置为GPU计算时容器可正常安装驱动,但是设置为GPU计算可视化时就会报以上错误。
咨询阿里云,发现GPU计算可视化型需要提交工单获取特定的兼容驱动,GPU计算型才可以从官网下载驱动安装。通过提交工单获取特定的兼容驱动后,驱动可正常安装,问题解决。

反思

如果云服务器中空的容器连驱动都安装不好的话,就不要自己折腾了,大概率是容器本身哪里出问题了,咨询云服务商吧。文章来源地址https://www.toymoban.com/news/detail-512385.html

到了这里,关于【已解决】nvidia-smi报错:NVIDIA-SMI has failed because it couldn’t communicate with the ... 阿里云GPU服务器的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Ubuntu下nvidia-smi失败,使用dkms解决

    nvidia-smi显示无法与驱动通讯 一般来说是因为机器重启linux内核自动更新导致,可以尝试回退内核版本,或者使用dkms安装该内核下驱动配套的包,这里主要介绍使用dkms如何处理 查看已安装的nvidia驱动版本 显示 说明我电脑上nvidia驱动的版本是nvidia-525.116.04 安装dkms和相关包 安

    2024年02月13日
    浏览(32)
  • 【已解决】nvidia-smi不显示正在使用GPU的进程

    环境: 远程服务器Ubuntu20.04 CUDA 11.6 现象:在日志文件和终端均显示Python脚本已使用了GPU 但是 nvidia-smi 中的 Processes 进程无显示 首先,可以看到 GPU显存被占用,换言之有实例在正常使用GPU,表明不是硬件、显卡驱动等问题。 检查Pytorch是否正确配置 证明也不是Pytorch的问题 接

    2024年01月25日
    浏览(50)
  • docker内部执行nvidia-smi无任何显示的解决方法

    贺志国 2023.4.11 今天在Docker内部编译程序,发现与 CUDA 相关的代码居然没有编译,于是在Docker内部执行Nvidia显卡驱动检测命令 nvidia-smi ,执行完毕后,无任何输出,也没有任何报错信息,但在Docker外部执行该命令,结果如下图所示,没有任何异常: 最开始我以为是Docker启动有

    2024年02月07日
    浏览(42)
  • 【nvidia-smi:command not found】如何在集群服务器上使用nvidia-smi查看GPU信息

    1. nvidia-smi指令输出分析 对于普通的多卡服务器,nvidia-smi命令可以显示有关 NVIDIA 显卡和 GPU 的详细信息,如输入 得到以下输出,可以看到相应的CUDA版本,GPU显存大小等信息。 2. 集群上使用nvidia-smi指令 如果登录了服务器后,直接在命令行中输入nvidia-smi,会有如下报错: b

    2024年02月10日
    浏览(51)
  • 解决ubuntu cuda版本nvcc -V和nvidia-smi不一致问题

    在使用nvcc -V和nvidia-smi查看cuda版本时不一致: nvcc -V版本是10.1 nvidia-smi的版本是12.2 上面如果能显示版本,所以是已经有驱动,首先要删除之前的驱动: 此时执行nvidia-smi,会提示Command \\\'nvidia-smi\\\' not found,按照提示安装即可: 安装成功后,再次执行nvidia-smi,成功,显示cuda版本

    2024年02月15日
    浏览(37)
  • Linux | nvidia-smi 命令使用记录

    参考文章链接:https://blog.csdn.net/weixin_44966641/article/details/121228579 nvidia smi(也称为NVSMI)为来自 Fermi 和更高体系结构系列的 nvidia Tesla、Quadro、GRID 和 GeForce 设备提供监控和管理功能。GeForce Titan系列设备支持大多数功能,为GeForce品牌的其余部分提供的信息非常有限。NVSMI是一种

    2024年02月02日
    浏览(41)
  • 没有NVIDIA控制面板,在cmd中使用nvidia-smi命令不显示CUDA Version的解决方案

    Environment_set 没有NVIDIA控制面板,在cmd中使用nvidia-smi命令不显示CUDA Version 先在控制面板中查看是否被隐藏了,查看方式选择:小图标 这里若没有NVIDIA控制面板,而NVIDIA驱动已安装,则可能是缺少组件:NVIDIA control panel,可以单独下载,推荐更新NVIDIA驱动,直接安装适合本电脑

    2024年02月06日
    浏览(40)
  • nvidia/cuda doker容器使用nvidia-smi不能找到命令

    参考资料 NVIDIA官方安装文档 CSDN博客 运行环境 wsl子系统Ubuntu 20.04 docker19.03以上 问题:使用docker pull nvidia/cuda:11.4.2-cudnn8-runtime-rockylinux8 在容器中使用nVidia-smi 出现命令无法找到的问题 百度好久,看了几篇文章,最后发现运行cuda的容器不支持调用主机的显卡,需要下载nvidia-

    2023年04月08日
    浏览(40)
  • Ubuntu服务器有一张显卡nvidia-smi指令不能显示问题(未解决)

    问题描述: 服务器重装Ubuntu 22.04系统,具备10张显卡,使用nvidia-smi显示只有9张显卡,有一张显卡消失了,重装驱动也不能解决问题。参考博客:(600条消息) ubuntu 18.04 两张GPU显卡,nvidia-smi只显示一张_nvidia-smi只显示一张显卡_Jason.su.ai的博客-CSDN博客  1、使用lspci |grep NVIDIA指令

    2024年02月11日
    浏览(30)
  • 矩池云上使用nvidia-smi命令教程

    nvidia-smi全称是NVIDIA System Management Interface ,它是一个基于NVIDIA Management Library(NVML)构建的命令行实用工具,旨在帮助管理和监控NVIDIA GPU设备。 接下来我介绍一下,用nvidia-smi命令来查询机器GPU使用情况的相关内容。​ 我以上图的查询内容为例,已经复制出来了,如下, 我们来

    2024年02月16日
    浏览(38)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包