NVIDIA-SMI has failed because it couldn‘t communicate with the NVIDIA driver. 最全解决方案!详细!

这篇具有很好参考价值的文章主要介绍了NVIDIA-SMI has failed because it couldn‘t communicate with the NVIDIA driver. 最全解决方案!详细!。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

真的折磨了我整整一天,从网上的资料到GPT都翻遍了,终于是解决了!以下方案希望能帮助到你们

问题原因

服务器内核自动更新导致显卡无法链接
报错如下:
NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running.

简单解决方案

# 安装dkms
sudo apt-get install dkms
# 会出现一个文件列表,找到类似nvidia-530.41.03
ls -l /usr/src/
# 安装
sudo dkms install -m nvidia -v 530.41.03

再次运行nvidia-smi,若成功,说明你很幸运。
若没成功,报错
Error! Could not locate dkms.conf file.
或是
Module nvidia/530.41.03 already installed on kernel 5.4.0-132-generic/x86_64
接着往下看

若是使用gcc --version查看出gcc版本过低(小于7.3)
或ls -l /usr/src/命令没有 nvidia-530.41.03 这类文件
请移步

https://blog.csdn.net/nizhenshishuai/article/details/123873453

报错Error解决方案

大概率是没有安装好或是版本不对应,请跟着以下步骤:

# 先进入root模式,会提示输入密码
su
# 进入之后cd到根目录下
cd /
# 运行以下代码清除原驱动
sudo apt-get remove --purge nvidia*
# 下载
sudo add-apt-repository ppa:graphics-drivers/ppa
sudo apt-get update
# 查看推荐版本
ubuntu-drivers devices

此时会输出一个列表,例如:

driver: nvidia-driver-525-open - distro non-free
driver: nvidia-driver-470-server - distro non-free
driver: nvidia-driver-470 - distro non-free
driver: nvidia-driver-515 - distro non-free
driver: nvidia-driver-525 - distro non-free
driver: nvidia-driver-530 - distro non-free
driver: nvidia-driver-515-server - distro non-free
driver: nvidia-driver-525-server - distro non-free
driver: nvidia-driver-515-open - distro non-free
driver: nvidia-driver-510 - distro non-free
driver: nvidia-driver-530-open - distro non-free recommended
driver: xserver-xorg-video-nouveau - distro free builtin

列表中会有一行最后带有“recommended”,这是系统推荐版本
例如在我的服务器中,推荐的就是
driver: nvidia-driver-530-open - distro non-free recommended
但是!
⚠️不要挑带有-open的版本,可能会有新的问题
比如明明配好了,使用nvidia-smi报错:
No devices were found
所以,我选择的版本是
driver: nvidia-driver-530 - distro non-free

选好版本以后接着往下

# 安装
sudo apt-get install nvidia-driver-530 nvidia-settings nvidia-prime
sudo apt-get install dkms
# 查看是否安装,会输出一个列表,找到类似nvidia-530.41.03
ll /usr/src/
# 版本号来自于列表中
sudo dkms install -m nvidia -v 530.41.03
# 重启
reboot

重启以后,再次使用nvidia-smi命令,如果成功了,很好恭喜你,没成功可以尝试下一个方案

报错Already installed解决方案

有可能已经安装完毕,但是!
问题很有可能出在Secure Boot模式上
确认服务器上已安装并启用了mokutil工具,如果没有,请使用以下命令安装:

sudo apt-get update
sudo apt-get install mokutil

重启服务器并进入BIOS设置。具体方法取决于使用的硬件厂商和服务器型号。通常,需要在启动时按下特定的按键才能进入BIOS设置界面。比如我的服务器是DELL,在开机的时候按F2进入界面
在BIOS设置中找到Secure Boot选项,将其禁用。
保存并退出BIOS设置。
重新启动服务器。
再次使用nvidia-smi命令,就成功了!

关闭内核自动更新

为了一劳永逸再也不出现这些奇奇怪怪的问题,可以关闭内核的更新,代码如下:

# 查看内核版本
uname -a
# 根据获得的版本输入以下命令,例如
sudo apt-mark hold linux-image-5.19.0-38-generic
sudo apt-mark hold linux-image-5.19.0-38-generic linux-headers-generic
# 查看是否关闭更新,如果什么都没输出,说明更新关闭了
sudo apt-config dump | grep -i unattended-upgrades

以上,就是努力了一天的成果(踩了一天的坑),成功了才写的方案所以可能有些地方有遗忘导致纰漏,欢迎指正

参考

https://blog.csdn.net/zataji/article/details/123104569
https://blog.csdn.net/nizhenshishuai/article/details/123873453
https://www.cnblogs.com/devgis/p/16469895.html
https://zhuanlan.zhihu.com/p/462412591
https://forums.developer.nvidia.com/t/nvidia-smi-outputs-no-devices-were-found-on-ubuntu-22-04-driver-520/234829文章来源地址https://www.toymoban.com/news/detail-603451.html

到了这里,关于NVIDIA-SMI has failed because it couldn‘t communicate with the NVIDIA driver. 最全解决方案!详细!的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 在docker里使用gpu的解决方案(镜像内安装驱动使用nvidia-smi后显示Failed to initialize NVML: Driver/library version mismatch)

    要么在docker环境内安装nvidia-driver 但容易和外面的版本不一致导致各种报错version mismatch之类的 不如使用nvidia-docker,这是一个nVidia官方为了方便在docker镜像容器内使用gpu做的包: 1. 保证docker环境内没有nvidia驱动程序,防止后续配置出现驱动版本不一致的情况         找到你要

    2024年01月21日
    浏览(31)
  • 【nvidia-smi:command not found】如何在集群服务器上使用nvidia-smi查看GPU信息

    1. nvidia-smi指令输出分析 对于普通的多卡服务器,nvidia-smi命令可以显示有关 NVIDIA 显卡和 GPU 的详细信息,如输入 得到以下输出,可以看到相应的CUDA版本,GPU显存大小等信息。 2. 集群上使用nvidia-smi指令 如果登录了服务器后,直接在命令行中输入nvidia-smi,会有如下报错: b

    2024年02月10日
    浏览(46)
  • The operation couldn’t be completed. Unable to launch com.xxx because it has an invalid code signatu

    通过Xcode跑app到真机上出现错误 手机弹窗提示:“需要互联网连接以验证是否信任开发者“xxx”。此App在验证前将不可用” Xcode提示: The operation couldn’t be completed. Unable to launch com.xxx because it has an invalid code signature, inadequate entitlements or its profile has not been explicitly trusted by th

    2024年02月12日
    浏览(38)
  • Linux | nvidia-smi 命令使用记录

    参考文章链接:https://blog.csdn.net/weixin_44966641/article/details/121228579 nvidia smi(也称为NVSMI)为来自 Fermi 和更高体系结构系列的 nvidia Tesla、Quadro、GRID 和 GeForce 设备提供监控和管理功能。GeForce Titan系列设备支持大多数功能,为GeForce品牌的其余部分提供的信息非常有限。NVSMI是一种

    2024年02月02日
    浏览(32)
  • nvidia/cuda doker容器使用nvidia-smi不能找到命令

    参考资料 NVIDIA官方安装文档 CSDN博客 运行环境 wsl子系统Ubuntu 20.04 docker19.03以上 问题:使用docker pull nvidia/cuda:11.4.2-cudnn8-runtime-rockylinux8 在容器中使用nVidia-smi 出现命令无法找到的问题 百度好久,看了几篇文章,最后发现运行cuda的容器不支持调用主机的显卡,需要下载nvidia-

    2023年04月08日
    浏览(40)
  • 矩池云上使用nvidia-smi命令教程

    nvidia-smi全称是NVIDIA System Management Interface ,它是一个基于NVIDIA Management Library(NVML)构建的命令行实用工具,旨在帮助管理和监控NVIDIA GPU设备。 接下来我介绍一下,用nvidia-smi命令来查询机器GPU使用情况的相关内容。​ 我以上图的查询内容为例,已经复制出来了,如下, 我们来

    2024年02月16日
    浏览(33)
  • 一次必搞定Ubuntu上安装nvidia驱动教程--nvidia-smi

    Nvidia官网 (https://www.nvidia.cn/) Nvidia驱动下载地址:https://www.nvidia.cn/Download/index.aspx?lang=cn NVIDIA显卡驱动可以通过如下指令删除以前安装的NVIDIA驱动版本,重新安装。 注意!在安装NVIDIA驱动以前需要禁止系统自带显卡驱动nouveau:可以先通过指令lsmod | grep nouveau查看nouveau驱动的启

    2024年02月17日
    浏览(28)
  • 深度学习烦人的基础知识(2)---Nvidia-smi功率低,util高---nvidia_smi参数详解

    如下图所示,GPU功率很低,Util占用率高。 这个训练时不正常的! Pwr是指GPU运行时耗电情况,如图中GPU满载是300W,目前是86W与GPU2的空载情况功率相等。说明GPU没有在真正运行。 GPU-Util高说明它的核心被占用了,占用率为100%。 打个比方,把GPU看做是人。三个人,一个在举重,

    2024年01月16日
    浏览(31)
  • nvidia-smi no devices were found

    报错:找不到设备 输入 发现显卡其实还在 用NVIDIA-Linux-x86_64-xxx.xxx.run重装了一下显卡驱动,发现还是不行 最后用了另一种安装方式 选择一个 比如选择了525,那就是 安装完了其实还是找不到设备,所以需要重启 然后就好了 参考 https://blog.csdn.net/dujianghai/article/details/125760522

    2024年02月15日
    浏览(29)
  • Ubuntu下nvidia-smi失败,使用dkms解决

    nvidia-smi显示无法与驱动通讯 一般来说是因为机器重启linux内核自动更新导致,可以尝试回退内核版本,或者使用dkms安装该内核下驱动配套的包,这里主要介绍使用dkms如何处理 查看已安装的nvidia驱动版本 显示 说明我电脑上nvidia驱动的版本是nvidia-525.116.04 安装dkms和相关包 安

    2024年02月13日
    浏览(30)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包