安装stable diffusion webui过程中发现的问题。
出现报错:
AssertionError: Torch is not able to use GPU; add --skip-torch-cuda-test to COMMANDLINE_ARGS variable to disable this check
然后来看nvidia-smi 的时候发现驱动挂了
1. nvcc -V,查看cuda是可以看到的
说明之前至少安装cuda的时候没挂,应该是服务器启动的问题。
2. 检查了一下
# whereis nvidia
nvidia: /usr/lib/nvidia /usr/share/nvidia /usr/src/nvidia-450.102.04/nvidia
# dkms status
nvidia, 450.102.04, 5.4.0-132-generic, x86_64: installed
说明驱动已经安装。不然的话可以用这个解决方案:
sudo apt-get install dkms #DKMS全称是Dynamic Kernel Module Support,它可以帮我们维护内核外的这些驱动程序,在内核版本变动之后可以自动重新生成新的模块。
sudo dkms install -m nvidia -v 410.78 #410.78是安装驱动的版本
ubuntu关机开机后显卡挂了:报错NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver. M... - 简书 (jianshu.com)(138条消息) NVIDIA驱动失效简单解决方案:NVIDIA-SMI has failed because it couldn‘t communicate with the NVIDIA driver._nvdia-smi has failed_AI 菌的博客-CSDN博客
3. 原因:linux系统内核更新和nvidia驱动不适配
4. 解决方案:
(138条消息) 显卡驱动报错:NVIDIA-SMI has failed because it couldn’t communicate with the NVIDIA driver._显卡报错命令是什么_oyrq的博客-CSDN博客
期间遇到了另一个问题:
# sudo dkms install -m nvidia -v 450.102.04
Error! Your kernel headers for kernel 5.4.0-144-generic cannot be found.
Please install the linux-headers-5.4.0-144-generic package,
or use the --kernelsourcedir option to tell DKMS where it's located
检查了一下确实没装:
# dpkg-query -s linux-headers-5.4.0-144-generic
dpkg-query: package 'linux-headers-5.4.0-144-generic' is not installed and no information is available
Use dpkg --info (= dpkg-deb --info) to examine archive files.
(138条消息) Linux如何查看内核版本并安装内核头文件linux-headers-generic_高精度计算机视觉的博客-CSDN博客
安装:
sudo apt-get install linux-headers-$(uname -r)
5. 最后再看nvidia-smi就没问题了
编辑文章来源:https://www.toymoban.com/news/detail-663000.html
进而也可以去解决下一个安装stabel diffusion时出现的bug了:)文章来源地址https://www.toymoban.com/news/detail-663000.html
到了这里,关于ubuntu服务器关机重新开机之后nvidia-smi不显示但nvcc -C没问题的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!