ubuntu服务器关机重新开机之后nvidia-smi不显示但nvcc -C没问题

这篇具有很好参考价值的文章主要介绍了ubuntu服务器关机重新开机之后nvidia-smi不显示但nvcc -C没问题。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

安装stable diffusion webui过程中发现的问题。

出现报错:

AssertionError: Torch is not able to use GPU; add --skip-torch-cuda-test to COMMANDLINE_ARGS variable to disable this check

然后来看nvidia-smi 的时候发现驱动挂了

ubuntu服务器关机重新开机之后nvidia-smi不显示但nvcc -C没问题,ubuntu,linux,运维

1. nvcc -V,查看cuda是可以看到的

ubuntu服务器关机重新开机之后nvidia-smi不显示但nvcc -C没问题,ubuntu,linux,运维

说明之前至少安装cuda的时候没挂,应该是服务器启动的问题。

2.  检查了一下 

# whereis nvidia
nvidia: /usr/lib/nvidia /usr/share/nvidia /usr/src/nvidia-450.102.04/nvidia

# dkms status
nvidia, 450.102.04, 5.4.0-132-generic, x86_64: installed

说明驱动已经安装。不然的话可以用这个解决方案: 

sudo apt-get install dkms #DKMS全称是Dynamic Kernel Module Support,它可以帮我们维护内核外的这些驱动程序,在内核版本变动之后可以自动重新生成新的模块。
sudo dkms install -m nvidia -v 410.78 #410.78是安装驱动的版本

 ubuntu关机开机后显卡挂了:报错NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver. M... - 简书 (jianshu.com)(138条消息) NVIDIA驱动失效简单解决方案:NVIDIA-SMI has failed because it couldn‘t communicate with the NVIDIA driver._nvdia-smi has failed_AI 菌的博客-CSDN博客

3. 原因:linux系统内核更新和nvidia驱动不适配

4. 解决方案:

(138条消息) 显卡驱动报错:NVIDIA-SMI has failed because it couldn’t communicate with the NVIDIA driver._显卡报错命令是什么_oyrq的博客-CSDN博客

 期间遇到了另一个问题:


# sudo dkms install -m nvidia -v 450.102.04
Error! Your kernel headers for kernel 5.4.0-144-generic cannot be found.
Please install the linux-headers-5.4.0-144-generic package,
or use the --kernelsourcedir option to tell DKMS where it's located

检查了一下确实没装:

# dpkg-query -s linux-headers-5.4.0-144-generic
dpkg-query: package 'linux-headers-5.4.0-144-generic' is not installed and no information is available
Use dpkg --info (= dpkg-deb --info) to examine archive files.

(138条消息) Linux如何查看内核版本并安装内核头文件linux-headers-generic_高精度计算机视觉的博客-CSDN博客

安装:

 sudo apt-get install linux-headers-$(uname -r)

5. 最后再看nvidia-smi就没问题了

ubuntu服务器关机重新开机之后nvidia-smi不显示但nvcc -C没问题,ubuntu,linux,运维​编辑

进而也可以去解决下一个安装stabel diffusion时出现的bug了:)文章来源地址https://www.toymoban.com/news/detail-663000.html

到了这里,关于ubuntu服务器关机重新开机之后nvidia-smi不显示但nvcc -C没问题的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • frp-内网穿透部署-ubuntu22服务器-查看端口-结束进程-windows server-详细教程-开机启动

    FRP是一个开源、简洁易用,高性能的内网穿透和反向代理软件,支持tcp、upp、http、https等协议。 可以去官网下载最新的frp编译好的文件,本文采用frp_0.32.1_windows_amd64版本。也可以在csdn下载。 按下字母“i”键, 在最后一行添加 PermitRootLogin yes配置,最后esc退出编辑模式,再“

    2024年01月18日
    浏览(57)
  • 电脑开机正常启动,运行一整子之后电脑突然关机重启报错0xc000001

    电脑自动重启或者蓝屏报错0x0000001错误导致系通无法开机或者运行不久就会重启等问题? 错误代码:0xc0000001表示引导设备可能存在某些问题,或者某些引导文件已损坏。如果计算机的引导扇区发生某些问题,也可能发生这种情况。系统文件损坏或内存损坏是比较常见的原因

    2024年02月12日
    浏览(44)
  • 【nvidia-smi:command not found】如何在集群服务器上使用nvidia-smi查看GPU信息

    1. nvidia-smi指令输出分析 对于普通的多卡服务器,nvidia-smi命令可以显示有关 NVIDIA 显卡和 GPU 的详细信息,如输入 得到以下输出,可以看到相应的CUDA版本,GPU显存大小等信息。 2. 集群上使用nvidia-smi指令 如果登录了服务器后,直接在命令行中输入nvidia-smi,会有如下报错: b

    2024年02月10日
    浏览(60)
  • 阿里云服务器执行nvidia-smi命令后提示【No devices were found】

    服务器有一段时间没用了,今天想拿来跑模型,结果我查询显卡的时候居然提示“No devices were found”,也不算是报错吧,但是起码是不对的,这个意思就是找不到设备资源了。 这个着实就很奇怪,我并没有做过任何事情就很莫名其妙。 首先查看下显卡是否还在,如下: 结果

    2024年02月11日
    浏览(97)
  • 每天晚上12点服务器关机,第二天6点自动唤醒

    每天晚上12点服务器关机,第二天6点自动唤醒。 作用主要有4个: 1、防黑:上班时黑客很少攻击,容易被发现。下班了、睡了,是黑客攻击的主要时间段。晚上关机,就直接没法攻击了。 2、省电:一台一天当然省不了多少电,但是如果几百台、成年累月几年,就有助于地球

    2024年02月13日
    浏览(39)
  • 一台UPS实现NAS、PC和服务器的自动关机

    如何用一台UPS控制多台主机的断电自动关机?NetworkUPSTools(NUT)的安装与配置 家用UPS同时给NAS和PC使用实现自动关机 https://networkupstools.org/ pengdonglin137@163.com 之前在买NAS时配了一台UPS,有自动关机功能。最近买了台T620服务器,又不想再给它配一台UPS,所以在网上查找如何跟NAS共

    2024年02月03日
    浏览(77)
  • 【已解决】nvidia-smi报错:NVIDIA-SMI has failed because it couldn’t communicate with the ... 阿里云GPU服务器

    如题,起因是在阿里云GPU服务器上,使用原先正常运行的镜像生成了容器,但容器的显卡驱动出问题了,使用nvidia-smi命令会报错 NVIDIA-SMI has failed because it couldn’t communicate with the NVIDIA driver. 尝试使用官网.run文件重新安装显卡驱动会报错ERROR: Unable to load the kernel module ‘nvidia

    2024年02月11日
    浏览(39)
  • 服务器遭受攻击之后的常见思路

    哈喽大家好,我是咸鱼   不知道大家有没有看过这么一部电影:   这部电影讲述了男主是一个电脑极客,在计算机方面有着不可思议的天赋,男主所在的黑客组织凭借着超高的黑客技术去入侵各种国家机构的系统,并引起了德国秘密警察组织、欧洲刑警组织的重视   刚开始

    2023年04月23日
    浏览(41)
  • CentOS7重启指令(重启命令)reboot、shutdown -r now(立即重启服务器)、shutdown -h now(立即关机、关闭服务器)

    参考文章:CentOS 几种重启方式的区别 立即关机: 20230816 CentOS是一个基于Red Hat Enterprise Linux (RHEL)的免费开源操作系统。本文将深入介绍如何使用不同的命令在CentOS 7上进行系统重启和关机。 1.1 reboot 命令 在CentOS 7中,最直接也最常用的重启命令就是 reboot 。 这个命令会立即重

    2024年02月11日
    浏览(58)
  • IDC机房服务器搬迁之运行了几年的服务器没关过机,今天关机下架,再上架突然起不来了,怎么快速处理?

    戴尔R420 服务器 1U 2台直连存储 4U CentOS 7 IDC机房服务器搬迁之运行了几年的服务器没关过机,今天关机下架,再上架突然起不来了,怎么快速处理? 服务器上电开机就出现进入紧急模式 Welcome to emergency mode! After logging in, type “journalctl -xb” to view GHXWsystem logs, “systemctl reboot”

    2024年01月19日
    浏览(47)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包