NVIDIA显卡BUG解决 Unable to determine the device handle for GPU 0000:02:00.0: Unknown Error

这篇具有很好参考价值的文章主要介绍了NVIDIA显卡BUG解决 Unable to determine the device handle for GPU 0000:02:00.0: Unknown Error。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

报错

实验室去年到今年断了几次电,然后服务器上的2080Ti一直就感觉有点小毛病。属于是被折磨了几个月了。
然后前两周断电后,显卡就基本上完全用不了了,经常服务器开机都会失败。并且就算服务器开机成功过后,没有几分钟显卡就会自己关掉

刚刚开机一切都很正常
但是没过几分钟显卡就会突然用不了了:

nvidia-smi
Unable to determine the device handle for GPU 0000:02:00.0: Unknown Error

然后查看是不是有显卡

lspci| grep -i nvidia
02:00.0 VGA compatible controller: NVIDIA Corporation TU102 [GeForce RTX 2080 Ti] (rev ff)

很奇怪啊,显卡是在的,但是rev ff就是显卡关闭了。
重启多次过后一直都是这样。

可能的原因

在网上疯狂找,觉得可能存在以下问题

  • 电源问题
  • 也可能是非持久模式导致的频繁初始化,利用命令sudo nvidia-smi -pm 1即可解决。注意这条命令重启后会失效,所以最好写进/etc/rc.local里面,以自动执行。
  • 驱动问题
  • GPU过热,风扇,机箱散热问题
  • 还有一个,如链接。但是我看不懂是怎么回事。

我的问题

我是服务器的电源线在前几次的断电中出现了问题,所以会出现开机的问题,并且显卡毕竟是大功率电器,而且好像有保护机制,电源有问题就自己断电了。
最后换了一根电源线就解决问题了。

如何排查问题的

电源问题

这个太麻烦,而且一般不好解决也不好发现,所以先不管

非持久模式导致的频繁初始化

这个方案执行最简单,所以第一个试一下。
然后,使用了sudo nvidia-smi -pm 1没有用,写到/etc/rc.local里面,也没有用。

驱动问题

退diver版本,更新版本,都没有用
更新cuda也没有用。
个人感觉这个报错一般不会是驱动的问题

GPU过热,风扇,机箱散热问题

开机运行就几分钟,感觉也不太像过热的问题。但是还是抬了个风扇到机房对着吹,最后发现确实不是这个问题。

最后解决

最后实在是受不了了,想着把显卡卸下来。然后先是把服务器抬到实验室,给老板表演一下显卡自己掉线,结果等了半天一点问题都没有,非常平稳。
然后灰溜溜地把服务器弄回去,结果插电源的时候,pa地一下电源的位置闪了一下火花。突然才想到电源的问题还没有排查。。。
然后随便换了个根电源线,现在一两天了,都没有出问题。。。文章来源地址https://www.toymoban.com/news/detail-780229.html

到了这里,关于NVIDIA显卡BUG解决 Unable to determine the device handle for GPU 0000:02:00.0: Unknown Error的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • EKS 解决Unable to connect to the server 问题

    报错内容如下 1、先配置日志查询我们的eks所属用户 2、查询日志 执行以下查询语句 3、查询当前主机aws configure 4、执行操作远程k8s 报错如下 5、降低kubectl版本 各版本下载地址 https://docs.aws.amazon.com/eks/latest/userguide/install-kubectl.html

    2024年02月12日
    浏览(37)
  • Xcode14:”Failed to prepare the device for development“解决

    当前Xcode版本14.2,测试机iOS版本16.4, 结果出现提示: Failed to prepare the device for development, 经过Clean,重装都无效,最后发现其他人也有类似的问题        https://developer.apple.com/forums/thread/714388 PS:首先把升级之前的arc文件复制出来,arc文件的目录如下 /Applications/Xcode.app/Content

    2024年02月08日
    浏览(27)
  • 【bug解决】RuntimeError: Unable to find a valid cuDNN algorithm to run convolution

    进行深度学习的算法模型训练的时候,终端报错: 产生报错的原因可能有两种: 1.模型训练的环境中cudnn,CUDA的版本号不匹配 解决办法:安装对应的cudnn,以及cuda,找到对应的torch框架,进行安装 2.其实问题更加简单,是模型的训练的batch-size训练过大了,调整更小,就可以了

    2024年02月11日
    浏览(37)
  • 记NVIDIA显卡A100在K8S POD中“Failed to initialize NVML: Unknown Error“问题解决

    因项目原因需要在k8s上跑GPU相关的代码,优选使用NVIDIA A100显卡,但在根据官方文档简单并部署GitHub - NVIDIA/k8s-device-plugin:适用于 Kubernetes 的 NVIDIA 设备插件后,出现了pod中GPU运行一段时间后丢失的问题,进入容器后发现nvidia-smi命令报错\\\"Failed to initialize NVML: Unknown Error\\\"。尝试

    2024年02月08日
    浏览(49)
  • Unable to start the daemon process.解决方案

     错误信息如下: Unable to start the daemon process. This problem might be caused by incorrect configuration of the daemon. For example, an unrecognized jvm option is used. Please refer to the User Manual chapter on the daemon at https://docs.gradle.org/6.5/userguide/gradle_daemon.html Process command line: D:Javajdk-1.8binjava.exe -Xmx2048m -Dfil

    2024年02月14日
    浏览(48)
  • Xcode真机运行报错:Failed to prepare the device for development解决方法

            运行Xcode然后打包APP,结果Xcode报错,如下: Failed to prepare the device for development. This operation can fail if the version of the OS on the device is incompatible with the installed version of Xcode. You may also need to restart your Mac and device in order to correctly detect compatibility.         Xcode     Version 1

    2024年02月12日
    浏览(29)
  • 几个Flutter常见诊断错误与解决Android toolchain - develop for Android devices X Unable to locate Android SDK

    几个Flutter常见诊断错误与解决 jcLee95:https://blog.csdn.net/qq_28550263 https://blog.csdn.net/qq_28550263/article/details/132869987 问题描述 原因分析 这个错误表示找不到Android SDK。可能的原因是Android Studio没有安装或者安装路径没有正确配置。 解决办法 问题描述 原因与解决 这个错误信息表明

    2024年02月04日
    浏览(42)
  • 【你该安装新的Xcode了】【解决】Failed to prepare the device for development

    报错信息如下: Failed to prepare the device for development. This operation can fail if the version of the OS on the device is incompatible with the installed version of Xcode.You may also need to restart your Mac and device in order to correctly detect compatibility. 意思很明了,用最新版的Xcode吧。 实践证明:Xcode 14.0.1不能在iPa

    2024年02月15日
    浏览(43)
  • 解决fatal: unable to access ‘https://github.com/NVIDIA/apex.git/‘: Recv failure: Connection was reset

    Windows环境下,需要到官网下载git,到指定文件夹中打开git bash。 输入命令 时会报错。 原因可能是默认配置了https代理,这里需要改为git协议。 解决方法: 1:确保VPN打开的情况下,打开系统设置-网络和Internet-代理。找到自己的代理IP,如下:   2:在git bash 中依次输入以下指

    2024年02月11日
    浏览(50)
  • unable to connect to the server: net/http: tls handshake timeout已解决

    在自己电脑上学习k8s,使用kind安装了一个集群,过了一段时间再打开发现了一个问题。 执行 kubectl get po 的时候有报错 查了半个小时也没解决,有说内存不够,也有说要重启服务的,也有说重启docker的,关闭交换分区的,还有代理不对什么的,都没有解决我的问题,最后我试

    2024年02月13日
    浏览(32)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包