一行代码解决PyTorch训练模型时突然出现的For debugging consider passing CUDA_LAUNCH_BLOCKING=1报错

这篇具有很好参考价值的文章主要介绍了一行代码解决PyTorch训练模型时突然出现的For debugging consider passing CUDA_LAUNCH_BLOCKING=1报错。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

一、问题描述

        今天在调试模型的代码,然后代码一直运行得好好地,就突然出现了一下的错误:

RuntimeError: CUDA error: invalid device ordinal
CUDA kernel errors might be asynchronously reported at some other API call,so the stacktrace below might be incorrect.
For debugging consider passing CUDA_LAUNCH_BLOCKING=1.

        觉得十分诡异,前面运行的时候没出现这个Error,但是后面点击运行的时候就出现了,而且多次点击运行,都会报的这个错。

        上面的错误大概就是说我的CUDA设备序号出错。例如,训练模型的机器上只有4张显卡,那么CUDA设备序号分别是0、1、2、3。当你在程序中使用4、5或者更加大的数字时,这个错误信息就会自动地报出来。

        令我觉得诡异的地方是,在我运行模型的机器中,明明有4个可以使用的CUDA设备,也就是拥有4张显卡,而我不能使用1、2、3对应的CUDA设备,然后就报了上面的这个错误。所以我觉得十分奇怪。

二、解决方法

        首先,我观察了我设置程序使用CUDA设备的代码:

os.environ['CUDA_VISIBLE_DEVICES'] = '%d' % m_gpu
torch.cuda.set_device(m_gpu)
torch.cuda.is_available()
torch.cuda.current_device()

        其中上边的m_gpu是设置CUDA设备序号的变量。

        然后我发现在设置CUDA设备序号时,如果调用了下面的代码,就不会出现上门的报错信息:

torch.cuda.device_count()

        最终,设置CUDA设备序号的代码改为:

torch.cuda.device_count()
os.environ['CUDA_VISIBLE_DEVICES'] = '%d' % m_gpu
torch.cuda.set_device(m_gpu)
torch.cuda.is_available()
torch.cuda.current_device()

        这样就解决了我上面所遇到的问题。

三、设备信息

        NVIDIA驱动:NVIDIA-SMI 515.65.01    Driver Version: 515.65.01    CUDA Version: 11.7

        Python版本:Python 3.6.9

        PyTorch版本:1.10.2

        Linux系统:Ubuntu 18.04.6 LTS (GNU/Linux 4.15.0-041500-generic x86_64)文章来源地址https://www.toymoban.com/news/detail-784726.html

到了这里,关于一行代码解决PyTorch训练模型时突然出现的For debugging consider passing CUDA_LAUNCH_BLOCKING=1报错的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 全套解决方案:基于pytorch、transformers的中文NLP训练框架,支持大模型训练和文本生成,快速上手,海量训练数据!

    目标 :基于 pytorch 、 transformers 做中文领域的nlp开箱即用的训练框架,提供全套的训练、微调模型(包括大模型、文本转向量、文本生成、多模态等模型)的解决方案; 数据 : 从开源社区,整理了海量的训练数据,帮助用户可以快速上手; 同时也开放训练数据模版,可以快

    2024年02月11日
    浏览(38)
  • Vue3 - 解决 build / dev 打包运行时突然出现一堆 ts 相关的报错,强制关闭整个项目的 ts 代码语法校验和验证(webpack / vite 均可)

    无论您是 vite 还是 webpack,都可以 100% 去掉运行或打包时的 ts 语法验证。 本文 实现了在 vue3 + ts 开发中,关闭运行、打包部署命令时出现的各种 ts 校验报错,去掉对 ts 的验证, 有些朋友对 ts 不是很了解(所以在写代码时没注意一些语法),导致最终 build 打包时出现了很多

    2024年02月11日
    浏览(60)
  • 虚拟网卡突然不见?虚拟网络编辑还原默认设置后又显示感叹号?虚拟网卡出现“Windows 仍在设置此设备的类配置。(代码56)”,不删除VMware解决一切问题!

    情况说明:                 重置虚拟机网络编辑还原默认设置后两个虚拟网卡就不见了!网上找了很多基本上就是把虚拟机删了,再把注册列表和VMware相关的所有东西全删了....但是,我真的不想删,孩子刚配好的各种服务器实验,我可不想从头再来了,你们知道的重新

    2024年02月07日
    浏览(46)
  • ADSL MODEM出现突然断流及挂死故障解决方法

    我们利用ADSL方式接入互联网,也会伴随好多意想不到的故障,如果出现ADSL MODEM出现突然断流及挂死的现象。我们应该如何对待?如何解决ADSL内置拨号故障呢?下面的内容为您详细解释原因,并提供相应解决办法,希望对您有所帮助! 一、故障现象 经过了解,发现出现故障

    2024年02月06日
    浏览(39)
  • 【深入了解pytorch】PyTorch训练和评估模型

    在机器学习和深度学习领域,PyTorch是一个非常受欢迎的深度学习框架。它提供了灵活且强大的工具,使得训练和评估模型变得更加容易。本文将介绍如何使用PyTorch来准备数据集、定义训练循环、选择优化算法,并展示如何评估模型性能。 在开始训练模型之前,我们首先需要

    2024年02月16日
    浏览(37)
  • pytorch完整模型训练套路

    本文以 CIFAR10数据集为例,介绍一个完整的模型训练套路。 CIFAR-10数据集包含60000张32x32彩色图像,分为10个类,每类6000张。有50000张训练图片和10000张测试图片。 数据集分为五个训练batches和一个测试batch,每个batch有10000张图像。测试batch包含从每个类中随机选择的1000个图像。

    2024年02月07日
    浏览(37)
  • Pytorch学习笔记(模型训练)

    在同一个包下创建 train.py 和 model.py ,按照步骤先从数据处理,模型架构搭建,训练测试,统计损失,如下面代码所示 train.py model.py 运行 train.py 后可以通过启动tensorboard进行查看我们的loss情况,损失是不断下降的。 补充 argmax 函数的使用 我们模型预测处理的是概率,我们需

    2024年02月07日
    浏览(44)
  • 人工智能(pytorch)搭建模型9-pytorch搭建一个ELMo模型,实现训练过程

    大家好,我是微学AI,今天给大家介绍一下人工智能(pytorch)搭建模型9-pytorch搭建一个ELMo模型,实现训练过程,本文将介绍如何使用PyTorch搭建ELMo模型,包括ELMo模型的原理、数据样例、模型训练、损失值和准确率的打印以及预测。文章将提供完整的代码实现。 ELMo模型简介 数据

    2024年02月07日
    浏览(62)
  • Pytorch应用训练好的模型

    保存训练好的模型有两种方式,第一种保存模型结构且保存模型参数,第一种方式存在一种陷阱,也就是每次加载模型都得把类定义,或者访问类所在的包。保存方式为: torch.save(模型名, 以pth为后缀的文件) 第二种保存方式只保存模型参数,不保存模型结构,这样可以面对较

    2023年04月08日
    浏览(34)
  • 人工智能(pytorch)搭建模型17-pytorch搭建ReitnNet模型,加载数据进行模型训练与预测

    大家好,我是微学AI,今天给大家介绍一下人工智能(pytorch)搭建模型17-pytorch搭建ReitnNet模型,加载数据进行模型训练与预测,RetinaNet 是一种用于目标检测任务的深度学习模型,旨在解决目标检测中存在的困难样本和不平衡类别问题。它是基于单阶段检测器的一种改进方法,通

    2024年02月15日
    浏览(87)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包