【RuntimeError: CUDA error: device-side assert triggered】问题与解决

这篇具有很好参考价值的文章主要介绍了【RuntimeError: CUDA error: device-side assert triggered】问题与解决。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

问题描述

当我在调试模型的时候,出现了如下的问题
runtimeerror: cuda error: device-side assert triggered,深度学习,神经网络,人工智能,pytorch

/opt/conda/conda-bld/pytorch_1656352465323/work/aten/src/ATen/native/cuda/IndexKernel.cu:91: operator(): block: [5,0,0], thread: [63,0,0] Assertion `index >= -sizes[i] && index < sizes[i] && “index out of bounds”` failed.

通过提示信息可以知道是个数组越界的问题。但是如图一中第二行话所说这个问题可能并不出在提示的代码段。
一开始碰到这个问题就一个劲儿地查看提示的错误代码,发现调整了代码段之后,问题依然存在在并且提示的问题代码变化了。

解决思路

首先明确一点,如图中描述的"RuntimeError: CUDA error: device-side assert triggered"该类问题,不应该仅从提示的代码进行检查。问题可能出在别的地方。
通过检查代码,以及查找出现类似问题的解中发现对于,“index >= -sizes[i] && index < sizes[i] && “index out of bounds””,这类数组越界的问题,如果大家的模型任务是用于分类任务,可以查看下自己模型在设置类别数量时,数值是否大于数据集中的给定的类别。

发现问题:

因为本人自己修改了COCO的dataset,所以在赋值类别数量的时候如下代码

num_classes = 20 if args.dataset_file != 'coco' else 91

修改过后的的dataset_file名称为coco_vl,所以类别给了20,实际模型在最后预测阶段的类别应该为91,所以在criterion阶段(计算loss)时会报数值越界错误。
更改代码如下:文章来源地址https://www.toymoban.com/news/detail-810514.html

num_classes = 20 if args.dataset_file != 'coco' and args.dataset_file != 'coco_vl' else 91

总结

  1. 分类任务模型中,出现类似于数值越界的问题,可以优先查看下dataset中的类别是否填写符合要求,不应该小于模型预测的类别数量。
  2. 出现device-side assert triggered的BUG不能只关注报错代码

到了这里,关于【RuntimeError: CUDA error: device-side assert triggered】问题与解决的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 已解决RuntimeError: CUDA error: invalid device ordinal CUDA kernel errors might be asynchronously repo

    参考链接 当运行以下代码出现报错: 报错信息如下 RuntimeError: CUDA error: invalid device ordinal CUDA kernel errors might be asynchronously reported at some other API call,so the stacktrace below might be incorrect. For debugging consider passing CUDA_LAUNCH_BLOCKING=1. 报错完整截图 报错的信息告诉我们,编号\\\"1\\\"是无效的设

    2024年02月04日
    浏览(39)
  • RuntimeError: CUDA error: no kernel image is available for execution on the device

    导致的原因一般都是显卡算力和cuda或者torch版本不匹配 比如在conda中安装的pytorch=1.5.0 cuda=10.2 错误:RuntimeError: CUDA error: no kernel image is available for execution on the device 参考pytorch 报错 RuntimeError: CUDA error: no kernel image is available for execution on the device_可豌豆的博客-CSDN博客 则应该安装

    2024年02月15日
    浏览(47)
  • 出现错误(已解决)RuntimeError: CUDA error: no kernel image is available for execution on the device CUDA ker

    为什么把警告po出来,是因为警告可以让我们了解一些有用信息。 首先警告里的内容不可忽略,翻译过来就是NVIDIA RTX GeForce 3060Ti(我使用的服务器)支持的CUDA的算力为8.6,与当前的pytorch的版本不匹配。说白了就是CUDA和pytorch版本不一致。 当前的pytorch版本支持的CUDA的算力为

    2024年02月10日
    浏览(37)
  • [已解决]RuntimeError: CUDA error: no kernel image is available for execution on the device

    在ubuntu服务器上用python炼丹的时候遇到的两个问题,一个warning和一个runtimeErro,我的环境是用conda配置的,我就切换了一下环境,然后切回来就报这两个错误,期间啥也没干,之前重新安装opencv疯狂报错也是这种样子的。 warning warning:NVIDIA GeForce RTX 3090 with CUDA capability sm_86

    2024年02月02日
    浏览(53)
  • RuntimeError:CUDA error:no kernel image is available for execution on the device报错解决(亲测)

    调试Transformer网络,安装完timm包之后,运行程序时报错 CUDA error:no kernel image is available for execution on the device ,如图所示: 网上对于该错误说啥的都有,因为这是第一次遇到这个错误,之前训练CNN也正常,排除显卡算力低,不支持高版本CUDA问题。看来看去,这位博主说的有道

    2024年02月11日
    浏览(34)
  • 当出现RuntimeError:CUDA error:no kernel image is available for execution on the device 问题时候的pytorch安装方法

    当出现一个明显的特征就是出现: RuntimeError:CUDA error:no kernel image is av ailable for execution on the device 这就说明你的显卡太低了 可以到这个路径下C:Program FilesNVIDIA GPU Computing ToolkitCUDAv11.1extrasdemo_suite, 找到deviceQuenry.exe这个文件拖到cmd命令窗口运行可以看到自身电脑的算力  从

    2024年02月01日
    浏览(50)
  • RuntimeError: nms_impl: implementation for device cuda:0 not found.

    RuntimeError: nms_impl: implementation for device cuda:0 not found. 关于mmpose的网页搜索并不多,查了一些资料是cuda不匹配的问题,参考添加链接描述,后续检查了自己配置,是匹配的。 就卸载了mmcv-full ,在重新安装,安装命令是 没有后面的指定版本,运行demo时成功! 虽然卸载的和再重新

    2024年02月13日
    浏览(36)
  • RuntimeError: Attempting to deserialize object on a CUDA device but torch.cuda.is_available() is Fal

    今天在跑 yolov7 的时候遇见,模型加载问题,因为我是使用CPU来加载 pt 模型的,但是出现了错误; RuntimeError: Attempting to deserialize object on a CUDA device but torch.cuda.is_available() is False. If you are running on a CPU-only machine, please use torch.load with map_location=torch.device(\\\'cpu\\\') to map your storages to

    2024年02月11日
    浏览(43)
  • RuntimeError: CUDA error: an illegal memory access was encountered

    后续发现其实是某张卡有问题, 0~3一共4个GPU,只在使用0号GPU的时候会出问题 0号卡似乎是被某个进程锁了,还是怎么样,不用那个卡就没事了 其实不难发现,我报错的位置基本都是从 gpu 往 cpu 转换的时候出现的问题。 因此考虑是不是cpu内存不太够了,所以内存访问发生错

    2024年01月17日
    浏览(42)
  • RuntimeError: CUDA error: CUBLAS_STATUS_NOT_INITIALIZED when calling `cublas‘

    调用nn.linear时出现RuntimeError: CUDA error: CUBLAS_STATUS_NOT_INITIALIZED when calling `cublas’错误 ,搜索网上资料,主要指出以下原因: batch size太大(本人将batchsize设置成4,够小吧!还是不行。。。) CUDA版本和torch不匹配(本人cuda版本是10.1,pytorch版本安装的是cuda10.1+python3.8的pytorch1.

    2023年04月08日
    浏览(27)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包