Bug小能手系列(python)_13: RuntimeError: CUDA error: device-side assert triggered CUDA kernel errors might

这篇具有很好参考价值的文章主要介绍了Bug小能手系列(python)_13: RuntimeError: CUDA error: device-side assert triggered CUDA kernel errors might。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

0 引言

在运行 Python 代码时出现报错:

RuntimeError: CUDA error: device-side assert triggered
CUDA kernel errors might be asynchronously reported at some other API call,so the stacktrace below might be incorrect.
For debugging consider passing CUDA_LAUNCH_BLOCKING=1.

注意:报错对应的代码部分与实际出现错误的部分是不同的。具体报错截图如下所示:
runtimeerror: cuda error: device-side assert triggered cuda kernel errors mi,Bug小能手,深度学习,bug,python,开发语言

1 报错原因

当代码中存在数组越界或者标签不一致的时候就会出现该错误。这里说的标签不一致的意思是:模型输入的标签应该是0-3,但是你实际输入的标签是1-4
当出现该错误时,有时提示的代码错误的位置和实际位置是不一致的。

2 解决思路

当出现该报错时,首先在代码加载库包部分加入下面两行代码(首先找到代码实际报错位置):

import os
os.environ['CUDA_LAUNCH_BLOCKING'] = '1'

加入该代码后,再次运行代码,此时报错位置为实际报错位置

然后,再分析代码报错原因
runtimeerror: cuda error: device-side assert triggered cuda kernel errors mi,Bug小能手,深度学习,bug,python,开发语言
这里给出了我代码的实际报错位置:
runtimeerror: cuda error: device-side assert triggered cuda kernel errors mi,Bug小能手,深度学习,bug,python,开发语言
然后,分析是否是数据维度不匹配或者标签错误
最后,分析出是标签错误,并成功运行代码!!!

最后,也有一些是别的原因导致的错误。
例如:在加载数据时,num_workers 需要设置为0

DataLoader(dataset = dataset,batch_size = batch_size,num_workers = 0,shuffle = True)

3. 总结

总的而言,感觉出现该错误主要是因为标签或者数组越界的问题。如果大家有什么解决方案的话可以评论留言,这边会根据最新的内容进行更新!!!

如果觉得这篇文章对你有用,记得点赞、收藏并分享给你的小伙伴们哦😄。文章来源地址https://www.toymoban.com/news/detail-767748.html

到了这里,关于Bug小能手系列(python)_13: RuntimeError: CUDA error: device-side assert triggered CUDA kernel errors might的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【bug记录】RuntimeError: CUDA error: CUBLAS_STATUS_EXECUTION_FAILED when calling `cublasSgemm

    问题 在训练到一定迭代次数之后报错: RuntimeError: CUDA error: CUBLAS_STATUS_EXECUTION_FAILED when calling cublasSgemm( handle, opa, opb, m, n, k, alpha, a, lda, b, ldb, beta, c, ldc) 可能的原因 shape维度不匹配 变量不在同一个device上 pytorch和cuda版本不匹配 解决方案 在train.py文件的开头加上 os.environ[\\\'CUDA

    2024年02月11日
    浏览(47)
  • Bug小能手系列(python)_14: pd.concat得到的矩阵错误

    今天在运行 pd.concat (pd指的是 pandas 库),需要将两个DataFrame数据(数据分别为 5*4 的矩阵)进行列合并时,突然发现得到的矩阵是 10*8 的,而不是我想要的 5*8 的!!!虽然是个小问题,但是感觉网上给出的内容一直没把这个问题介绍清楚,这里就专门写一篇文章帮助大家理解

    2024年01月17日
    浏览(55)
  • Bug小能手系列(python)_9: 使用sklearn库报错 module ‘numpy‘ has no attribute ‘int‘

    首先,对于自己使用代码 dtype=np.int 报错的情况,建议直接修改为 np.int_ 即可解决,也不用向下看了!!!! 下文主要是针对 sklearn 库包中存在大量np.int报错的情况!!! 在使用 sklearn 库的 metrics 的 cohen_kappa_score() 函数以及 preprocessing.OneHotEncoder 的 fit_transform() 函数时出错。

    2024年02月09日
    浏览(39)
  • Bug小能手系列(python)_8: 使用mne库读取gdf文件报错 Cannot cast ufunc ‘clip‘ output

    在加载 BCI Competition IV 2a 数据集时,当使用 mne 库的 io 的 read_raw_gdf() 函数时出错。注: 该代码只是按照正常途径读取GDF文件。 代码如下: 报错: 考虑到在网上找了众多关于 mne 库读取 gdf 文件的文章均没有出现该问题,同时网上找到的关于 该报错信息 的内容也均未出现上文

    2024年02月11日
    浏览(43)
  • 已解决RuntimeError: CUDA error: invalid device ordinal CUDA kernel errors might be asynchronously repo

    参考链接 当运行以下代码出现报错: 报错信息如下 RuntimeError: CUDA error: invalid device ordinal CUDA kernel errors might be asynchronously reported at some other API call,so the stacktrace below might be incorrect. For debugging consider passing CUDA_LAUNCH_BLOCKING=1. 报错完整截图 报错的信息告诉我们,编号\\\"1\\\"是无效的设

    2024年02月04日
    浏览(49)
  • RuntimeError: CUDA error: an illegal memory access was encountered

    后续发现其实是某张卡有问题, 0~3一共4个GPU,只在使用0号GPU的时候会出问题 0号卡似乎是被某个进程锁了,还是怎么样,不用那个卡就没事了 其实不难发现,我报错的位置基本都是从 gpu 往 cpu 转换的时候出现的问题。 因此考虑是不是cpu内存不太够了,所以内存访问发生错

    2024年01月17日
    浏览(54)
  • RuntimeError: CUDA error: CUBLAS_STATUS_NOT_INITIALIZED when calling `cublas‘

    调用nn.linear时出现RuntimeError: CUDA error: CUBLAS_STATUS_NOT_INITIALIZED when calling `cublas’错误 ,搜索网上资料,主要指出以下原因: batch size太大(本人将batchsize设置成4,够小吧!还是不行。。。) CUDA版本和torch不匹配(本人cuda版本是10.1,pytorch版本安装的是cuda10.1+python3.8的pytorch1.

    2023年04月08日
    浏览(39)
  • RuntimeError: CUDA error: CUBLAS_STATUS_NOT_INITIALIZED when calling `cublasCreate(handle)`

    DialoGPT/data_loader.py at 457835e7d8acd08acf7f6f0e980f36fd327ea37c · microsoft/DialoGPT · GitHub 报错:RuntimeError: CUDA error: CUBLAS_STATUS_NOT_INITIALIZED when calling `cublasCreate(handle)` 我把输入用同样形状的随机张量进行了测试,发现用随机的整数张量可以,但是用我的输入就不行,于是想看看两者的区别

    2024年02月11日
    浏览(116)
  • 【报错】RuntimeError: CUDA error: CUBLAS_STATUS_EXECUTION_FAILED when calling `cublasLtMatmul( ltHandle,

    在GPU上运行hugging face transformer的时候出现如下报错: 切换至cpu之后,报错: 根据cpu上的报错内容,判断为 模型输入太长 ,超过了模型的embedding最大尺寸,可以在tokenizer设置 max_len 来进行截断( truncation )。 由于GPU上的报错一般都比较抽象, 建议先在cpu上debug 。有可能你的

    2024年02月14日
    浏览(47)
  • 出现错误(已解决)RuntimeError: CUDA error: no kernel image is available for execution on the device CUDA ker

    为什么把警告po出来,是因为警告可以让我们了解一些有用信息。 首先警告里的内容不可忽略,翻译过来就是NVIDIA RTX GeForce 3060Ti(我使用的服务器)支持的CUDA的算力为8.6,与当前的pytorch的版本不匹配。说白了就是CUDA和pytorch版本不一致。 当前的pytorch版本支持的CUDA的算力为

    2024年02月10日
    浏览(50)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包