what(): NCCL Error 1: unhandled cuda error解决方法

10月前作者：阿正的梦工坊分类：Toy博客阅读(37) 违法举报

这篇具有很好参考价值的文章主要介绍了what(): NCCL Error 1: unhandled cuda error解决方法。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

遇到问题

运行项目：ACL2021的一篇工作，LM-BFF (Better Few-shot Fine-tuning of Language Models) https://github.com/princeton-nlp/LM-BFF 遇到环境问题。
我的机器环境如下：

服务器上CUDA版本为11.4
GPU：4 x 24G 3090
虚拟环境用的python=3.6 
安装的pytorch的版本1.6.0（原项目中使用的版本，会报错）

产生如下报错

NCCL Error 1: unhandled cuda error

/home/lishizheng/anaconda3/envs/lmbff/lib/python3.6/site-packages/transformers/trainer.py:1096: FutureWarning: This method is deprecated, use `Trainer.is_local_process_zero()` instead.
  warnings.warn("This method is deprecated, use `Trainer.is_local_process_zero()` instead.", FutureWarning)
Epoch:   0%|                                                                                                                              | 0/250 [00:00<?, ?it/s]terminate called after throwing an instance of 'std::runtime_error'
  what():  NCCL Error 1: unhandled cuda error
Aborted (core dumped)

解决方法

这是pytorch 、cudatoolkit、cuda驱动的版本不一致导致的问题。
what(): NCCL Error 1: unhandled cuda error解决方法,Deep Learning,pytorch,cuda

我的cuda版本是11.4，根据 CUDA版本11.4，pytorch应该下哪个版本的？，安装cudatoolkit为11.3，pytorch=1.10.2可用：

conda install pytorch torchvision torchaudio cudatoolkit=11.3 -c pytorch

这样解决我的问题，代码可正常运行。

参考

[1] https://pytorch.org/get-started/previous-versions/文章来源地址https://www.toymoban.com/news/detail-683562.html

到了这里，关于what(): NCCL Error 1: unhandled cuda error解决方法的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请点击违法举报进行投诉反馈，一经查实，立即删除！

分享到：

领支付宝红包赞助服务器费用

解决：RuntimeError: CUDA error: device-side assert triggered

@[TOC]解决办法：RuntimeError: CUDA error: device-side assert triggered CUDA kernel errors might be asynchronously reported at some other API call,so the stacktrace below might be incorrect. For debugging consider passing CUDA_LAUNCH_BLOCKING=1. RuntimeError: CUDA error: device-side assert triggered CUDA kernel errors might be asynchronously reported at

2024年02月12日
浏览(37)
videoPlayer视频报错：First video frame not zero... WindowsVideoMedia error unhandled Color Standard...

1、报错信息：First video frame not zero: 2 (0.066667s). Result may be out of sync. Please make sure tracks all start at 0 in 2、报错原因（ from ChatGPT4 ）： 3、修复过程重新设置视频的导入格式 Unity 2021.3.18：【Project】-【选中视频文件】-【Inspctor】-【Codec】设置为 H264 WindowsVideoMedia error unhandled Colo

2024年02月03日
浏览(40)
vue ui启动报错：node：event：491 throw er； // Unhandled ‘error‘ event……errno: -4058

错误：使用vue ui启动时报错，无法启动vue cli脚手架原因：笔者使用的vue-cli@4.*版本，版本过低试用方案：使用 netstat -aon|findstr \\\"8080\\\" 查找端口号占用，但发现并没有占用。发现缺失文件后，找到path所指定的位置，在里面新建locales文件，也没成功使用 npm install -g @vue/cli

2024年02月11日
浏览(43)
【RuntimeError: CUDA error: device-side assert triggered】问题与解决

当我在调试模型的时候，出现了如下的问题 /opt/conda/conda-bld/pytorch_1656352465323/work/aten/src/ATen/native/cuda/IndexKernel.cu:91: operator(): block: [5,0,0], thread: [63,0,0] Assertion `index = -sizes[i] index sizes[i] “index out of bounds”` failed. 通过提示信息可以知道是个数组越界的问题。但是如图一中第二行

2024年01月21日
浏览(40)
出现错误（已解决）RuntimeError: CUDA error: no kernel image is available for execution on the device CUDA ker

为什么把警告po出来，是因为警告可以让我们了解一些有用信息。首先警告里的内容不可忽略，翻译过来就是NVIDIA RTX GeForce 3060Ti（我使用的服务器）支持的CUDA的算力为8.6，与当前的pytorch的版本不匹配。说白了就是CUDA和pytorch版本不一致。当前的pytorch版本支持的CUDA的算力为

2024年02月10日
浏览(52)
解决RuntimeError: CUDA error: no kernel image is available for execution on the deviceCUDA

解决RuntimeError: CUDA error: no kernel image is available for execution on the deviceCUDA kernel errors might be asynchronously reported at some other API call,so the stacktrace below might be incorrect. 在服务器复现代码的时候，遇到了上述错误，解决办法如下。 .bashrc文件在服务器上初始页面的配置文件的地方参考：

2024年02月16日
浏览(51)
【Error】CUDA error: unknown error

依然是在 wsl2 下的 ubuntu20.04 上运行 YOLOv8 出现了以下错误网上搜索的，得到的结果可能是说 torch、torchvision、cuda版本不对应导致，并采用下列方式解决但实际上有可能是无法解决的，至少对于我来说是这样的 😅 🚩 导致此问题的原因可能是指定的GPU的显存不足，需要将

2024年02月12日
浏览(127)
[已解决]RuntimeError: CUDA error: no kernel image is available for execution on the device

在ubuntu服务器上用python炼丹的时候遇到的两个问题，一个warning和一个runtimeErro，我的环境是用conda配置的，我就切换了一下环境，然后切回来就报这两个错误，期间啥也没干，之前重新安装opencv疯狂报错也是这种样子的。 warning warning：NVIDIA GeForce RTX 3090 with CUDA capability sm_86

2024年02月02日
浏览(70)
解决Cmake编译 OPENCV_DNN_CUDA 报错： CMake Error at modules/dnn/CMakeLists.txt:39.

首先，在camke编译过程中，不仅仅需要看报错的error部分，往上滑动会看见一行信息：如果你没有装Cudnn，那么装上Cudnn再试试。注意，安装版本最低是7.5！如果你装了7.5及以上版本还是会报错和有上面这行信息，请注意，这可能是在Cudnn 8版本以后的问题！原因是cudnn 8的版本

2024年02月16日
浏览(48)
RuntimeError:CUDA error:no kernel image is available for execution on the device报错解决(亲测)

调试Transformer网络，安装完timm包之后，运行程序时报错 CUDA error:no kernel image is available for execution on the device ，如图所示：网上对于该错误说啥的都有，因为这是第一次遇到这个错误，之前训练CNN也正常，排除显卡算力低，不支持高版本CUDA问题。看来看去，这位博主说的有道

2024年02月11日
浏览(50)