what(): NCCL Error 1: unhandled cuda error解决方法

这篇具有很好参考价值的文章主要介绍了what(): NCCL Error 1: unhandled cuda error解决方法。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

遇到问题

运行项目:ACL2021的一篇工作,LM-BFF (Better Few-shot Fine-tuning of Language Models) https://github.com/princeton-nlp/LM-BFF 遇到环境问题。
我的机器环境如下:

服务器上CUDA版本为11.4
GPU:4 x 24G 3090
虚拟环境用的python=3.6 
安装的pytorch的版本1.6.0(原项目中使用的版本,会报错)

产生如下报错

NCCL Error 1: unhandled cuda error

/home/lishizheng/anaconda3/envs/lmbff/lib/python3.6/site-packages/transformers/trainer.py:1096: FutureWarning: This method is deprecated, use `Trainer.is_local_process_zero()` instead.
  warnings.warn("This method is deprecated, use `Trainer.is_local_process_zero()` instead.", FutureWarning)
Epoch:   0%|                                                                                                                              | 0/250 [00:00<?, ?it/s]terminate called after throwing an instance of 'std::runtime_error'
  what():  NCCL Error 1: unhandled cuda error
Aborted (core dumped)

解决方法

这是pytorch 、cudatoolkit、cuda驱动的版本不一致导致的问题。
what(): NCCL Error 1: unhandled cuda error解决方法,Deep Learning,pytorch,cuda

我的cuda版本是11.4,根据 CUDA版本11.4,pytorch应该下哪个版本的?,安装cudatoolkit为11.3,pytorch=1.10.2可用:

conda install pytorch torchvision torchaudio cudatoolkit=11.3 -c pytorch

这样解决我的问题,代码可正常运行。

参考

[1] https://pytorch.org/get-started/previous-versions/文章来源地址https://www.toymoban.com/news/detail-683562.html

到了这里,关于what(): NCCL Error 1: unhandled cuda error解决方法的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 解决:RuntimeError: CUDA error: device-side assert triggered

    @[TOC]解决办法:RuntimeError: CUDA error: device-side assert triggered CUDA kernel errors might be asynchronously reported at some other API call,so the stacktrace below might be incorrect. For debugging consider passing CUDA_LAUNCH_BLOCKING=1. RuntimeError: CUDA error: device-side assert triggered CUDA kernel errors might be asynchronously reported at

    2024年02月12日
    浏览(37)
  • videoPlayer视频报错:First video frame not zero... WindowsVideoMedia error unhandled Color Standard...

    1、报错信息:First video frame not zero: 2 (0.066667s). Result may be out of sync. Please make sure tracks all start at 0 in 2、报错原因( from ChatGPT4 ): 3、修复过程 重新设置视频的导入格式 Unity 2021.3.18:【Project】-【选中视频文件】-【Inspctor】-【Codec】 设置为 H264 WindowsVideoMedia error unhandled Colo

    2024年02月03日
    浏览(40)
  • vue ui启动报错:node:event:491 throw er; // Unhandled ‘error‘ event……errno: -4058

    错误 :使用vue ui启动时报错,无法启动vue cli脚手架 原因 :笔者使用的vue-cli@4.*版本,版本过低 试用方案 : 使用 netstat -aon|findstr \\\"8080\\\" 查找端口号占用,但发现并没有占用。 发现缺失文件后,找到path所指定的位置,在里面新建locales文件,也没成功 使用 npm install -g @vue/cli

    2024年02月11日
    浏览(43)
  • 【RuntimeError: CUDA error: device-side assert triggered】问题与解决

    当我在调试模型的时候,出现了如下的问题 /opt/conda/conda-bld/pytorch_1656352465323/work/aten/src/ATen/native/cuda/IndexKernel.cu:91: operator(): block: [5,0,0], thread: [63,0,0] Assertion `index = -sizes[i] index sizes[i] “index out of bounds”` failed. 通过提示信息可以知道是个数组越界的问题。但是如图一中第二行

    2024年01月21日
    浏览(40)
  • 出现错误(已解决)RuntimeError: CUDA error: no kernel image is available for execution on the device CUDA ker

    为什么把警告po出来,是因为警告可以让我们了解一些有用信息。 首先警告里的内容不可忽略,翻译过来就是NVIDIA RTX GeForce 3060Ti(我使用的服务器)支持的CUDA的算力为8.6,与当前的pytorch的版本不匹配。说白了就是CUDA和pytorch版本不一致。 当前的pytorch版本支持的CUDA的算力为

    2024年02月10日
    浏览(52)
  • 解决RuntimeError: CUDA error: no kernel image is available for execution on the deviceCUDA

    解决RuntimeError: CUDA error: no kernel image is available for execution on the deviceCUDA kernel errors might be asynchronously reported at some other API call,so the stacktrace below might be incorrect. 在服务器复现代码的时候,遇到了上述错误,解决办法如下。 .bashrc文件在服务器上初始页面的配置文件的地方 参考:

    2024年02月16日
    浏览(51)
  • 【Error】CUDA error: unknown error

    依然是在 wsl2 下的 ubuntu20.04 上运行 YOLOv8 出现了以下错误 网上搜索的,得到的结果可能是说 torch、torchvision、cuda版本不对应导致,并采用下列方式解决 但实际上有可能是无法解决的 ,至少对于我来说是这样的 😅 🚩 导致此问题的原因可能是 指定的GPU的显存不足 ,需要将

    2024年02月12日
    浏览(127)
  • [已解决]RuntimeError: CUDA error: no kernel image is available for execution on the device

    在ubuntu服务器上用python炼丹的时候遇到的两个问题,一个warning和一个runtimeErro,我的环境是用conda配置的,我就切换了一下环境,然后切回来就报这两个错误,期间啥也没干,之前重新安装opencv疯狂报错也是这种样子的。 warning warning:NVIDIA GeForce RTX 3090 with CUDA capability sm_86

    2024年02月02日
    浏览(70)
  • 解决Cmake编译 OPENCV_DNN_CUDA 报错: CMake Error at modules/dnn/CMakeLists.txt:39.

    首先,在camke编译过程中,不仅仅需要看报错的error部分,往上滑动会看见一行信息: 如果你没有装Cudnn,那么装上Cudnn再试试。注意,安装版本最低是7.5! 如果你装了7.5及以上版本还是会报错和有上面这行信息,请注意,这可能是在Cudnn 8版本以后的问题! 原因是cudnn 8的版本

    2024年02月16日
    浏览(48)
  • RuntimeError:CUDA error:no kernel image is available for execution on the device报错解决(亲测)

    调试Transformer网络,安装完timm包之后,运行程序时报错 CUDA error:no kernel image is available for execution on the device ,如图所示: 网上对于该错误说啥的都有,因为这是第一次遇到这个错误,之前训练CNN也正常,排除显卡算力低,不支持高版本CUDA问题。看来看去,这位博主说的有道

    2024年02月11日
    浏览(50)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包