遇到问题
运行项目:ACL2021的一篇工作,LM-BFF (Better Few-shot Fine-tuning of Language Models) https://github.com/princeton-nlp/LM-BFF 遇到环境问题。
我的机器环境如下:
服务器上CUDA版本为11.4
GPU:4 x 24G 3090
虚拟环境用的python=3.6
安装的pytorch的版本1.6.0(原项目中使用的版本,会报错)
产生如下报错
NCCL Error 1: unhandled cuda error
/home/lishizheng/anaconda3/envs/lmbff/lib/python3.6/site-packages/transformers/trainer.py:1096: FutureWarning: This method is deprecated, use `Trainer.is_local_process_zero()` instead.
warnings.warn("This method is deprecated, use `Trainer.is_local_process_zero()` instead.", FutureWarning)
Epoch: 0%| | 0/250 [00:00<?, ?it/s]terminate called after throwing an instance of 'std::runtime_error'
what(): NCCL Error 1: unhandled cuda error
Aborted (core dumped)
解决方法
这是pytorch 、cudatoolkit、cuda驱动的版本不一致导致的问题。
我的cuda版本是11.4,根据 CUDA版本11.4,pytorch应该下哪个版本的?,安装cudatoolkit为11.3,pytorch=1.10.2可用:
conda install pytorch torchvision torchaudio cudatoolkit=11.3 -c pytorch
这样解决我的问题,代码可正常运行。文章来源:https://www.toymoban.com/news/detail-683562.html
参考
[1] https://pytorch.org/get-started/previous-versions/文章来源地址https://www.toymoban.com/news/detail-683562.html
到了这里,关于what(): NCCL Error 1: unhandled cuda error解决方法的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!