torch.distributed.elastic.multiprocessing.api: [WARNING] Sending process 141——YOLOv8双卡训练报错的解决方法

这篇具有很好参考价值的文章主要介绍了torch.distributed.elastic.multiprocessing.api: [WARNING] Sending process 141——YOLOv8双卡训练报错的解决方法。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

Ultralytics开源的YOLOv8训练模型的时候——使用如下命令,双GPU部署训练

yolo train data=D:/YOLO_V8/ultralytics-main/ultralytics-main/ultralytics/cfg/datasets/mydata.yaml model=yolov8n.pt epochs=650 imgsz=640 batch=256 workers=0 patience=200 device=0,1

抛出异常

torch.distributed.elastic.multiprocessing.api: [WARNING] Sending process 141
ERROR:torch.distributed.elastic.multiprocessing.api:failed (exitcode: -7) local_rank: 0 (pid: 340) of binary: /root/miniconda3/envs/llama/bin/python
torch.distributed.elastic.multiprocessing.errors.ChildFailedError
subprocess.CalledProcessError: Command '['D:\\Anaconda\\envs\\YOLO8\\python.exe', '-m', 'torch.distributed.run', '--nproc_per_node', '2', '--master_port', '58127', 'C:\\Users\\amax\\AppData\\Roaming\\Ultralytics\\DDP\\_temp_8gd8 22v32514268826352.py']' returned non-zero exit status 1.

而使用SingleGPU则不会抛出异常

 yolo train data=D:/YOLO_V8/ultralytics-main/ultralytics-main/ultralytics/cfg/datasets/mydata.yaml model=yolov8n.pt epochs=650 imgsz=640 batch=256 workers=0 patience=200 device=0

这是由于上一次双卡训练直接在pycharm的terminal里面直接Ctrl+C按下去,然后终止了训练,这样可能导致了进程没有完全杀死,没有释放该进程。需要重启电脑。

还有一种解决方法就是,去跑另外的一份python训练AI模型的程序,同样使用同一款pycharm或者vscode训练,然后关闭terminal杀死另一个不相干的训练进程。然后再次打开本训练,有概率就可以继续双卡Multi GPU Training了 

如若重启电脑也不行的话,就考虑环境的问题(需要匹配cuda与torch的版本一一对应上才可以)这个目前没有更好的解决方案,后续再发生这样的报错,找到了更好的解决方案,会再试一下文章来源地址https://www.toymoban.com/news/detail-761500.html

到了这里,关于torch.distributed.elastic.multiprocessing.api: [WARNING] Sending process 141——YOLOv8双卡训练报错的解决方法的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Java gateway process exited before sending its port number

    代码: 问题: 解决问题:两种方式解决 1:指定下java的环境,添加代码 这里指定一下Java的bin目录所在路径,读者根据个人安装目录修改,完美解决!   2:          在下面添加这三行即可 按这三部配置好了 就可以正常运行了    两个步骤自己选择即可

    2024年02月12日
    浏览(63)
  • (已解决)RuntimeError: Java gateway process exited before sending its port number

    今天用Pycharm远程使用pysaprk解释器时,跑代码出现了这个错误: RuntimeError: Java gateway process exited before sending its port number 找了好多博客都没解决问题,有说重装spark的,有说本地配Java_home的,后面我自己发现是linux上有个文件忘记配了 如图:在根目录 打开.barshc 然后在文件的最

    2024年02月16日
    浏览(28)
  • 【已解决】RuntimeError Java gateway process exited before sending its port number

    🎯方法一 在代码前加入如下代码(如图): import os os.environ[‘JAVA_HOME’] = “/usr/local/jdk1.8.0_221” # 记得把地址改成自己的 🎯方法二 目光锁定pycharm标题栏(最上方),找到Run—— Edit Configurations——Environment variables 按图中所示,添加jdk路径(不用添加其他的路径了,一个就

    2024年02月07日
    浏览(31)
  • 在pycharm中使用PySpark 出现Java gateway process exited before sending its port number.

    # 原因是没有下载Java(jdk) 程序出现下面错误: 解决办法: 1、 2、 3、先点击“+”  ,添加这一行,点击确定即可。再次之前先判断你电脑上没有jdk,有的话,直接添加,也可以手动添加。如果没有,则下载jdk,第五步,告诉你如何下载。 4、首先判断电脑上是否有jdk;   在

    2024年04月09日
    浏览(36)
  • 解决忽略无效分布的警告WARNING: Ignoring invalid distribution

    忽略无效分布的警告 WARNING: Ignoring invalid distribution -rotobuf (c:userslaptopanaconda3libsite-packages) WARNING: Ignoring invalid distribution -ip path to package 为什么Python出现忽略无效分布的警告? 这种情况一般发生在你尝试pip安装包时,你的终端可能会出现类似于此的错误。这是因为当pip更新或

    2024年02月15日
    浏览(28)
  • Python搭建PySpark执行环境入口时出现RuntimeError: Java gateway process exited before sending its port number解决办法

    (3条消息) pyspark Exception: Java gateway process exited before sending its port number(2021年10月29日版)_明天,今天,此时的博客-CSDN博客 (3条消息) 测试pyspark时,解决Java gateway process exited的问题_コキリ的博客-CSDN博客 python - Pyspark: Exception: Java gateway process exited before sending the driver its port numbe

    2024年02月11日
    浏览(28)
  • 【深度学习】多卡训练__单机多GPU方法详解(torch.nn.DataParallel、torch.distributed)

    多GPU训练能够加快模型的训练速度,而且在单卡上不能训练的模型可以使用多个小卡达到训练的目的。 多GPU训练可以分为单机多卡和多机多卡这两种,后面一种也就是分布式训练——训练方式比较麻烦,而且要关注的性能问题也有很多,据网上的资料有人建议能单机训练最好

    2024年02月02日
    浏览(25)
  • pytorch 进行分布式调试debug torch.distributed.launch 三种方式

    一. pytorch 分布式调试debug torch.distributed.launch 三种方式 1. 方式1:ipdb调试(建议) 参考之前的博客:python调试器 ipdb 注意:pytorch 分布式调试只能使用侵入式调试,也即是在你需要打断点的地方(或者在主程序的第一行)添加下面的代码: 当进入pdb调试后,跟原先使用pdb调试

    2024年02月07日
    浏览(25)
  • No matching distribution found for torch==1.10.1+cu111

    30系显卡暂时不支持CUDA11以下版本,CUDA不支持当前显卡的算力。 解决方法1:https://blog.csdn.net/weixin_43760844/article/details/115706289 解决方法2:conda下载cudatoolkit (貌似没有解决问题, 嘿嘿, 可能只能卸载cuda了) 首先搜索安装包的版本 然后安装固定版本的cudatoolkit,我的cuda最高

    2024年02月07日
    浏览(32)
  • pycharm 远程连接服务器并且debug, 支持torch.distributed.launch debug

    未经允许,本文不得转载,vx:837007389 https://www.jetbrains.com/pycharm/download/other.html 首先,你需要有个专业版本的pycharm。什么ji huo 码可以私我,或者样例可以看这里链接。 https://www.cnblogs.com/yanghailin/p/17577621.html 略 我现在代码在远程服务器上。所以需要把远程服务器代码和我本地

    2024年02月14日
    浏览(33)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包