deepspeed训练报错torch.distributed.elastic.multiprocessing.errors.ChildFailedError

这篇具有很好参考价值的文章主要介绍了deepspeed训练报错torch.distributed.elastic.multiprocessing.errors.ChildFailedError。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

测试场景:使用deepspeed框架训练gpt模型

问题:

报错torch.distributed.elastic.multiprocessing.errors.ChildFailedError

具体见截图:

deepspeed训练报错torch.distributed.elastic.multiprocessing.errors.ChildFailedError,笔记,ai

解决办法:

含义:表明在运行 train.py 脚本时,传递了一个未被识别的参数 --local-rank=1

这里我在train.py脚本文件中果然没有找到–local-rank参数,在很多的parser.add_argument后添加一行parser.add_argument(“–local-rank”, type=int),注意在最后添加而不是刚开始,如果刚开始添加会导致传入参数不匹配而报错。

添加的代码参考:
deepspeed训练报错torch.distributed.elastic.multiprocessing.errors.ChildFailedError,笔记,ai

参考文章:

干些这位网友热心分享:unrecognized arguments: --local-rank=1报错解决_幸运的悦子的博客-CSDN博客文章来源地址https://www.toymoban.com/news/detail-709712.html

到了这里,关于deepspeed训练报错torch.distributed.elastic.multiprocessing.errors.ChildFailedError的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【深度学习】多卡训练__单机多GPU方法详解(torch.nn.DataParallel、torch.distributed)

    多GPU训练能够加快模型的训练速度,而且在单卡上不能训练的模型可以使用多个小卡达到训练的目的。 多GPU训练可以分为单机多卡和多机多卡这两种,后面一种也就是分布式训练——训练方式比较麻烦,而且要关注的性能问题也有很多,据网上的资料有人建议能单机训练最好

    2024年02月02日
    浏览(36)
  • 解决ValueError: Error initializing torch.distributed using env:// rendezvous:: environment variable 报错

    在命令行运行程序时候可成功跑通,但在程序调试过程中出现如下错误:  源代码: 修改后:  import torch.distributed as dist import os os.environ[\\\'MASTER_ADDR\\\'] = \\\'localhost\\\' os.environ[\\\'MASTER_PORT\\\'] = \\\'5678\\\' dist.init_process_group(backend=\\\'nccl\\\', init_method=\\\'env://\\\', rank = 0, world_size = 1)

    2024年02月11日
    浏览(278)
  • DeepSpeed: 大模型训练框架

    目前,大模型的发展已经非常火热,关于大模型的训练、微调也是各个公司重点关注方向。但是大模型训练的痛点是模型参数过大,动辄上百亿,如果单靠单个GPU来完成训练基本不可能。所以需要多卡或者分布式训练来完成这项工作。 1.1 目前主流的大模型分布式训练主要包

    2024年02月08日
    浏览(33)
  • 基于DeepSpeed训练ChatGPT

      最近微软发布了一个基于DeepSpeed的训练优化框架来完成ChatGPT类模型的训练,博主对其进行了研究并通过此博文分享相关技术细节。 1、开源仓库 :DeepSpeed-Chat 2、配置要求: ● cuda:11.0以上 ● torch:1.12.1+cu113 ● deepspeed:0.9.0 ● transformers:4.29.0.dev0 3、开源语料(Hugging

    2023年04月22日
    浏览(55)
  • 分布式并行训练(DP、DDP、DeepSpeed)

    [pytorch distributed] 01 nn.DataParallel 数据并行初步 数据并行 vs. 模型并行 数据并行 :模型拷贝(per device),数据 split/chunk(对batch切分) 每个device上都拷贝一份完整模型,每个device分别处理1个batch的一部分(如batch_size=64, 2个device, 每device处理32个样本) 梯度反向传播时,每个设备上

    2024年02月07日
    浏览(49)
  • rwkv模型lora微调之accelerate和deepspeed训练加速

            目录 一、rwkv模型简介 二、lora原理简介 三、rwkv-lora微调 1、数据整理 2、环境搭建 a、Dockerfile编写 b、制造镜像 c、容器启动 3、训练代码修改 四、模型推理 1、模型推理 2、lora权重合并 3、推理web服务 五、总结         由于业务采用的ChatGLM模型推理成本太大了,

    2024年02月06日
    浏览(49)
  • No matching distribution found for torch==1.10.1+cu111

    30系显卡暂时不支持CUDA11以下版本,CUDA不支持当前显卡的算力。 解决方法1:https://blog.csdn.net/weixin_43760844/article/details/115706289 解决方法2:conda下载cudatoolkit (貌似没有解决问题, 嘿嘿, 可能只能卸载cuda了) 首先搜索安装包的版本 然后安装固定版本的cudatoolkit,我的cuda最高

    2024年02月07日
    浏览(43)
  • pytorch 进行分布式调试debug torch.distributed.launch 三种方式

    一. pytorch 分布式调试debug torch.distributed.launch 三种方式 1. 方式1:ipdb调试(建议) 参考之前的博客:python调试器 ipdb 注意:pytorch 分布式调试只能使用侵入式调试,也即是在你需要打断点的地方(或者在主程序的第一行)添加下面的代码: 当进入pdb调试后,跟原先使用pdb调试

    2024年02月07日
    浏览(33)
  • pycharm 远程连接服务器并且debug, 支持torch.distributed.launch debug

    未经允许,本文不得转载,vx:837007389 https://www.jetbrains.com/pycharm/download/other.html 首先,你需要有个专业版本的pycharm。什么ji huo 码可以私我,或者样例可以看这里链接。 https://www.cnblogs.com/yanghailin/p/17577621.html 略 我现在代码在远程服务器上。所以需要把远程服务器代码和我本地

    2024年02月14日
    浏览(40)
  • 阿里云AIGC- 使用Megatron-Deepspeed训练GPT-2并生成文本

    本文介绍如何使用GPU云服务器,使用 Megatron-Deepspeed框架 训练GPT-2模型并生成文本。 GPT-2模型是OpenAI于 2018年在GPT模型 的基础上发布的新的 无监督NLP模型 ,当时被称为“史上最强通用NLP模型”。该模型可以生成 连贯的文本段落 ,并且能在 未经预训练 的情况下,完成阅读理解

    2024年02月09日
    浏览(50)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包