deepspeed训练报错torch.distributed.elastic.multiprocessing.errors.ChildFailedError

10月前作者：qq_29707567 分类：Toy博客阅读(40) 违法举报

这篇具有很好参考价值的文章主要介绍了deepspeed训练报错torch.distributed.elastic.multiprocessing.errors.ChildFailedError。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

测试场景：使用deepspeed框架训练gpt模型

问题：

报错torch.distributed.elastic.multiprocessing.errors.ChildFailedError

具体见截图：

deepspeed训练报错torch.distributed.elastic.multiprocessing.errors.ChildFailedError,笔记,ai

解决办法：

含义：表明在运行 train.py 脚本时，传递了一个未被识别的参数 --local-rank=1

这里我在train.py脚本文件中果然没有找到–local-rank参数，在很多的parser.add_argument后添加一行parser.add_argument(“–local-rank”, type=int)，注意在最后添加而不是刚开始，如果刚开始添加会导致传入参数不匹配而报错。

添加的代码参考：
deepspeed训练报错torch.distributed.elastic.multiprocessing.errors.ChildFailedError,笔记,ai

参考文章：

干些这位网友热心分享：unrecognized arguments: --local-rank=1报错解决_幸运的悦子的博客-CSDN博客文章来源地址https://www.toymoban.com/news/detail-709712.html

到了这里，关于deepspeed训练报错torch.distributed.elastic.multiprocessing.errors.ChildFailedError的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请点击违法举报进行投诉反馈，一经查实，立即删除！

分享到：

领支付宝红包赞助服务器费用

【深度学习】多卡训练__单机多GPU方法详解（torch.nn.DataParallel、torch.distributed）

多GPU训练能够加快模型的训练速度，而且在单卡上不能训练的模型可以使用多个小卡达到训练的目的。多GPU训练可以分为单机多卡和多机多卡这两种，后面一种也就是分布式训练——训练方式比较麻烦，而且要关注的性能问题也有很多，据网上的资料有人建议能单机训练最好

2024年02月02日
浏览(36)
解决ValueError: Error initializing torch.distributed using env:// rendezvous:: environment variable 报错

在命令行运行程序时候可成功跑通，但在程序调试过程中出现如下错误：源代码：修改后： import torch.distributed as dist import os os.environ[\\\'MASTER_ADDR\\\'] = \\\'localhost\\\' os.environ[\\\'MASTER_PORT\\\'] = \\\'5678\\\' dist.init_process_group(backend=\\\'nccl\\\', init_method=\\\'env://\\\', rank = 0, world_size = 1)

2024年02月11日
浏览(278)
DeepSpeed：大模型训练框架

目前，大模型的发展已经非常火热，关于大模型的训练、微调也是各个公司重点关注方向。但是大模型训练的痛点是模型参数过大，动辄上百亿，如果单靠单个GPU来完成训练基本不可能。所以需要多卡或者分布式训练来完成这项工作。 1.1 目前主流的大模型分布式训练主要包

2024年02月08日
浏览(33)
基于DeepSpeed训练ChatGPT

最近微软发布了一个基于DeepSpeed的训练优化框架来完成ChatGPT类模型的训练，博主对其进行了研究并通过此博文分享相关技术细节。 1、开源仓库：DeepSpeed-Chat 2、配置要求： ● cuda：11.0以上 ● torch：1.12.1+cu113 ● deepspeed：0.9.0 ● transformers：4.29.0.dev0 3、开源语料（Hugging

2023年04月22日
浏览(55)
分布式并行训练（DP、DDP、DeepSpeed）

[pytorch distributed] 01 nn.DataParallel 数据并行初步数据并行 vs. 模型并行数据并行：模型拷贝（per device），数据 split/chunk（对batch切分）每个device上都拷贝一份完整模型，每个device分别处理1个batch的一部分(如batch_size=64, 2个device, 每device处理32个样本) 梯度反向传播时，每个设备上

2024年02月07日
浏览(49)
rwkv模型lora微调之accelerate和deepspeed训练加速

目录一、rwkv模型简介二、lora原理简介三、rwkv-lora微调 1、数据整理 2、环境搭建 a、Dockerfile编写 b、制造镜像 c、容器启动 3、训练代码修改四、模型推理 1、模型推理 2、lora权重合并 3、推理web服务五、总结由于业务采用的ChatGLM模型推理成本太大了，

2024年02月06日
浏览(49)
No matching distribution found for torch==1.10.1+cu111

30系显卡暂时不支持CUDA11以下版本，CUDA不支持当前显卡的算力。解决方法1：https://blog.csdn.net/weixin_43760844/article/details/115706289 解决方法2：conda下载cudatoolkit （貌似没有解决问题，嘿嘿，可能只能卸载cuda了）首先搜索安装包的版本然后安装固定版本的cudatoolkit，我的cuda最高

2024年02月07日
浏览(43)
pytorch 进行分布式调试debug torch.distributed.launch 三种方式

一. pytorch 分布式调试debug torch.distributed.launch 三种方式 1. 方式1：ipdb调试（建议）参考之前的博客：python调试器 ipdb 注意：pytorch 分布式调试只能使用侵入式调试，也即是在你需要打断点的地方（或者在主程序的第一行）添加下面的代码：当进入pdb调试后，跟原先使用pdb调试

2024年02月07日
浏览(33)
pycharm 远程连接服务器并且debug, 支持torch.distributed.launch debug

未经允许，本文不得转载，vx：837007389 https://www.jetbrains.com/pycharm/download/other.html 首先，你需要有个专业版本的pycharm。什么ji huo 码可以私我，或者样例可以看这里链接。 https://www.cnblogs.com/yanghailin/p/17577621.html 略我现在代码在远程服务器上。所以需要把远程服务器代码和我本地

2024年02月14日
浏览(40)
阿里云AIGC- 使用Megatron-Deepspeed训练GPT-2并生成文本

本文介绍如何使用GPU云服务器，使用 Megatron-Deepspeed框架训练GPT-2模型并生成文本。 GPT-2模型是OpenAI于 2018年在GPT模型的基础上发布的新的无监督NLP模型，当时被称为“史上最强通用NLP模型”。该模型可以生成连贯的文本段落，并且能在未经预训练的情况下，完成阅读理解

2024年02月09日
浏览(50)