测试场景:使用deepspeed框架训练gpt模型
问题:
报错torch.distributed.elastic.multiprocessing.errors.ChildFailedError
具体见截图:
解决办法:
含义:表明在运行 train.py 脚本时,传递了一个未被识别的参数 --local-rank=1
这里我在train.py脚本文件中果然没有找到–local-rank参数,在很多的parser.add_argument后添加一行parser.add_argument(“–local-rank”, type=int),注意在最后添加而不是刚开始,如果刚开始添加会导致传入参数不匹配而报错。
添加的代码参考:
参考文章:文章来源:https://www.toymoban.com/news/detail-709712.html
干些这位网友热心分享:unrecognized arguments: --local-rank=1报错解决_幸运的悦子的博客-CSDN博客文章来源地址https://www.toymoban.com/news/detail-709712.html
到了这里,关于deepspeed训练报错torch.distributed.elastic.multiprocessing.errors.ChildFailedError的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!