解决容器内deepspeed微调大模型报错

10月前作者：尘世俗人zZ 分类：Toy博客阅读(27) 违法举报

这篇具有很好参考价值的文章主要介绍了解决容器内deepspeed微调大模型报错。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

问题描述：

在容器中用deepspeed微调百川大模型2时，出现上述错误，错误是由于生成容器时，共享内存没有设置，采用默认值引起的。终端输入ds_report,可以查看shared_memory,（之前是默认63M，现已调整50G）
解决容器内deepspeed微调大模型报错,FQA,容器,自然语言处理,人工智能

解决办法

docker stop 容器名
docker rm 容器名
重新生成容器时加上共享内存参数：–shm-size=1g
例：
docker run -it -d --shm-size=50g --name 容器名–net host --gpus all -v 宿主机路径:容器内路径 -e NVIDIA_DRIVER_CAPABILITIES=compute,utility ubuntu:latest /bin/bash文章来源地址https://www.toymoban.com/news/detail-723961.html

到了这里，关于解决容器内deepspeed微调大模型报错的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请点击违法举报进行投诉反馈，一经查实，立即删除！

分享到：

领支付宝红包赞助服务器费用

自然语言处理实战项目19-基于ALBERT模型进行微调的项目-文本分类中的合同类型描述的分类

大家好，我是微学AI，今天给大家介绍一下自然语言处理实战项目19-基于ALBERT模型进行微调的项目-文本分类中的合同类型描述的分类。本文中，我主要将探讨如何使用预训练的ALBERT模型进行微调，以解决文本分类问题，特别是对合同类型的分类。在ALBERT这个模型中，Google研究

2024年02月07日
浏览(71)
解决deepspeed框架的bug：不保存调度器状态，模型训练重启时学习率从头开始

deepspeed存在一个bug，即在训练时不保存调度器状态，因此如果训练中断后再重新开始训练，调度器还是会从头开始而不是接着上一个checkpoint的调度器状态来训练。这个bug在deepspeed的github中也有其他人提出：https://github.com/microsoft/DeepSpeed/issues/3875 因此我们需要写一个保存调度器

2024年02月09日
浏览(52)
DeepSpeed-Chat 打造类ChatGPT全流程笔记二之监督指令微调

DeepSpeed-Chat 打造类ChatGPT全流程笔记一【DeepSpeed 教程翻译】三，在 DeepSpeed中使用 PyTorch Profiler和Flops Profiler DeepSpeed结合Megatron-LM训练GPT2模型笔记（上）【DeepSpeed 教程翻译】二，Megatron-LM GPT2，Zero 和 ZeRO-Offload 【DeepSpeed 教程翻译】开始，安装细节和CIFAR-10 Tutorial 在 DeepSpeed-C

2024年02月12日
浏览(45)
LLaMA-Factory 8卡4090 deepspeed zero3 微调Qwen14B-chat

环境安装推荐使用docker，Ubuntu20.04 https://www.modelscope.cn/docs/%E7%8E%AF%E5%A2%83%E5%AE%89%E8%A3%85 下载模型在modelscope主页，找到模型 https://modelscope.cn/models/qwen/Qwen-14B-Chat/summary 可以使用如下脚本微调使用LLaMA-Factory，下载下面仓库的代码， https://github.com/hiyouga/LLaMA-Factory 在代码目录，

2024年04月15日
浏览(53)
97. BERT微调、自然语言推理数据集以及代码实现

即使下游任务各有不同，使用BERT微调时只需要增加输出层但根据任务的不同，输入的表示，和使用的BERT特征也会不一样斯坦福自然语言推断语料库（Stanford Natural Language Inference，SNLI）]是由500000多个带标签的英语句子对组成的集合。我们在路径 ../data/snli_1.0 中下载并存储提

2024年02月09日
浏览(41)
DeepSpeed：大模型训练框架

目前，大模型的发展已经非常火热，关于大模型的训练、微调也是各个公司重点关注方向。但是大模型训练的痛点是模型参数过大，动辄上百亿，如果单靠单个GPU来完成训练基本不可能。所以需要多卡或者分布式训练来完成这项工作。 1.1 目前主流的大模型分布式训练主要包

2024年02月08日
浏览(32)
deepspeed训练报错torch.distributed.elastic.multiprocessing.errors.ChildFailedError

测试场景：使用deepspeed框架训练gpt模型问题：报错torch.distributed.elastic.multiprocessing.errors.ChildFailedError 具体见截图：解决办法：含义：表明在运行 train.py 脚本时，传递了一个未被识别的参数 --local-rank=1 这里我在train.py脚本文件中果然没有找到–local-rank参数，在很多的parser

2024年02月08日
浏览(40)
《实战AI模型》——赶上GPT3.5的大模型LLaMA 2可免费商用，内含中文模型推理和微调解决方案

目录准备环境及命令后参数导入：导入模型：准备LoRA：导入datasets：配置

2024年02月16日
浏览(64)
docker容器自动退出重启报错解决办法

为何docker刚启动起来就退出了是因为没有一个可以支撑docker 持久运行下去的命令。退出原因 1、docker容器运行必须有一个前台进程，如果没有前台进程执行，容器认为空闲，就会自行退出 2、容器运行的命令如果不是那些一直挂起的命令（运行top，tail、循环等），就是会

2024年02月16日
浏览(56)
解决：docker创建Redis容器成功，但无法启动Redis容器、也无报错提示

1.修改redis.conf配置文件参数 daemonize 为 no ：由于创建容器实例时，会进行容器数据卷挂载，因此可以直接在外部宿主机里面修改，docker会自动同步该文件到redis容器对应目录里面 2.删除之前创建的redis容器实例 3.复杂使用run命令，再次重新创建redis容器实例。会进行容器数据卷

2024年02月20日
浏览(51)