大模型之一：大语言模型预训练的过程-Toy模板网

这篇具有很好参考价值的文章主要介绍了大模型之一：大语言模型预训练的过程。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

介绍

大语言模型的一般训练过程（3步）：1、预训练学知识，2、指令微调学格式，3、强化学习对齐人类偏好

预训练

所以要想大模型有领域知识，得增量预训练（靠指令微调记知识不靠谱，不是几十w条数据能做到的）

1. 准备工作

准备基座模型->收集数据->数据清洗

2. 增量预训练所用训练框架

超大规模训练：选用 3D 并行，Megatron-Deepspeed拥有多个成功案例
少量节点训练：选用张量并行，但张量并行只有在 nvlink 环境下才会起正向作用，但提升也不会太明显。
少量卡训练：如果资源特别少，显存怎么也不够，可以使用 LoRA 进行增量预训练。

3. 增量预训练

先用大规模通用语料预训练，再用小规模领域语料二次训练
直接进行大规模领域语料预训练
通用语料比例混合领域语料同时训练

4. 流程

数据预处理：参考 LLaMA 的预训练长度，也把数据处理成2048长度（如果不够，做补全）。
分词器：如果使用 LLaMA 可能需要添加中文词表，目前有不少人做了相关工作，当然也可以自己添加自己需要的词表。
原始模型：各家框架的模型层名不太一样，训练时可能需要做一些调整，在预训练时尽量选择基座模型，不选 Chat 模型。
训练模型：跑通只是第一步，根据训练情况反复调整比较重要。
模型转换：不同框架的checkpoint格式不同，还会根据并行度分成很多个文件。
模型测试：简单测试下续写能力，验证下模型是否正常。文章来源地址https://www.toymoban.com/news/detail-854484.html

到了这里，关于大模型之一：大语言模型预训练的过程的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！