聊聊大模型微调训练全流程的思考

1年前作者：又见阿郎分类：Toy博客阅读(7)违法举报

这篇具有很好参考价值的文章主要介绍了聊聊大模型微调训练全流程的思考。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

转载请注明出处：https://www.cnblogs.com/zhiyong-ITNote

参考现有的中文医疗模型：MedicalGPT、CareGPT等领域模型的训练流程，结合ChatGPT的训练流程，总结如下：
在预训练阶段，模型会从大量无标注文本数据集中学习领域/通用知识；其次使用{有监督微调}(SFT)优化模型以更好地遵守特定指令；最后使用对齐技术使LLM更有用更安全的响应用户的提示。

训练流程的四个阶段，分别如下：

预训练(pre-training，pt)，基于基座模型，经过海量中文医疗预料训练，得到领域适配的ChatGLM-6B。
监督微调(supervised finetuning，sft)，通过在线问诊等数据，构建训练数据完成指令微调。
RM模型构建(reward modeling, rm)，人工对预测答案排序，训练一个打分模型
强化学习阶段(reinforcement learning, rl)，基于PPO算法，采用RL的方式，完成fine-tuned ChatGLM-6B模型的优化。

预训练阶段-PT

该阶段的训练数据格式如下。对应是非结构化的自然语言文本，通过设定max_seq_len和block_size等方式，实现文本数据的chunk，batch化，作为模型的训练数据，处理完的单条数据包含input_ids,attention_mask和labels；训练的目标是模型需要根据提供的文本来预测下一个单词。

监督微调阶段-SFT

该阶段的训练数据格式如下。一般对应的结构采用instruction/input/output/history，根据不同的场景，input与history可以做缺省处理。但是需要人工标注的指令数据集。

对齐

该阶段的主要目标是将语言模型喻人类的偏好、价值观进行对齐，这也是RHLF机制的作用。
RLHF主要包括两步：

基于有监督微调模型基础上创建一个reward model（RM）模型；
基于RM模型使用PPO/DPO算法微调SFT模型，返回最佳response。

奖励模型-RM

该阶段是RHLF的第一个阶段，训练得到一个rm模型用于rl阶段的模型打分，其结构格式如下：

有多种格式的数据，可自己选择，但需要程序做额外的处理，且这些数据都是人工标注好的。

强化学习-RL

该阶段是RHLF的第二个阶段，也是核心部分，用于优化一个RM模型，并完成打分。数据格式同SFT。一般在此阶段会使用特定的算法(DPO/PPO)来实现；引导优化后的大模型生成更符合人类偏好的内容。

总结

对于模型的微调，一开始我是想的太简单了，觉得只要按照基座官方模型文档调试即可；随着了解的深入与不断的学习，微调是个大工程而且对于领域模型来说，其训练流程：预训练 --> 监督微调 --> RHLF 中包含的事项与知识太多。
参考：【中文医疗大模型】训练全流程源码剖析

转载请注明出处：https://www.cnblogs.com/zhiyong-ITNote

首发于个人公众号
聊聊大模型微调训练全流程的思考文章来源地址https://www.toymoban.com/news/detail-841215.html

到了这里，关于聊聊大模型微调训练全流程的思考的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请点击违法举报进行投诉反馈，一经查实，立即删除！

分享到：

领支付宝红包赞助服务器费用

聊聊心理医疗领域大模型的落地思考
转载请注明出处：https://www.cnblogs.com/zhiyong-ITNote 近来，工作偏向于心理医疗领域方面的大模型，仅从领域大模型的落地，聊聊个人的一些思考。准备好花钱买GPU。首先需要审视斟酌业务领域的特殊性与可行性，我们要做的是心理领域，而心理领域倾向于医患对话，即询问链
2024年03月21日
浏览(11)
微调预训练的 NLP 模型
动动发财的小手，点个赞吧！针对任何领域微调预训练 NLP 模型的分步指南在当今世界，预训练 NLP 模型的可用性极大地简化了使用深度学习技术对文本数据的解释。然而，虽然这些模型在一般任务中表现出色，但它们往往缺乏对特定领域的适应性。本综合指南 [1] 旨在引导
2024年02月13日
浏览(10)
LORA大模型加速微调和训练算法
ChatGPT带领着大模型像雨后春笋一般层出不穷，大家都对大模型微调跃跃欲试，现在咱们聊聊其中的常见的算法 1 LORA 低秩适应理论 Lora( Low-Rank Adaotation)，低秩自适应模型微调的方法，它冻结预训练模型的权重，并将可训练的秩分解矩阵注入到transformer架构的每一层，从而大大
2024年02月05日
浏览(9)
LLMs：ColossalChat相关的开源训练数据集简介(SFT指令微调数据集+奖励模型排序数据集+RLHF数据集)、RLHF算法实现的三个阶段(监督指令微调→训练奖励模型→RLHF训练模型→
LLMs：ColossalChat相关的开源训练数据集简介(SFT指令微调数据集+奖励模型排序数据集+RLHF数据集)、RLHF算法实现的三个阶段(监督指令微调→训练奖励模型→RLHF训练模型→推理量化和服务) 目录 ColossalChat的使用方法 1、ColossalChat相关的开源训练数据集 (1)、SFT指令微调数据集
2024年02月14日
浏览(10)
pytorch cv自带预训练模型再微调
参考： https://pytorch.org/vision/0.16/models.html ##我这里安装的这个版本 https://zhuanlan.zhihu.com/p/436574436 https://blog.csdn.net/u014297502/article/details/125884141 除了分类算法，torchvision还有检测、分割等预训练模型提供： torchvision.models.detection torchvision.models.segmentation 另外一半使用迁移预训练模
2024年02月16日
浏览(8)
NeMo中文/英文ASR模型微调训练实践
1.安装nemo pip install -U nemo_toolkit[all] ASR-metrics 2.下载ASR预训练模型到本地（建议使用huggleface,比nvidia官网快很多） 3.从本地创建ASR模型 asr_model = nemo_asr.models.EncDecCTCModel.restore_from(\\\"stt_zh_quartznet15x5.nemo\\\") 3.定义train_mainfest，包含语音文件路径、时长和语音文本的json文件 4.读取模型的
2024年02月13日
浏览(12)
训练自己的Llama 2！大模型微调技术介绍
趋动云趋动云是面向 AI 算法工程师的开发平台，为工程师提供模型开发、模型训练、数据和代码管理等功能。近期有不少粉丝问算力君，趋动云是否支持大模型的训练？当然支持！最近大火的Llama 2一出来，算力君身边的小伙伴就已经跑过了，本文将介绍Llama 2和相关的大模
2024年02月12日
浏览(9)
训练自己的ChatGPT-OpenAI 微调模型
OpenAI终于下定决心——正式开放ChatGPT API！ ChatGPT API地址：https://platform.openai.com/docs/guides/chat gpt-3.5-turbo的新模型 OpenAI正式打开了官方的ChatGPT API，为广大开发者打开了新的大门。官方文档地址：OpenAI API 对于ChatGPT的表现，大家都已经感受到他的惊艳了，在试用之余，我们想该
2024年02月06日
浏览(8)
阿里首提前向训练框架：让大模型深度思考，可快速定制专属模型
大语言模型（LLM）是当前自然语言处理领域最核心的技术，以 GPT-4 为代表的大语言模型展现出了类人的学习能力。其中，情境学习（In-context Learning）是大语言模型最神秘的能力之一。如下图所示，在这种情境学习的范式下，大模型无需更新任何参数，仅依赖几个示例样本（demonstrations）就可以学习新任务，执行新样本的预测。
2024年02月11日
浏览(10)
基于中文金融知识的 LLaMA 系微调模型的智能问答系统：LLaMA大模型训练微调推理等详细教学
项目设计集合（人工智能方向）：助力新人快速实战掌握技能、自主完成项目设计升级，提升自身的硬实力（不仅限NLP、知识图谱、计算机视觉等领域）：汇总有意义的项目设计集合，助力新人快速实战掌握技能，助力用户更好利用 CSDN 平台，自主完成项目设计升级，提升自
2024年02月14日
浏览(9)