自驱力超强的羊驼？斯坦福微调LLaMa-Toy模板网

这篇具有很好参考价值的文章主要介绍了自驱力超强的羊驼？斯坦福微调LLaMa。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

自驱力超强的羊驼？斯坦福微调LLaMa

大型“指令调优”语言模型在新任务上展现了Zero-shot的卓越能力，但严重依赖于人类编写的指令数据，而这些数据在数量、多样性和创造性方面都是有限的。

斯坦福科研人员引入了self-instruction框架，提高指令遵循能力来自我迭代进化，与InstructGPT的性能相当，相比原始GPT3提升33%！将大模型与指令对齐再也不用人工标注（annotation-free），最后还发布了他们合成的自生成指令数据集，来促进对指令调优的研究。

自我指示self-instruct

self-instruct是一种任务不可知（task-agnostic）的方法，通过自己生成指令数据(指令、输入和输出样本)并使用它进行引导来提高语言模型的指令遵循能力。

自动指示执行的流程：
自驱力超强的羊驼？斯坦福微调LLaMa

首先准备好一个小的任务种子集(每个任务的一条指令和一个输入-输出实例)作为任务池开始，从任务池中抽取随机任务用于提示语言模型LM（例如GPT3）生成新的指令和实例，再过滤低质量或类似的生成，合格的就添加回任务池。

羊驼Alpaca模型

指令遵循语言模型叫Alpaca羊驼，是在近期Meta开源的LLaMA 7B模型上进行微调的。语料使用的是text-davinci-003生成的52K指令。stanford_alpaca在GitHub开源，地址见文末。

整体流程图：
自驱力超强的羊驼？斯坦福微调LLaMa

训练过程中，使用了完全分片数据并行（Fully Sharded Data Parallel） 和混合精度（mixed precision） 等训练等技术，硬件方面：在8个80GB A100上对7B LLaMA模型进行微调3个小时，成本竟然不到100美元！但效果惊人，与InstructGPT_001的性能相当。