LLaMA模型微调版本：斯坦福 Alpaca 详解-Toy模板网

这篇具有很好参考价值的文章主要介绍了LLaMA模型微调版本：斯坦福 Alpaca 详解。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

LLaMA模型微调版本：斯坦福 Alpaca 详解,人工智能,深度学习

项目代码：https://github.com/tatsu-lab/stanford_alpaca

博客介绍：https://crfm.stanford.edu/2023/03/13/alpaca.html

Alpaca 是 LLaMA-7B 的微调版本，使用Self-instruct[2]方式借用text-davinct-003构建了52K的数据，同时在其构建策略上做了一些修改。

性能上作者对Alpaca进行了评估，与openai的text-davinct-003模型在self-instruct[2]场景下的性能表现相似。所以比起成本来看，Alpaca更便宜。

text-davinct-003 与 chatGPT 同为 gpt3.5模型之一，比GPT-3模型 curie、babbage、ada 模型更好的质量、更长的输出和一致的指令遵循来完成任何语言任务

整体思路如下图

LLaMA模型微调版本：斯坦福 Alpaca 详解,人工智能,深度学习

Self-instruct是一个利用LLM来生成指令遵循数据来指令微调模型的框架，核心贡献是生成指令遵循数据。

指令数据由指令、输入、输出组成。作者的数据生成piple包含四个步骤：

1）生成任务指令，

2）确定指令是否代表分类任务，方便3区别

3）正常任务使用输入优先方法，分类任务使用输出优先的prompt指令方法生成实例

4）过滤低质量的数据。

LLaMA模型微调版本：斯坦福 Alpaca 详解,人工智能,深度学习

详细的Self-instruct可以看我别的文章。

Alpaca基于self-instruct，

最终的结果是以少于$500的便宜价格获得了52K的数据，下图反映了其数据多样性，内圈是词根是动词的指令，外圈是表示目标的指令。

LLaMA模型微调版本：斯坦福 Alpaca 详解,人工智能,深度学习文章来源地址https://www.toymoban.com/news/detail-575685.html

到了这里，关于LLaMA模型微调版本：斯坦福 Alpaca 详解的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

LLaMA模型微调版本：斯坦福 Alpaca 详解