LLaMA：Open and Efficient Foundation Language Models

这篇具有很好参考价值的文章主要介绍了LLaMA：Open and Efficient Foundation Language Models。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

Introduction

在大规模数据下训练的大模型，已经展示了很好的表现，当模型足够大的时，模型会出现一个涌现的能力，如下图：

LLaMA：Open and Efficient Foundation Language Models
最近的一项研究表明，在有限的算力下，表现最好的模型不是参数最大的，而是小一点模型搭配了更多数据。

这项工作的重点是训练一系列语言模型，通过对比通常使用的更多的token进行训练，在各种推理预算下达到最佳性能。由此产生的模型被称为LLaMA，参数范围从7B到65B，与现有的最好的LLM相比，性能具有竞争力。

方法主要受到了 Chinchilla的启发，采用了大量的数据和标准的优化器。

训练数据集是多个来源的混合，如表 1 所示，涵盖了不同的领域。
在大多数情况下，我们重复使用已用于训练其他 LLM 的数据源，但仅限于使用公开可用且与开源兼容的数据。
LLaMA：Open and Efficient Foundation Language Models

模型使用 AdamW 优化器（Loshchilov 和 Hutter，2017）进行训练，具有以下超参数：β1 = 0.9，β2 = 0.95。

使用余弦学习率计划，使最终学习率等于最大学习率的 10%。

使用 0.1 的权重衰减和 1.0 的梯度裁剪。我们使用 2, 000 个预热步骤，并根据模型的大小改变学习率和批量大小（详见表 2）。

LLaMA：Open and Efficient Foundation Language Models 文章来源地址https://www.toymoban.com/news/detail-486770.html

到了这里，关于LLaMA：Open and Efficient Foundation Language Models的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！