论文笔记--LLaMA: Open and Efficient Foundation Language Models

这篇具有很好参考价值的文章主要介绍了论文笔记--LLaMA: Open and Efficient Foundation Language Models。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

1. 文章简介

  • 标题:LLaMA: Open and Efficient Foundation Language Models
  • 作者:Touvron, Hugo, et al.
  • 日期:2023
  • 期刊:arxiv preprint

2. 文章概括

  文章利用公开数据集训练并发布了一系列大语言模型LLaMA,在多个NLP下游任务中性能超过了GPT-3和PALM等模型。

3 文章重点技术

3.1 数据集

  • English CommonCrawl(67%): 训练集的大部分构成为2017~2020年间的CommonCrawl数据。文章对其进行了行级别的去重->训练fastText分类模型移除非英文页面->用n-gram模型过滤低质量的页面->训练分类模型识别出没有被wiki引用的页面并将其移除
  • C4(4.5%):选择Github上Apache/BSD/MIT license的项目。通过行长度、字母数字的比例过滤掉其中低质量的文件->移除标题、正则表达式等说明->文档级别去重
  • Wikipedia(4.5%):增加2022年7~8月的wiki数据(包含20种语言)。移除超链接、评论和其它板式。
  • Gutenberg和Book3(4.5%):增加两个书籍语料库。在文档级别进行去重,即移除有90%以上内容重叠的文档。
  • ArXiv(2.5%):增加arXiv的latex文档从而使数据集包含科学语料库。移除文档第一节之前的内容和出传记->移除tex文档的评论->移除镜像和定义
  • Stack Exchange(2%):Stack Exchange是一个高质量的问答网站,包含多个领域的问答数据。保留来自28个最大网站的数据->移除HTMLtags->将回答按照评分由高到低排序

3.2 模型训练

  • 分词器:文章采用byte级别的BPE方法进行分词。总计得到1.4T的tokens,每个token在大部分训练任务中都只用一次(1epochs)
  • pre-normalization:参考GPT-3[1],我们采用修正后的Transformer架构,即对每个transformer层的输入进行normalize。另外文章采用RMSNorm进行层正则。相比于Layer Normalization,RMSNorm不减去均值,只正则方差项(可提升速率)
  • 激活函数:文章采用SwiGLU作为输出的激活函数, S w i G R U ( x ) = x ⊗ σ ( h ( x ) ) SwiGRU(x) = x \otimes \sigma(h(x)) SwiGRU(x)=xσ(h(x))
  • 位置编码:文章采用了旋转式位置编码RoPE,具体可参考[2]

4. 数值实验

  文章考虑了zero-shot和few-shot两种任务。相比于GPT-3, Chichilla, PALM, Gopher等大语言模型,LLaMA在两种任务上均表现出了出色的能力。特别地,在绝大多数zero-shot任务中,LLaMA 65B的性能优于PALM 540B:
论文笔记--LLaMA: Open and Efficient Foundation Language Models
  由于LLaMA在部分专业领域数据量较少,模型表现不突出。比如MMLU任务中,PaLM同量级的模型效果和LLaMA几乎持平,PaLM 540B的效果要优于LLaMA。
论文笔记--LLaMA: Open and Efficient Foundation Language Models
  为此,我们可以在部分领域对模型进行指令微调。实验表明,微调后的模型效果LLaMA-I超过其他数据量更大的大语言模型。

5. 文章亮点

  文章给出了一系列大语言模型LLaMA 7B, 13B, 33B, 65B和LLaMA-I,开发者可以在不同的预算的条件下选择合适的模型进行使用。文章仅依赖公开数据集进行训练,且针对特定领域可以通过指令微调来增强模型。

6. 原文传送门

LLaMA: Open and Efficient Foundation Language Models

7. References

[1] 论文笔记–Language Models are Few-Shot Learners
[2] RoPE文章来源地址https://www.toymoban.com/news/detail-488352.html

到了这里,关于论文笔记--LLaMA: Open and Efficient Foundation Language Models的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • LLaMA: Open and Efficient Foundation Language Models

    用最少的计算资源,解决了LLM大模型预测问题,训练了一些列的LLaMa模型,在参数量比较少的情况下,达到业界大模型效果。 主要贡献就是提升了LLM模型的训练速度和效率,在小容量的基础上,大大提升了模型的效果。 同时由于模型结构更小更简单,大大提升了推理速度。

    2024年02月13日
    浏览(42)
  • LLaMA Open and Efficient Foundation Language Models

    来源Meta AI github地址: facebookresearch/ llama 论文:LLaMA: Open and Efficient Foundation Language Models 模型:目前可以在huggingface上直接下载,https://huggingface.co/decapoda-research 包括: LLaMA-7B LLaMA-13B LLaMA-33B LLaMA-65B 一、摘要 我们介绍了LLaMA,这是一组从7B到65B参数范围内的基础语言模型。我们

    2024年02月11日
    浏览(72)
  • LLaMA:Open and Efficient Foundation Language Models

    在大规模数据下训练的大模型,已经展示了很好的表现,当模型足够大的时,模型会出现一个 涌现 的能力,如下图: 最近的一项研究表明,在有限的算力下,表现最好的模型不是参数最大的,而是小一点模型搭配了更多数据。 这项工作的重点是训练一系列语言模型,通过对

    2024年02月09日
    浏览(39)
  • 文献阅读:LLaMA: Open and Efficient Foundation Language Models

    文献阅读:LLaMA: Open and Efficient Foundation Language Models 1. 文章简介 2. 模型训练 1. 训练数据 2. 模型结构 3. 模型训练 1. Optimizer 2. 效率优化 3. 效果评估 1. 经典任务下效果 1. Commen Sense Reasoning 2. Closed-book Question Answering 3. Reading Comprehension 4. Mathematical reasoning 5. Code generation 6. Massive M

    2024年02月09日
    浏览(111)
  • 【LLM系列之LLaMA】LLaMA: Open and Efficient Foundation Language Models

    LLaMA 是 Meta AI 发布的包含 7B、13B、33B 和 65B 四种参数规模的基础语言模型集合,LLaMA-13B 仅以 1/10 规模的参数在多数的 benchmarks 上性能优于 GPT-3(175B),LLaMA-65B 与业内最好的模型 Chinchilla-70B 和 PaLM-540B 比较也具有竞争力。 主要贡献: 开源一系列语言模型,可以与SOTA模型竞争

    2024年02月10日
    浏览(92)
  • 2023-arxiv-LLaMA: Open and Efficient Foundation Language Models

    Paper:https://arxiv.org/abs/2302.13971 Code: https://github.com/facebookresearch/llama 本文介绍了 LLaMA,这是⼀个包含 7B 到 65B 参数的基础语⾔模型的集合。作者在数万亿个令牌上训练模型,并表明可以仅使⽤公开可⽤的数据集来训练最先进的模型。特别是, LLaMA-13B 在⼤多数基准测试中都优于

    2024年02月12日
    浏览(36)
  • AIGC之LLaMA:《LLaMA: Open and Efficient Foundation Language Models》翻译与解读

    LLMs之LLaMA:《LLaMA: Open and Efficient Foundation Language Models》翻译与解读 导读 :该论文提出了一个开源的大规模语言模型LLaMA,2048个A100-80G训练21天。该模型有以下几个核心技术点: 模型架构=Transformer+集合多个算法的优秀技术(RMSNorm+SwiGLU+RoPE+AdamW+xformers库+渐进式学习率) :LLaMA模型

    2024年02月09日
    浏览(61)
  • LLMs之LLaMA:《LLaMA: Open and Efficient Foundation Language Models》翻译与解读

    LLMs之LLaMA:《LLaMA: Open and Efficient Foundation Language Models》翻译与解读 导读 :该论文提出了一个开源的大规模语言模型LLaMA,2048个A100-80G训练21天。该模型有以下几个核心技术点: 模型架构=Transformer+集合多个算法的优秀技术(RMSNorm+SwiGLU+RoPE+AdamW+xformers库+渐进式学习率) :LLaMA模型

    2024年02月12日
    浏览(47)
  • 论文笔记--Llama 2: Open Foundation and Fine-Tuned Chat Models

    标题:Llama 2: Open Foundation and Fine-Tuned Chat Models 作者:Touvron H, Martin L, Stone K, et al. 日期:2023 期刊:arxiv preprint   文章训练并开源了模型Llama2系列模型。文章对Llama2做了大量的安全和有用性的微调,并进行了大量的数值试验,实验证明,Llama2-chat比其它被比较的开源的chat模型

    2024年02月12日
    浏览(41)
  • Llama 2 论文《Llama 2: Open Foundation and Fine-Tuned Chat Models》阅读笔记

    继2023年2月开源Llama之后,2023年7月Meta又开源了模型参数从70 亿到 700 亿不等的Llama 2,并同时开源了针对对话场景优化的LLaMA2-CHAT。LLama2 论文描述了微调和提高LLM安全性的方法以及在模型开发过程中的一些的观察。 论文摘要翻译:在这项工作中,我们开发并开源了 Llama 2,这是

    2024年02月09日
    浏览(50)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包