LLaMA: Open and Efficient Foundation Language Models笔记

这篇具有很好参考价值的文章主要介绍了LLaMA: Open and Efficient Foundation Language Models笔记。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

LLaMA: Open and Efficient Foundation Language Models

摘要

  • 一个基础语言模型的集合,参数范围从7B到65B
  • 在数万亿的token上训练的模型,不依赖于专有的和不可访问的数据集
  • 大多数基准测试中优于GPT-3 (175B)
  • LLaMA65B与最好的模型Chinchilla-70B和PaLM-540B具有竞争力
  • 全部模型开源!!

引言

  • 最近的工作表明,对于给定的计算预算,最佳性能不是由最大的模型实现的,而是由在更多数据上训练的较小模型实现的
  • 最近研究缩放定律的目标是确定如何为特定的训练计算开支最好地缩放数据集和模型大小。然而,这个目标忽略了推理预算,这在大规模服务语言模型时变得至关重要
  • 在200B token上训练10B模型,作者发现7B模型的性能即使在1Ttoken之后也会继续提高
  • 与Chinchilla、PaLM或GPT-3不同,只使用公开可用的数据
  • 对transformer架构所做的修改

方法

整个训练数据集在标记化后大约包含1.4T

预训练数据集LLaMA: Open and Efficient Foundation Language Models笔记

分词器

  • 使用字节对编码(BPE)算法对数据进行标记
  • 使用来自SentencePiece 的实现
  • 将所有数字分割为单独的数字,并退回到字节来分解未知的UTF-8字符

结构

网络是基于transformer架构的

利用了随后提出的各种改进,并在不同的模型中使用,如PaLM

以下是与原始架构的主要区别,以及我们在哪里找到了这一变化的灵感(括号中):

  • Pre-normalization [GPT3]:
    • 为了提高训练的稳定性,将每个transformer子层的输入归一化,而不是输出归一化
    • 使用由Zhang和Sennrich引入的RMSNorm归一化函数
  • SwiGLU激活函数[PaLM]:
    • SwiGLU激活函数来取代ReLU非线性
    • 我们使用2/3*4d的维度,而不是PaLM中的4d
  • Rotary Embeddings [GPTNeo]:
    • 去掉了绝对位置嵌入,取而代之的是旋转位置嵌入(RoPE)

优化器

  • AdamW优化器:超参数:β1 = 0.9, β2 = 0.95
  • 使用余弦学习率schedule:最终的学习率等于最大学习率的10%,使用0.1的权重衰减和1.0的梯度裁剪
  • 2000 warmup step:随着模型的大小而改变学习率和批处理大小

有效的实现

  • 该实现可在xformers库中获得
  • causal multi-head attention减少内存使用和运行时间
  • 不存储注意力权重,也不计算由于语言建模任务的causal性质而被掩盖的query/key分数
  • 减少激活量
  • 手动实现反向传播,而不是autograd

任务的causal性质而被掩盖的query/key分数文章来源地址https://www.toymoban.com/news/detail-488822.html

  • 减少激活量
  • 手动实现反向传播,而不是autograd

到了这里,关于LLaMA: Open and Efficient Foundation Language Models笔记的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • LLaMA:Open and Efficient Foundation Language Models

    在大规模数据下训练的大模型,已经展示了很好的表现,当模型足够大的时,模型会出现一个 涌现 的能力,如下图: 最近的一项研究表明,在有限的算力下,表现最好的模型不是参数最大的,而是小一点模型搭配了更多数据。 这项工作的重点是训练一系列语言模型,通过对

    2024年02月09日
    浏览(39)
  • 文献阅读:LLaMA: Open and Efficient Foundation Language Models

    文献阅读:LLaMA: Open and Efficient Foundation Language Models 1. 文章简介 2. 模型训练 1. 训练数据 2. 模型结构 3. 模型训练 1. Optimizer 2. 效率优化 3. 效果评估 1. 经典任务下效果 1. Commen Sense Reasoning 2. Closed-book Question Answering 3. Reading Comprehension 4. Mathematical reasoning 5. Code generation 6. Massive M

    2024年02月09日
    浏览(111)
  • LLaMA(Open and Efficient Foundation Language Models )论文解读(二)

    此篇博客主题:LLAMA模型数据、训练时长、功耗及碳排放量 LLaMA: Open and Efficient Foundation Language Models paper https://arxiv.org/pdf/2302.13971v1.pdf Overall, our entire training dataset contains roughly 1.4T tokens after tokenization. For most of our training data, each token is used only once during training, with the exception of t

    2024年02月16日
    浏览(47)
  • 【LLM系列之LLaMA】LLaMA: Open and Efficient Foundation Language Models

    LLaMA 是 Meta AI 发布的包含 7B、13B、33B 和 65B 四种参数规模的基础语言模型集合,LLaMA-13B 仅以 1/10 规模的参数在多数的 benchmarks 上性能优于 GPT-3(175B),LLaMA-65B 与业内最好的模型 Chinchilla-70B 和 PaLM-540B 比较也具有竞争力。 主要贡献: 开源一系列语言模型,可以与SOTA模型竞争

    2024年02月10日
    浏览(92)
  • 2023-arxiv-LLaMA: Open and Efficient Foundation Language Models

    Paper:https://arxiv.org/abs/2302.13971 Code: https://github.com/facebookresearch/llama 本文介绍了 LLaMA,这是⼀个包含 7B 到 65B 参数的基础语⾔模型的集合。作者在数万亿个令牌上训练模型,并表明可以仅使⽤公开可⽤的数据集来训练最先进的模型。特别是, LLaMA-13B 在⼤多数基准测试中都优于

    2024年02月12日
    浏览(36)
  • AIGC之LLaMA:《LLaMA: Open and Efficient Foundation Language Models》翻译与解读

    LLMs之LLaMA:《LLaMA: Open and Efficient Foundation Language Models》翻译与解读 导读 :该论文提出了一个开源的大规模语言模型LLaMA,2048个A100-80G训练21天。该模型有以下几个核心技术点: 模型架构=Transformer+集合多个算法的优秀技术(RMSNorm+SwiGLU+RoPE+AdamW+xformers库+渐进式学习率) :LLaMA模型

    2024年02月09日
    浏览(61)
  • LLMs之LLaMA:《LLaMA: Open and Efficient Foundation Language Models》翻译与解读

    LLMs之LLaMA:《LLaMA: Open and Efficient Foundation Language Models》翻译与解读 导读 :该论文提出了一个开源的大规模语言模型LLaMA,2048个A100-80G训练21天。该模型有以下几个核心技术点: 模型架构=Transformer+集合多个算法的优秀技术(RMSNorm+SwiGLU+RoPE+AdamW+xformers库+渐进式学习率) :LLaMA模型

    2024年02月12日
    浏览(47)
  • 一个开源的大型语言模型LLaMA论文简单解读,LLaMA: Open and Efficient Foundation Language Models

    返回论文和资料目录 LLaMA 是 Meta AI 发布的包含 7B、13B、33B 和 65B 四种参数规模的基础语言模型集合,LLaMA-13B 仅以 1/10 规模的参数在多数的 benchmarks 上性能优于 GPT-3(175B),LLaMA-65B 与业内最好的模型 Chinchilla-70B 和 PaLM-540B 比较也具有竞争力。开源的代码在github上可以很方便获得

    2024年02月09日
    浏览(51)
  • 论文笔记--Llama 2: Open Foundation and Fine-Tuned Chat Models

    标题:Llama 2: Open Foundation and Fine-Tuned Chat Models 作者:Touvron H, Martin L, Stone K, et al. 日期:2023 期刊:arxiv preprint   文章训练并开源了模型Llama2系列模型。文章对Llama2做了大量的安全和有用性的微调,并进行了大量的数值试验,实验证明,Llama2-chat比其它被比较的开源的chat模型

    2024年02月12日
    浏览(41)
  • Llama 2 论文《Llama 2: Open Foundation and Fine-Tuned Chat Models》阅读笔记

    继2023年2月开源Llama之后,2023年7月Meta又开源了模型参数从70 亿到 700 亿不等的Llama 2,并同时开源了针对对话场景优化的LLaMA2-CHAT。LLama2 论文描述了微调和提高LLM安全性的方法以及在模型开发过程中的一些的观察。 论文摘要翻译:在这项工作中,我们开发并开源了 Llama 2,这是

    2024年02月09日
    浏览(50)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包