LLaMA Open and Efficient Foundation Language Models

这篇具有很好参考价值的文章主要介绍了LLaMA Open and Efficient Foundation Language Models。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

来源Meta AI

github地址: facebookresearch/llama

论文:LLaMA: Open and Efficient Foundation Language Models

模型:目前可以在huggingface上直接下载,https://huggingface.co/decapoda-research 包括:

  • LLaMA-7B
  • LLaMA-13B
  • LLaMA-33B
  • LLaMA-65B

一、摘要

我们介绍了LLaMA,这是一组从7B到65B参数范围内的基础语言模型。我们在数万亿的代币上训练我们的模型,并表明可以专门使用可公开使用的数据集来训练最先进的模型,而无需求助于专有和不可访问的数据集。特别是,LLaMA-13B在大多数基准测试中都优于GPT-3(175B),并且LLaMA-65B与最好的型号Chinchilla-70B和PaLM-540B具有竞争力。我们向研究界发布所有模型。

二、介绍

作者认为大模型效果好的主要原因,不是在模型大上,而是在高质量数据的数量上,并需要根据数据量训练合适大小的模型,可以达到很好的性能。

与Chinchilla、PaLM或GPT-3不同,作者团队只使用公开可用的数据,使我们的工作与开源相兼容。

论文,我们概述了我们对transformer架构所做的修改,以及训练方法。然后,我们报告我们的模型的性能,并在一组标准基准上与其他LLM进行比较。最后,我们使用负责任的人工智能社区的一些最新基准,揭示了我们模型中编码的一些偏见和毒性。LLaMA Open and Efficient Foundation Language Models

三、数据集

由于只使用开源数据集,对一些数据集只能使用部分内容,数据集构建如下表。

LLaMA Open and Efficient Foundation Language Models

四、优化

整体仍然使用类似GPT,PaLM的decoder-only的结构,预训练策略仍然是LM任务。以下为一些优化和参数设置。

  1. 基于GPT-3中RMSNorm 正则化。
  2. 基于PaLM 的SwiGLU 激活函数。
  3. 基于苏神Roformer 的RoPE 位置编码。
  4. AdamW 优化器(β1 = 0.9, β2 = 0.95)余弦学习率schedule
  5. weight-decay=0.1 梯度裁剪=1.0 ,warmup=2000 steps
  6. Batch_size =4M
  7. 使用xformers库提高multi-head self attention的训练

五、结果

分别在zero-shot ,few-shot 任务上进行open-ended generation 和 rank proposed answers 进行对比实验,与其他LLM模型进行对比。

分别在自然问题,常识推理,QA,阅读理解,数学推理,代码生成,大规模多任务语言理解。

LLaMA Open and Efficient Foundation Language Models

六、指令微调

使用与论文 Scaling Instruction-Finetuned Language Models 相同的方法进行微调,可以让模型具有更好的效果,这里称为LLaMA-I.

LLaMA Open and Efficient Foundation Language Models

七、偏见、毒性和错误信息

​ 大型语言模型已被证明会重新产生和放大训练数据中存在的偏见(Sheng等人,2019;Kurita等人,2019),并产生有毒或攻击性的内容(Gehman等人,2020)。由于我们的训练数据集包含很大一部分来自Web的数据,我们认为确定我们的模型生成此类内容的可能性至关重要。为了了解LLaMA-65B的潜在危害,我们在不同的基准上进行了评估,这些基准衡量了有毒成分的产生和刻板印象的检测。虽然我们选择了语言模型社区使用的一些标准基准来表明这些模型的一些问题,但这些评估不足以充分理解与这些模型相关的风险。

八、总结

​ 在本文中,提出了一系列公开发布的语言模型,这些模型与最先进的基础模型具有竞争力。最值得注意的是,LLaMA-13B的体积比GPT-3小10倍以上,同时LLaMA-65B与Chinchilla-70B和PaLM-540B具有竞争力。与之前的研究不同,我们表明,通过专门在公开可用的数据上进行训练,而无需求助于专有数据集,可以实现最先进的性能。我们希望向研究界发布这些模型将加速大型语言模型的开发,并有助于提高其健壮性,缓解毒性和偏见等已知问题。此外,我们像Chung等人一样观察到。(2022)根据指令微调这些模型会产生有希望的结果,我们计划在未来的工作中对此进行进一步研究。最后,我们计划在未来发布在更大的预训练语料库上训练的更大模型,因为随着我们的扩展,性能不断提高。文章来源地址https://www.toymoban.com/news/detail-515660.html

到了这里,关于LLaMA Open and Efficient Foundation Language Models的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 论文笔记--LLaMA: Open and Efficient Foundation Language Models

    标题:LLaMA: Open and Efficient Foundation Language Models 作者:Touvron, Hugo, et al. 日期:2023 期刊:arxiv preprint   文章利用公开数据集训练并发布了一系列大语言模型LLaMA,在多个NLP下游任务中性能超过了GPT-3和PALM等模型。 English CommonCrawl(67%): 训练集的大部分构成为2017~2020年间的Com

    2024年02月09日
    浏览(54)
  • LLaMA(Open and Efficient Foundation Language Models )论文解读(二)

    此篇博客主题:LLAMA模型数据、训练时长、功耗及碳排放量 LLaMA: Open and Efficient Foundation Language Models paper https://arxiv.org/pdf/2302.13971v1.pdf Overall, our entire training dataset contains roughly 1.4T tokens after tokenization. For most of our training data, each token is used only once during training, with the exception of t

    2024年02月16日
    浏览(45)
  • LLaMA模型论文《LLaMA: Open and Efficient Foundation Language Models》阅读笔记

    LLaMA是meta在2023年2月开源的大模型,在这之后,很多开源模型都是基于LLaMA的,比如斯坦福大学的羊驼模型。 LLaMA的重点是比通常情况下使用更多的语料,来训练一系列可在各种推理预算下实现可能的最佳性能的语言模型。 摘要翻译:我们在此介绍LLaMA,这是一个参数范围从

    2024年02月15日
    浏览(44)
  • 【LLM系列之LLaMA】LLaMA: Open and Efficient Foundation Language Models

    LLaMA 是 Meta AI 发布的包含 7B、13B、33B 和 65B 四种参数规模的基础语言模型集合,LLaMA-13B 仅以 1/10 规模的参数在多数的 benchmarks 上性能优于 GPT-3(175B),LLaMA-65B 与业内最好的模型 Chinchilla-70B 和 PaLM-540B 比较也具有竞争力。 主要贡献: 开源一系列语言模型,可以与SOTA模型竞争

    2024年02月10日
    浏览(90)
  • 2023-arxiv-LLaMA: Open and Efficient Foundation Language Models

    Paper:https://arxiv.org/abs/2302.13971 Code: https://github.com/facebookresearch/llama 本文介绍了 LLaMA,这是⼀个包含 7B 到 65B 参数的基础语⾔模型的集合。作者在数万亿个令牌上训练模型,并表明可以仅使⽤公开可⽤的数据集来训练最先进的模型。特别是, LLaMA-13B 在⼤多数基准测试中都优于

    2024年02月12日
    浏览(35)
  • AIGC之LLaMA:《LLaMA: Open and Efficient Foundation Language Models》翻译与解读

    LLMs之LLaMA:《LLaMA: Open and Efficient Foundation Language Models》翻译与解读 导读 :该论文提出了一个开源的大规模语言模型LLaMA,2048个A100-80G训练21天。该模型有以下几个核心技术点: 模型架构=Transformer+集合多个算法的优秀技术(RMSNorm+SwiGLU+RoPE+AdamW+xformers库+渐进式学习率) :LLaMA模型

    2024年02月09日
    浏览(59)
  • LLMs之LLaMA:《LLaMA: Open and Efficient Foundation Language Models》翻译与解读

    LLMs之LLaMA:《LLaMA: Open and Efficient Foundation Language Models》翻译与解读 导读 :该论文提出了一个开源的大规模语言模型LLaMA,2048个A100-80G训练21天。该模型有以下几个核心技术点: 模型架构=Transformer+集合多个算法的优秀技术(RMSNorm+SwiGLU+RoPE+AdamW+xformers库+渐进式学习率) :LLaMA模型

    2024年02月12日
    浏览(45)
  • 一个开源的大型语言模型LLaMA论文简单解读,LLaMA: Open and Efficient Foundation Language Models

    返回论文和资料目录 LLaMA 是 Meta AI 发布的包含 7B、13B、33B 和 65B 四种参数规模的基础语言模型集合,LLaMA-13B 仅以 1/10 规模的参数在多数的 benchmarks 上性能优于 GPT-3(175B),LLaMA-65B 与业内最好的模型 Chinchilla-70B 和 PaLM-540B 比较也具有竞争力。开源的代码在github上可以很方便获得

    2024年02月09日
    浏览(48)
  • Llama 2: Open Foundation and Fine-Tuned Chat Models

    Paper name Llama 2: Open Foundation and Fine-Tuned Chat Models Paper Reading Note Paper URL: https://ai.meta.com/research/publications/llama-2-open-foundation-and-fine-tuned-chat-models/ Blog URL:https://huggingface.co/blog/llama2 Meta 出品的 Llama 续作 Llama2,一系列模型(7b、13b、70b)均开源可商用。Llama2 在各个榜单上精度全面

    2024年02月16日
    浏览(42)
  • Llama 2- Open Foundation and Fine-Tuned Chat Models<2>

    3.2 人类反馈强化学习(RLHF) RLHF 是一种模型训练过程,应用于微调的语言模型,以进一步使模型行为与人类偏好和指令遵循保持一致。我们收集代表根据经验采样的人类偏好的数据,人类注释者可以选择他们更喜欢的两个模型输出中的哪一个。这种人类反馈随后用于训练奖

    2024年01月19日
    浏览(40)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包