一个开源的大型语言模型LLaMA论文简单解读,LLaMA: Open and Efficient Foundation Language Models

这篇具有很好参考价值的文章主要介绍了一个开源的大型语言模型LLaMA论文简单解读,LLaMA: Open and Efficient Foundation Language Models。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

一个开源的大型语言模型LLaMA论文解读,LLaMA: Open and Efficient Foundation Language Models

返回论文和资料目录

1.导读

LLaMA 是 Meta AI 发布的包含 7B、13B、33B 和 65B 四种参数规模的基础语言模型集合,LLaMA-13B 仅以 1/10 规模的参数在多数的 benchmarks 上性能优于 GPT-3(175B),LLaMA-65B 与业内最好的模型 Chinchilla-70B 和 PaLM-540B 比较也具有竞争力。开源的代码在github上可以很方便获得,还有对应的原论文地址。

2.摘要和引言

大型语言模型存在一个问题是并非越大的模型具备越优的性能,所以可能存在的情况是一个更小的模型使用更多的数据训练能得到更好的性能。作者发现一个7B的模型在1T的tokens上性能仍然在提升。因此,LLaMA的工作是使用更小的模型得到更优的性能。

另外,在LLaMA中,训练数据全部来自网上公开的数据,作者在论文中介绍了模型及其训练细节。

3.方法

3.1 数据集

数据集如下图所示,其中这些数据都可以从网上的公开源获得。文章这里写的比较详细,而且数据集好像都可以在huggingface上获得。
一个开源的大型语言模型LLaMA论文简单解读,LLaMA: Open and Efficient Foundation Language Models
模型架构

整体架构仍然是Transformer的解码器模块,该模块参考论文Attention is all you need。下面是在Transformer架构上的进一步的3个改进。

  1. 使用RMSNorm(即Root Mean square Layer Normalization)对输入数据进行标准化,RMSNorm可以参考论文:Root mean square layer normalization。
  2. 使用激活函数SwiGLU, 该函数可以参考PALM论文:Glu variants improve transformer。
  3. 使用Rotary Embeddings进行位置编码,该编码可以参考论文 Roformer: Enhanced transformer with rotary position embedding。

优化器

采用AdamW optimizer优化器,该优化器可以参考论文Decoupled weight decay regularization。下表是训练的一些参数细节。

一个开源的大型语言模型LLaMA论文简单解读,LLaMA: Open and Efficient Foundation Language Models

其他有效改进措施

  1. 使用 随机多头注意力机制(causal multi-head attention) 提高模型的训练速度。该机制的实现借用了xformers库,它的思路是不存储注意力权重,不计算其中注意力得分。
  2. 手动实现了Transformer的激活函数,而没有用pytorch库的autograd,以得到更优的训练速度。同时使用了并行化技术提高训练速度。这两个改进点可以参考论文:Reducing activation recomputation in large transformer models.

当训练LLaMA-65B模型时,作者说在80GB显存的2048 A100 GPU上处理速度大约每秒380个token。在包含1.4T token 的数据集上进行训练大约需要21天。

4.主要结论(实验结果)

zero-shot的推理任务实验结果
一个开源的大型语言模型LLaMA论文简单解读,LLaMA: Open and Efficient Foundation Language Models
自然问题实验结果
一个开源的大型语言模型LLaMA论文简单解读,LLaMA: Open and Efficient Foundation Language Models

一个开源的大型语言模型LLaMA论文简单解读,LLaMA: Open and Efficient Foundation Language Models

阅读理解实验结果
一个开源的大型语言模型LLaMA论文简单解读,LLaMA: Open and Efficient Foundation Language Models

数学能力实验结果

一个开源的大型语言模型LLaMA论文简单解读,LLaMA: Open and Efficient Foundation Language Models
生成代码实验结果

一个开源的大型语言模型LLaMA论文简单解读,LLaMA: Open and Efficient Foundation Language Models

多领域任务实验结果

一个开源的大型语言模型LLaMA论文简单解读,LLaMA: Open and Efficient Foundation Language Models

训练过程中在这些问题上的表现
一个开源的大型语言模型LLaMA论文简单解读,LLaMA: Open and Efficient Foundation Language Models

6.模型生成有害错误信息

该模型虽然在这部分更优,但仍然分数较低,和GPT-3等模型一样会瞎编。

相对不重要,略过。

7.训练LLaMA模型会产生多少碳排放

作者通过这个角度来说明,LLaMA可以保护环境,hh。

8.未来工作

作者打算引入InstructGPT的人工引导方式来开展进一步工作,并扩展到更大的模型和更多的数据。文章来源地址https://www.toymoban.com/news/detail-483429.html

到了这里,关于一个开源的大型语言模型LLaMA论文简单解读,LLaMA: Open and Efficient Foundation Language Models的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包赞助服务器费用

相关文章

  • LLaMA 简介:一个具有 650 亿参数的基础大型语言模型 官网介绍

    2023 年 2 月 24 日 更新: 我们刚刚推出了Llama 2 - 有关最新信息的更多信息,请参阅我们关于 Llama 2 的博客文章。 作为 Meta 致力于开放科学的一部分,今天我们公开发布 LLaMA(大型语言模型 Meta AI),这是一种最先进的基础大型语言模型,旨在帮助研究人员推进人工智能这一子

    2024年02月10日
    浏览(28)
  • Meta与微软联手推出开源大型语言模型Llama 2;程序员如何优雅地做副业

    Meta与微软联手推出开源大型语言模型Llama 2;程序员如何优雅地做副业

    🦉 AI新闻 🚀 Meta与微软联手推出开源大型语言模型Llama 2 摘要 :Meta和微软近期合作发布了名为Llama 2的开源大型语言模型。该模型旨在帮助开发者和组织构建生成式人工智能工具和体验。Azure客户可以更轻松、安全地在Azure平台上微调和部署Llama 2模型,也可以优化后在Window

    2024年02月13日
    浏览(12)
  • Llama大型语言模型原理详解

    Llama大型语言模型是一种基于深度学习的自然语言处理模型,它在文本生成、问答、摘要等多种NLP任务中展现出强大的性能。本文将详细解析Llama模型的原理,包括其结构、训练过程以及工作机制,帮助读者深入理解这一先进的模型。 一、模型结构 Llama模型采用了一种基于T

    2024年04月12日
    浏览(11)
  • 在Docker中部署Llama大型语言模型

    Docker作为一个轻量级的容器化平台,使得应用程序的部署和扩展变得简单而高效。在Docker中部署Llama大型语言模型,可以确保模型运行环境的一致性和可移植性,同时也便于管理和扩展。本文将介绍如何在Docker中部署Llama模型的具体步骤和注意事项。 一、准备Docker环境 首先,

    2024年04月22日
    浏览(12)
  • 大型语言模型 (LLM)全解读

    大型语言模型 (LLM)全解读

    大型语言模型 是 一种深度学习算法 ,可以 执行各种自然语言处理 (NLP) 任务 。 大型语言模型底层 使用多个转换器模型 , 底层转换器是一组神经网络 。 大型语言模型是 使用海量数据集 进行训练的超大型深度学习模型。 这也是它们能够识别、翻译、预测或生成文本或其他

    2024年01月23日
    浏览(17)
  • AI大战,Meta发布大型语言模型LLaMA

    ChatGPT引爆了AI行业,全球的科技巨头都先后加入这场AI大战,作为行业大佬的Meta也不例外,宣布推出大型语言模型LLaMA,加入到了这场由微软、谷歌等科技巨头主导的AI“厮杀”中。 LLaMA 模型由 Meta 的FAIR 团队开发,旨在帮助研究人员和工程师探索人工智能应用和相关功能,在

    2024年02月13日
    浏览(11)
  • 一文读懂大型语言模型参数高效微调:Prefix Tuning与LLaMA-Adapter

    一文读懂大型语言模型参数高效微调:Prefix Tuning与LLaMA-Adapter

    芝士AI吃鱼 在快速发展的人工智能领域中,高效、有效地使用大型语言模型变得日益重要,参数高效微调是这一追求的前沿技术,它允许研究人员和实践者在最小化计算和资源占用的同时,重复使用预训练模型。这还使我们能够在更广泛的硬件范围内训练AI模型,包括计算能

    2024年01月17日
    浏览(9)
  • Meta语言模型LLaMA解读:模型的下载部署与运行代码

    Meta语言模型LLaMA解读:模型的下载部署与运行代码

    Meta最新语言模型LLaMA解读,LLaMA是Facebook AI Research团队于2023年发布的一种语言模型,这是一个基础语言模型的集合。 体验地址 模型下载地址 下载步骤 准备工作 先注册登录 授权,需要一段时间, 需要使用gls 什么是Git LFS git是程序员开发程序不可或缺的工具,有效的使用git能

    2024年02月08日
    浏览(17)
  • 《论文阅读》LORA:大型语言模型的低秩自适应 2021

    《论文阅读》LORA:大型语言模型的低秩自适应 2021

    前言 今天为大家带来的是《LORA: LOW-RANK ADAPTATION OF LARGE LAN-GUAGE MODELS》 出版: 时间:2021年10月16日 类型:大语言模型的微调方法 : 作者:Edward Hu, Yelong Shen 等 第一作者机构:Microsoft Corporation github:https://github.com/microsoft/LoRA 简介 为了降低现有模型在下游任务上的计算

    2024年02月05日
    浏览(5)
  • 论文阅读_大语言模型_Llama2

    论文阅读_大语言模型_Llama2

    英文名称: Llama 2: Open Foundation and Fine-Tuned Chat Models 中文名称: Llama 2:开源的基础模型和微调的聊天模型 文章: http://arxiv.org/abs/2307.09288 代码: https://github.com/facebookresearch/llama 作者: Hugo Touvron 日期: 2023-07-19 引用次数: 110 这是一篇77页的论文,正文也有36页,让人望而却步。整体分

    2024年02月07日
    浏览(27)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包