YaRN: Efficient Context Window Extension of Large Language Models

这篇具有很好参考价值的文章主要介绍了YaRN: Efficient Context Window Extension of Large Language Models。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

本文是LLM系列文章,针对《YaRN: Efficient Context Window Extension of Large Language Models》的翻译。

摘要

旋转位置嵌入(RoPE)已被证明可以在基于Transformer的语言模型中有效地编码位置信息。然而,这些模型无法推广到它们所训练的序列长度。我们提出了YaRN(另一种RoPE扩展方法),这是一种扩展此类模型上下文窗口的计算效率高的方法,与以前的方法相比,需要减少10倍的token和2.5倍的训练步骤。使用YaRN,我们表明LLaMA模型可以有效地利用和外推到比其原始预训练所允许的更长的上下文长度,同时也超过了以前最先进的上下文窗口扩展。此外,我们证明了YaRN表现出超越微调数据集的有限上下文进行推断的能力。我们将Llama 2 7B/13B的检查点发布在https://github.com/jquesnelle/yarn.

1 引言

2 背景和相关工作

3 方法

4 实验

5 结论

总之,我们已经证明,YaRN改进了所有现有的RoPE插值方法,可以作为PI的替代品,没有缺点,实现工作量最小。经过微调的模型在多个基准测试上保留了它们的原始能力,同时能够处理非常大的上下文大小。此外,YaRN允许在较短的数据集上进行有效的外推和微调,并可以利用迁移学习实现更快的收敛,这两者在计算受限的情况下都是至关重要的。最后,我们展示了使用YaRN进行外推的有效性,它能够“短时间训练,长时间测试”。文章来源地址https://www.toymoban.com/news/detail-701430.html

到了这里,关于YaRN: Efficient Context Window Extension of Large Language Models的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 大模型 LLM 综述, A Survey of Large Language Models

    一般认为NLP领域的大模型=10 Billion参数(也有人认为是6B、7B, 工业界用, 开始展现涌现能力); 经典大模型有GPT-3、BLOOM、Flan-T5、GPT-NeoX、OPT、GLM-130B、PaLM、LaMDA、LLaMA等; 大模型时间线, 图来自A Survey of Large Language Models,下同。 2.1 涌现 涌现, emerge(abilities), 即一般指在大模型中出现

    2024年02月08日
    浏览(57)
  • 论文《LoRA: Low-Rank Adaptation of Large Language Models》阅读

    今天带来的是由微软Edward Hu等人完成并发表在ICLR 2022上的论文《LoRA: Low-Rank Adaptation of Large Language Models》,论文提出了大模型 tuning 框架 LoRA ( Lo w- R ank A daptation)。 论文地址:https://openreview.net/pdf?id=nZeVKeeFYf9 附录下载地址:https://openreview.net/attachment?id=nZeVKeeFYf9name=supplementa

    2024年02月11日
    浏览(52)
  • 【论文阅读】LoRA: Low-Rank Adaptation of Large Language Models

    code:GitHub - microsoft/LoRA: Code for loralib, an implementation of \\\"LoRA: Low-Rank Adaptation of Large Language Models\\\" 做法: 把预训练LLMs里面的参数权重给 冻结 ; 向transformer架构中的每一层, 注入 可训练的 rank decomposition matrices-(低)秩分解矩阵,从而可以显著地减少下游任务所需要的可训练参

    2024年02月03日
    浏览(47)
  • 【论文精读】LORA: LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS

    当下大模型时代最火的低资源微调大模型方法之一,方法简单易懂,道理清晰明了,对未来的工作有很强的启发性。如果想要深入了解LoRA的底层原理,建议仔细看一看这篇文章,如果只是应用,那么简单了解就好了~ 大模型预训练后的全量微调往往由于算力缺口而不可行,因

    2024年02月10日
    浏览(124)
  • 大型语言模型综述,非常详细,格局打开!A Survey of Large Language Models

    返回论文和资料目录 论文地址 项目地址 讲得通俗易懂,且格局拉满!基本覆盖了自ChatGPT以来的AI比较火的事件,还多次提到强人工智能AGI(人工通用智能)。对近几年的大型语言模型( Large Language Models)进行了详细介绍。非常建议感兴趣大模型和强人工智能的读者阅读!!

    2024年02月08日
    浏览(52)
  • Secrets of RLHF in Large Language Models Part I: PPO

    本文是LLM系列文章,针对《Secrets of RLHF in Large Language Models Part I: PPO》的翻译。 大型语言模型(LLM)为通用人工智能的发展制定了蓝图。它的主要目标是作为一个以人为本(乐于助人、诚实无害)的助手。与人类保持一致具有至关重要的意义,人类反馈强化学习(RLHF)成为支

    2024年02月07日
    浏览(134)
  • LLM:LoRA: Low-Rank Adaptation of Large Language Models

    随着模型规模的不断扩大,微调模型的所有参数(所谓full fine-tuning)的可行性变得越来越低。以GPT-3的175B参数为例,每增加一个新领域就需要完整微调一个新模型,代价和成本很高。 为解决微调大规模语言模型到不同领域和任务的挑战,已有多种方案,比如部分微调、使用

    2024年02月07日
    浏览(43)
  • 《LORA: LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS》论文笔记

    全量参数微调在LLM背景下由“不方便”演变为“不可行|高昂成本”,基于“收敛的模型参数可以压缩到低维空间”的假设: the learned over-parametrized models in fact reside on a low intrinsic dimension. 作者提出LORA(Low Rank Adaptation)方法,其本质如下图所示: h = W x h = Wx h = W x ,其中 x x

    2024年02月13日
    浏览(40)
  • Tree of Thoughts: Deliberate Problem Solving with Large Language Models

    本文是LLM系列的文章,针对《Tree of Thoughts: Deliberate Problem Solving with Large Language Models》的翻译。 语言模型越来越多地被部署用于解决各种任务中的一般问题,但在推理过程中仍然局限于token级别的从左到右的决策过程。这意味着他们可能无法完成需要探索、战略前瞻或初始决

    2024年02月11日
    浏览(47)
  • Bring Your Data!Self- supervised Evolution of Large Language Models

    这篇论文提出了一种自监督的评估方式来衡量大型语言模型的能力和局限性。常规的基于数据集的评估方式存在一些缺点: 需要不断新建数据集。 存在数据集和模型训练数据交叉的问题,影响评估结果。 难以评估模型在实际部署中的表现。为了弥补这些缺点,论文提出了自监督

    2024年02月16日
    浏览(42)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包