【DL】《LoRA: Low-Rank Adaptation of Large Language Models》译读笔记

这篇具有很好参考价值的文章主要介绍了【DL】《LoRA: Low-Rank Adaptation of Large Language Models》译读笔记。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

《LoRA: Low-Rank Adaptation of Large Language Models》

论文解读 - YouTube

《Low-rank Adaption of Large Language Models: Explaining the Key Concepts Behind LoRA》

请问LoRA的秩分解矩阵是怎么初始化的?

LoRA的秩分解矩阵是随机初始化的,然后通过梯度下降法进行训练。文章中提到,这种初始化方法可以保证LoRA的矩阵与预训练模型的权重相互正交,从而避免了对预训练模型的干扰。文章还比较了其他几种初始化方法,如零初始化、单位初始化和正交初始化,发现它们都不如随机初始化的效果好。

请问LoRA的秩分解矩阵是在哪一层注入的?

LoRA的秩分解矩阵是在预训练模型的最后一层注入的,也就是输出层。文章中指出,这样做的原因是输出层的权重通常是最大的,也是最容易过拟合的,因此通过低秩适应可以有效地减少参数量和提高泛化能力。文章还展示了在不同层数注入LoRA的实验结果,发现在输出层注入LoRA的效果最好。

请问你对LoRA的未来发展有什么看法?

我对LoRA的未来发展有以下几点看法:一是LoRA可以进一步扩展到其他类型的预训练模型,如图像、语音、视频等,探索不同的秩分解方法和注入位置;二是LoRA可以结合其他的适应技术,如知识蒸馏、元学习、多任务学习等,提高适应的效率和效果;三是LoRA可以探索更多的应用场景,如迁移学习、联邦学习、增量学习等,解决实际问题。当然,这些只是我的一些想法,不一定正确或完备。在这种情况下,一个人可能会说,LoRA是一个有前景的研究方向,值得进一步探索和改进。

摘要

自然语言处理的一个重要范式是在通用领域数据上进行大规模预训练,然后适配到特定的任务或领域。随着我们预训练的模型越来越大,进行重新训练所有模型参数的 full fine-tuning,变得难以实行。以 GPT-3 175B 为例——对于部署微调模型的独立实例,每个都有1750亿个参数,这是非常昂贵的。本文提出了低秩适应 Low-Rank Adaptation(LoRA),冻结预训练模型的权重,并在Transformer架构的每一层注入可训练的秩分解矩阵,大大减少了下游任务的训练参数。与使用Adam微调的 GPT-3-175B 相比,LoRA可以将可训练参数减少10,000倍,GPU内存需求减少3倍。与微调相比,LoRA在RoBERTa、DeBERTa、GPT-2和GPT-3上的模型质量表现与之相当或更好,尽管可训练参数更少,其训练吞吐量更高,而且与adapters不同,没有额外的推理延迟。我们还对语言模型适配中的 rank-deficiency 进行了实证研究,揭示了LoRA的有效性。本文发布了一个可以方便LoRA与PyTorch模型集成的包,并提供了RoBERTa、DeBERTa和GPT-2的实现和模型的checkpoints,开源在https://github.com/microsoft/LoRA。

1 引言

许多自然语言处理的应用依赖于将大规模预训练的语言模型适配到多个下游应用中。这种适配通常是通过微调来实现的,即更新预训练模型的所有参数。Fine-tuning的主要缺点是新模型需训练与原始模型一样多的参数。随着每隔几个月就有更大的模型被训练出来,在GPT-2(Radford_b_GPT2)或 RoBERTa large(Liu_2019_RoBERTa)时代,此问题还是一个单纯的“不便”,到拥有1750亿个训练参数的 GPT-3(Brown_2020_GPT3)时变成了一个 critical deployment challenge。
为了缓解这一问题,许多人研究对新任务仅调整部分参数或学习外部模块。文章来源地址https://www.toymoban.com/news/detail-473963.html

到了这里,关于【DL】《LoRA: Low-Rank Adaptation of Large Language Models》译读笔记的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【论文精读】LORA: LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS

    当下大模型时代最火的低资源微调大模型方法之一,方法简单易懂,道理清晰明了,对未来的工作有很强的启发性。如果想要深入了解LoRA的底层原理,建议仔细看一看这篇文章,如果只是应用,那么简单了解就好了~ 大模型预训练后的全量微调往往由于算力缺口而不可行,因

    2024年02月10日
    浏览(133)
  • LLM微调 | LoRA: Low-Rank Adaptation of Large Language Models

    🔥 发表于论文:(2021) LoRA: Low-Rank Adaptation of Large Language Models 😄 目的:大模型预训练+微调范式,微调成本高。LoRA只微调新增的小部分参数。 adapter增加了模型层数,引入了额外的推理延迟; prefix-tuning比较难训练,效果不如直接finetune。 LoRA不会引入额外的延迟,甚至原文中

    2024年02月17日
    浏览(51)
  • [论文阅读笔记77]LoRA:Low-Rank Adaptation of Large Language Models

    题目 论文作者与单位 来源 年份 LoRA: Low-Rank Adaptation of Large Language Models microsoft International Conference on Learning Representations 2021 524 Citations 论文链接:https://arxiv.org/pdf/2106.09685.pdf 论文代码:https://github.com/microsoft/LoRA 研究主题 问题背景 核心方法流程 亮点 数据集 结论 论文类型 关

    2024年02月06日
    浏览(55)
  • 2021-arxiv-LoRA Low-Rank Adaptation of Large Language Models

    Paper: https://arxiv.org/abs/2106.09685 Code: https://github.com/microsoft/LoRA 自然语言处理的一个重要范式包括对通用领域数据的大规模预训练和对特定任务或领域的适应。当预训练更大的模型时,完全微调(重新训练所有模型参数)变得不那么可行。以 GPT-3 175B 为例,部署微调模型的独立

    2024年02月07日
    浏览(67)
  • Raki的读paper小记:LORA: LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS

    研究任务 对大模型进行部分微调 已有方法和相关工作 现有技术通常通过扩展模型深度引入推理延迟(Houlsby 等人,2019;Rebuffi 等人,2017),或通过减少模型可用序列长度(Li 和 Liang,2021;Lester 等人,2021;Ham-bardzumyan 等人,2020;Liu 等人,2021) 面临挑战 这些方法通常无法

    2024年02月15日
    浏览(49)
  • LORA: LOW-RANK ADAPTATION OF LARGE LAN-GUAGE MODELS

    Paper name LORA: LOW-RANK ADAPTATION OF LARGE LAN-GUAGE MODELS Paper Reading Note Paper URL: https://arxiv.org/pdf/2106.09685.pdf Code URL: huggingface 集成: https://github.com/huggingface/peft 官方代码: https://github.com/microsoft/LoRA 本文提出了低秩自适应 (Low-Rank Adaptation, LoRA),它冻结了预训练的模型权重,并将可训练

    2023年04月21日
    浏览(68)
  • 【论文&代码阅读】LORA: LOW-RANK ADAPTATION OF LARGE LAN- GUAGE MODELS

    最近很多工作好像都绕不开lora,无论是sd还是llm.... 问题:大模型重新训练所有模型参数的完全微调变得不太可行。 lora在做什么 我们提出了低秩自适应,即LoRA,它冻结预先训练的模型权重,并将可训练的秩分解矩阵注入Transformer架构的每一层 为什么work? 学习过的参数化模

    2024年02月10日
    浏览(44)
  • 简单理解大模型参数高效微调中的LoRA(Low-Rank Adaptation)

    [论文地址] [代码] [ICLR 22] 阅前须知:本博文可能有描述不准确/过度简化/出错的地方,仅供参考。 网络结构 其中,原有模型的参数是直接冻结的,可训练参数只有额外引入的LoRA参数(由nn.Parameter实现)。 模型微调的本质 记网络原有预训练参数为 W 0 ∈ R d × k W_0 in R^{d times

    2024年02月15日
    浏览(50)
  • Lora升级!ReLoRa!最新论文 High-Rank Training Through Low-Rank Updates

    关注公众号TechLead,分享AI与云服务技术的全维度知识。作者拥有10+年互联网服务架构、AI产品研发经验、团队管理经验,同济本复旦硕,复旦机器人智能实验室成员,阿里云认证的资深架构师,项目管理专业人士,上亿营收AI产品研发负责人。 尽管通过扩展导致具有数千亿参

    2024年02月10日
    浏览(42)
  • A Survey of Large Language Models

    本文是LLM系列的第一篇文章,针对《A Survey of Large Language Models》的翻译。 自从20世纪50年代提出图灵测试以来,人类一直在探索通过机器掌握语言智能。语言本质上是一个由语法规则控制的复杂的人类表达系统。开发能够理解和掌握语言的人工智能算法是一个重大挑战。在过

    2024年02月09日
    浏览(64)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包