LLM微调 | LoRA: Low-Rank Adaptation of Large Language Models

1年前作者：#苦行僧分类：Toy博客阅读(8)违法举报

这篇具有很好参考价值的文章主要介绍了LLM微调 | LoRA: Low-Rank Adaptation of Large Language Models。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

🔥 发表于论文：(2021) LoRA: Low-Rank Adaptation of Large Language Models

😄 目的：大模型预训练+微调范式，微调成本高。LoRA只微调新增的小部分参数。

1、背景

adapter增加了模型层数，引入了额外的推理延迟；
prefix-tuning比较难训练，效果不如直接finetune。
LoRA不会引入额外的延迟，甚至原文中的实验结果表明它和全量微调效果相当，并且速度更快，计算量更少。

2、动机

论文作者得益于前人的一些关于内在维度（intrinsic dimension）的发现：模型是过参数化的，它们有更小的内在维度，模型主要依赖于这个低的内在维度（low intrinsic dimension）去做任务适配(微调)。假设模型在任务适配过程中权重的改变量是低秩（low rank）的，由此提出低秩自适应（LoRA）文章来源地址https://www.toymoban.com/news/detail-581326.html

到了这里，关于LLM微调 | LoRA: Low-Rank Adaptation of Large Language Models的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请点击违法举报进行投诉反馈，一经查实，立即删除！

分享到：

领支付宝红包赞助服务器费用

【论文精读】LORA: LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS
当下大模型时代最火的低资源微调大模型方法之一，方法简单易懂，道理清晰明了，对未来的工作有很强的启发性。如果想要深入了解LoRA的底层原理，建议仔细看一看这篇文章，如果只是应用，那么简单了解就好了~ 大模型预训练后的全量微调往往由于算力缺口而不可行，因
2024年02月10日
浏览(15)
[论文阅读笔记77]LoRA：Low-Rank Adaptation of Large Language Models
题目论文作者与单位来源年份 LoRA: Low-Rank Adaptation of Large Language Models microsoft International Conference on Learning Representations 2021 524 Citations 论文链接：https://arxiv.org/pdf/2106.09685.pdf 论文代码：https://github.com/microsoft/LoRA 研究主题问题背景核心方法流程亮点数据集结论论文类型关
2024年02月06日
浏览(8)
【DL】《LoRA: Low-Rank Adaptation of Large Language Models》译读笔记
《Low-rank Adaption of Large Language Models: Explaining the Key Concepts Behind LoRA》 LoRA的秩分解矩阵是随机初始化的，然后通过梯度下降法进行训练。文章中提到，这种初始化方法可以保证LoRA的矩阵与预训练模型的权重相互正交，从而避免了对预训练模型的干扰。文章还比较了其他几种初
2024年02月08日
浏览(8)
2021-arxiv-LoRA Low-Rank Adaptation of Large Language Models
Paper: https://arxiv.org/abs/2106.09685 Code: https://github.com/microsoft/LoRA 自然语言处理的一个重要范式包括对通用领域数据的大规模预训练和对特定任务或领域的适应。当预训练更大的模型时，完全微调（重新训练所有模型参数）变得不那么可行。以 GPT-3 175B 为例，部署微调模型的独立
2024年02月07日
浏览(10)
Raki的读paper小记：LORA: LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS
研究任务对大模型进行部分微调已有方法和相关工作现有技术通常通过扩展模型深度引入推理延迟（Houlsby 等人，2019；Rebuffi 等人，2017），或通过减少模型可用序列长度（Li 和 Liang，2021；Lester 等人，2021；Ham-bardzumyan 等人，2020；Liu 等人，2021）面临挑战这些方法通常无法
2024年02月15日
浏览(9)
LORA: LOW-RANK ADAPTATION OF LARGE LAN-GUAGE MODELS
Paper name LORA: LOW-RANK ADAPTATION OF LARGE LAN-GUAGE MODELS Paper Reading Note Paper URL: https://arxiv.org/pdf/2106.09685.pdf Code URL: huggingface 集成： https://github.com/huggingface/peft 官方代码： https://github.com/microsoft/LoRA 本文提出了低秩自适应 (Low-Rank Adaptation, LoRA)，它冻结了预训练的模型权重，并将可训练
2023年04月21日
浏览(33)
【论文&代码阅读】LORA: LOW-RANK ADAPTATION OF LARGE LAN- GUAGE MODELS
最近很多工作好像都绕不开lora，无论是sd还是llm.... 问题：大模型重新训练所有模型参数的完全微调变得不太可行。 lora在做什么我们提出了低秩自适应，即LoRA，它冻结预先训练的模型权重，并将可训练的秩分解矩阵注入Transformer架构的每一层为什么work？学习过的参数化模
2024年02月10日
浏览(15)
简单理解大模型参数高效微调中的LoRA(Low-Rank Adaptation)
[论文地址] [代码] [ICLR 22] 阅前须知：本博文可能有描述不准确/过度简化/出错的地方，仅供参考。网络结构其中，原有模型的参数是直接冻结的，可训练参数只有额外引入的LoRA参数(由nn.Parameter实现)。模型微调的本质记网络原有预训练参数为 W 0 ∈ R d × k W_0 in R^{d times
2024年02月15日
浏览(16)
Lora升级！ReLoRa！最新论文 High-Rank Training Through Low-Rank Updates
关注公众号TechLead，分享AI与云服务技术的全维度知识。作者拥有10+年互联网服务架构、AI产品研发经验、团队管理经验，同济本复旦硕，复旦机器人智能实验室成员，阿里云认证的资深架构师，项目管理专业人士，上亿营收AI产品研发负责人。尽管通过扩展导致具有数千亿参
2024年02月10日
浏览(10)
大模型 LLM 综述, A Survey of Large Language Models
一般认为NLP领域的大模型=10 Billion参数(也有人认为是6B、7B, 工业界用, 开始展现涌现能力); 经典大模型有GPT-3、BLOOM、Flan-T5、GPT-NeoX、OPT、GLM-130B、PaLM、LaMDA、LLaMA等; 大模型时间线, 图来自A Survey of Large Language Models，下同。 2.1 涌现涌现, emerge(abilities), 即一般指在大模型中出现
2024年02月08日
浏览(7)