【论文阅读】Lora

10月前作者：hei_hei_hei_ 分类：Toy博客阅读(31) 违法举报

这篇具有很好参考价值的文章主要介绍了【论文阅读】Lora。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

概述

目的在原有大模型上进行fine tune，训练个性化模型
idea：将pretrained model参数冻住，额外训练一个module进行调整，最终输出是原始输出+经过module的输出。
技巧：通过低秩分解大大降低了需要训练参数的数量。矩阵分解：对于一个 $m * n$ 的矩阵，若它的秩是r，则可以通过 $m * r$ 和 $r * n$ 的矩阵近似

方法

【论文阅读】Lora 文章来源地址https://www.toymoban.com/news/detail-486672.html

$W_0$ 是预训练模型的参数， $\triangle W$ 是添加module的参数， $x$ 是输入。注意这里 $A$ 为高斯随机初始化， $B$ 初始化为0，这样一开始 $\triangle W=0$ ，整个模型的输出与预训练模型一样，有利于模型的收敛
这里只对attention层中的参数进行矩阵分解，包括 $W_q, W_k, W_v, W_o$
当r=d的时候，就相当于对所有参数进行微调
没有额外的inference延迟，因为最后计算的时候可以先让 $W_0$ 和 $\triangle W$ 相加，然后再乘x，与之前直接和x相乘的计算量差不多

实验

为什么lora效果好？即使是fine tune所有的参数，得到的 $\triangle W$ 矩阵的秩也是很低的，因此可以做低质分解降低需要训练的参数量
矩阵分解的位置。实验发现在总参数量保持一致的情况下施加在4个参数上效果最好，单独施加效果最差
r的选择。在nlp任务上，r取4能够得到较好的效果。作者也通过实验说明当r较小时与较大的r能够有很高的相似性。q矩阵的秩高于v矩阵的秩
$\triangle W$ 放大了 $W$ 在某些方向上的表达（下游任务中需要的某些方向）

注意

在实验中作者为了简单只对 $w_q$ 和 $W_v$ 进行分解
lora在小样本fine tune上的效果很好（10k以下）

到了这里，关于【论文阅读】Lora的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请点击违法举报进行投诉反馈，一经查实，立即删除！

分享到：

领支付宝红包赞助服务器费用

【论文阅读】LoRA: Low-Rank Adaptation of Large Language Models

code：GitHub - microsoft/LoRA: Code for loralib, an implementation of \\\"LoRA: Low-Rank Adaptation of Large Language Models\\\" 做法：把预训练LLMs里面的参数权重给冻结；向transformer架构中的每一层，注入可训练的 rank decomposition matrices-（低）秩分解矩阵，从而可以显著地减少下游任务所需要的可训练参

2024年02月03日
浏览(50)
论文《LoRA: Low-Rank Adaptation of Large Language Models》阅读

今天带来的是由微软Edward Hu等人完成并发表在ICLR 2022上的论文《LoRA: Low-Rank Adaptation of Large Language Models》，论文提出了大模型 tuning 框架 LoRA （ Lo w- R ank A daptation）。论文地址：https://openreview.net/pdf?id=nZeVKeeFYf9 附录下载地址：https://openreview.net/attachment?id=nZeVKeeFYf9name=supplementa

2024年02月11日
浏览(54)
[论文阅读笔记77]LoRA：Low-Rank Adaptation of Large Language Models

题目论文作者与单位来源年份 LoRA: Low-Rank Adaptation of Large Language Models microsoft International Conference on Learning Representations 2021 524 Citations 论文链接：https://arxiv.org/pdf/2106.09685.pdf 论文代码：https://github.com/microsoft/LoRA 研究主题问题背景核心方法流程亮点数据集结论论文类型关

2024年02月06日
浏览(55)
【论文&代码阅读】LORA: LOW-RANK ADAPTATION OF LARGE LAN- GUAGE MODELS

最近很多工作好像都绕不开lora，无论是sd还是llm.... 问题：大模型重新训练所有模型参数的完全微调变得不太可行。 lora在做什么我们提出了低秩自适应，即LoRA，它冻结预先训练的模型权重，并将可训练的秩分解矩阵注入Transformer架构的每一层为什么work？学习过的参数化模

2024年02月10日
浏览(43)
大模型关于Lora论文集合

《Chain of LoRA:Efficient Fine-tuning of Language Models via Residual Learning》 Chain of LoRA (COLA)，这是一种受 Frank-Wolfe 算法启发的迭代优化框架，旨在弥合 LoRA 和全参数微调之间的差距，而不会产生额外的计算成本或内存开销。COLA 采用残差学习过程，将学习到的 LoRA 模块合并到预先训练的语

2024年01月23日
浏览(66)
生成网络论文阅读：DDPM(一)：Denoising Diffusion Probabilistic Models论文概述

1.我们可以看到最终通过不断的加入噪声，原始的图片变成了一个完全混乱的图片，这个完全混乱的图片就可以当成一个随机生成的噪声图片。（从x0开始不断加入噪声到xt，xt只是一个带有噪声的图片，再逐渐加入更多噪声，到XT的时候图片已经完全变成一个噪声图片了。）

2024年02月05日
浏览(45)
使用 LoRA 技术对 LLaMA 65B 大模型进行微调及推理

前几天，Meta 发布了 LIMA 大模型，在LLaMA-65B的基础上，无需使用 RLHF，只用了 1000 个精心准备的样本数据进行微调，就达到了和 GPT-4 相媲美的程度。这激发了我探索 LLaMA 65B 大模型的兴趣。之前的一系列大模型相关文章都是在LLaMA 7B/13B模型参数上面进行微调，文本使用 LoRA 技

2024年02月08日
浏览(51)
[NLP]使用Alpaca-Lora基于llama模型进行微调教程

Stanford Alpaca 是在 LLaMA 整个模型上微调，即对预训练模型中的所有参数都进行微调（full fine-tuning）。但该方法对于硬件成本要求仍然偏高且训练低效。 [NLP]理解大型语言模型高效微调(PEFT) 因此， Alpaca-Lora 则是利用 Lora 技术，在冻结原模型 LLaMA 参数的情况下，通过往模型中加

2024年02月15日
浏览(59)
【每日论文阅读】生成模型篇

联邦多视图合成用于元宇宙标题: Federated Multi-View Synthesizing for Metaverse 作者: Yiyu Guo; Zhijin Qin; Xiaoming Tao; Geoffrey Ye Li 摘要: 元宇宙有望提供沉浸式娱乐、教育和商务应用。然而，虚拟现实（VR）在无线网络上的传输是数据和计算密集型的，这使得引入满足严格的服务质量要求的

2024年02月02日
浏览(46)
论文阅读_增强语言模型综述

name_en: Augmented Language Models: a Survey name_ch: 增强语言模型综述 paper_addr: http://arxiv.org/abs/2302.07842 date_read: 2023-05-20 date_publish: 2023-02-15 tags: [‘深度学习’,‘自然语言处理’,‘大模型’] author: Grégoire Mialon，Meta 文章是一篇增强语言模型（Augmented Language Models，ALMs）综述，这里的增

2024年02月15日
浏览(58)