【论文阅读】Lora

这篇具有很好参考价值的文章主要介绍了【论文阅读】Lora。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

概述

  • 目的在原有大模型上进行fine tune,训练个性化模型

  • idea:将pretrained model参数冻住,额外训练一个module进行调整,最终输出是原始输出+经过module的输出。
    【论文阅读】Lora

  • 技巧:通过低秩分解大大降低了需要训练参数的数量。矩阵分解:对于一个 m ∗ n m*n mn的矩阵,若它的秩是r,则可以通过 m ∗ r m*r mr r ∗ n r*n rn的矩阵近似

方法

【论文阅读】Lora文章来源地址https://www.toymoban.com/news/detail-486672.html

  • W 0 W_0 W0是预训练模型的参数, △ W \triangle W W是添加module的参数, x x x是输入。注意这里 A A A为高斯随机初始化, B B B初始化为0,这样一开始 △ W = 0 \triangle W=0 W=0,整个模型的输出与预训练模型一样,有利于模型的收敛
  • 这里只对attention层中的参数进行矩阵分解,包括 W q , W k , W v , W o W_q, W_k, W_v, W_o Wq,Wk,Wv,Wo
  • 当r=d的时候,就相当于对所有参数进行微调
  • 没有额外的inference延迟,因为最后计算的时候可以先让 W 0 W_0 W0 △ W \triangle W W相加,然后再乘x,与之前直接和x相乘的计算量差不多

实验

  • 为什么lora效果好?即使是fine tune所有的参数,得到的 △ W \triangle W W矩阵的秩也是很低的,因此可以做低质分解降低需要训练的参数量
  • 矩阵分解的位置。实验发现在总参数量保持一致的情况下施加在4个参数上效果最好,单独施加效果最差
    【论文阅读】Lora
  • r的选择。在nlp任务上,r取4能够得到较好的效果。作者也通过实验说明当r较小时与较大的r能够有很高的相似性。q矩阵的秩高于v矩阵的秩
    【论文阅读】Lora
  • △ W \triangle W W放大了 W W W在某些方向上的表达(下游任务中需要的某些方向)

注意

  • 在实验中作者为了简单只对 w q w_q wq W v W_v Wv进行分解
  • lora在小样本fine tune上的效果很好(10k以下)

到了这里,关于【论文阅读】Lora的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【论文阅读】LoRA: Low-Rank Adaptation of Large Language Models

    code:GitHub - microsoft/LoRA: Code for loralib, an implementation of \\\"LoRA: Low-Rank Adaptation of Large Language Models\\\" 做法: 把预训练LLMs里面的参数权重给 冻结 ; 向transformer架构中的每一层, 注入 可训练的 rank decomposition matrices-(低)秩分解矩阵,从而可以显著地减少下游任务所需要的可训练参

    2024年02月03日
    浏览(50)
  • 论文《LoRA: Low-Rank Adaptation of Large Language Models》阅读

    今天带来的是由微软Edward Hu等人完成并发表在ICLR 2022上的论文《LoRA: Low-Rank Adaptation of Large Language Models》,论文提出了大模型 tuning 框架 LoRA ( Lo w- R ank A daptation)。 论文地址:https://openreview.net/pdf?id=nZeVKeeFYf9 附录下载地址:https://openreview.net/attachment?id=nZeVKeeFYf9name=supplementa

    2024年02月11日
    浏览(54)
  • [论文阅读笔记77]LoRA:Low-Rank Adaptation of Large Language Models

    题目 论文作者与单位 来源 年份 LoRA: Low-Rank Adaptation of Large Language Models microsoft International Conference on Learning Representations 2021 524 Citations 论文链接:https://arxiv.org/pdf/2106.09685.pdf 论文代码:https://github.com/microsoft/LoRA 研究主题 问题背景 核心方法流程 亮点 数据集 结论 论文类型 关

    2024年02月06日
    浏览(55)
  • 【论文&代码阅读】LORA: LOW-RANK ADAPTATION OF LARGE LAN- GUAGE MODELS

    最近很多工作好像都绕不开lora,无论是sd还是llm.... 问题:大模型重新训练所有模型参数的完全微调变得不太可行。 lora在做什么 我们提出了低秩自适应,即LoRA,它冻结预先训练的模型权重,并将可训练的秩分解矩阵注入Transformer架构的每一层 为什么work? 学习过的参数化模

    2024年02月10日
    浏览(43)
  • 大模型关于Lora论文集合

    《Chain of LoRA:Efficient Fine-tuning of Language Models via Residual Learning》 Chain of LoRA (COLA),这是一种受 Frank-Wolfe 算法启发的迭代优化框架,旨在弥合 LoRA 和全参数微调之间的差距,而不会产生额外的计算成本或内存开销。COLA 采用残差学习过程,将学习到的 LoRA 模块合并到预先训练的语

    2024年01月23日
    浏览(66)
  • 生成网络论文阅读:DDPM(一):Denoising Diffusion Probabilistic Models论文概述

    1.我们可以看到最终通过不断的加入噪声,原始的图片变成了一个完全混乱的图片,这个完全混乱的图片就可以当成一个随机生成的噪声图片。(从x0开始不断加入噪声到xt,xt只是一个带有噪声的图片,再逐渐加入更多噪声,到XT的时候图片已经完全变成一个噪声图片了。)

    2024年02月05日
    浏览(45)
  • 使用 LoRA 技术对 LLaMA 65B 大模型进行微调及推理

    前几天,Meta 发布了 LIMA 大模型,在LLaMA-65B的基础上,无需使用 RLHF,只用了 1000 个精心准备的样本数据进行微调,就达到了和 GPT-4 相媲美的程度。这激发了我探索 LLaMA 65B 大模型的兴趣。 之前的一系列大模型相关文章都是在LLaMA 7B/13B模型参数上面进行微调,文本使用 LoRA 技

    2024年02月08日
    浏览(51)
  • [NLP]使用Alpaca-Lora基于llama模型进行微调教程

    Stanford Alpaca 是在 LLaMA 整个模型上微调,即对预训练模型中的所有参数都进行微调(full fine-tuning)。但该方法对于硬件成本要求仍然偏高且训练低效。 [NLP]理解大型语言模型高效微调(PEFT) 因此, Alpaca-Lora 则是利用 Lora 技术,在冻结原模型 LLaMA 参数的情况下,通过往模型中加

    2024年02月15日
    浏览(59)
  • 【每日论文阅读】生成模型篇

    联邦多视图合成用于元宇宙 标题: Federated Multi-View Synthesizing for Metaverse 作者: Yiyu Guo; Zhijin Qin; Xiaoming Tao; Geoffrey Ye Li 摘要: 元宇宙有望提供沉浸式娱乐、教育和商务应用。然而,虚拟现实(VR)在无线网络上的传输是数据和计算密集型的,这使得引入满足严格的服务质量要求的

    2024年02月02日
    浏览(46)
  • 论文阅读_增强语言模型综述

    name_en: Augmented Language Models: a Survey name_ch: 增强语言模型综述 paper_addr: http://arxiv.org/abs/2302.07842 date_read: 2023-05-20 date_publish: 2023-02-15 tags: [‘深度学习’,‘自然语言处理’,‘大模型’] author: Grégoire Mialon,Meta 文章是一篇增强语言模型(Augmented Language Models,ALMs)综述,这里的增

    2024年02月15日
    浏览(58)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包