[论文笔记]Adapter turning

这篇具有很好参考价值的文章主要介绍了[论文笔记]Adapter turning。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

引言

今天带来第一篇大语言模型高效微调的论文Adapter Tuning笔记。

预训练+微调的范式是一种高效的迁移学习机制。然而,当有很多下游任务时,微调参数并不高效:对于每个任务都要有一个全新的模型。

作者提出了基于adapter模块的迁移学习方法,可以产生一个紧凑和可扩展的模型。只需要为每个任务增加少部分可训练参数,而固定原来模型的参数。

作者说Adapter可以获取接近SOTA的表现。

总体介绍

在预训练的模型中进行迁移学习可以在很多NLP任务上得到很好的表现。当下游任务很多时,又不希望为每个下游任务微调一个全新的模型。

作者提出了基于adapter模块的迁移学习方法,可以产生一个紧凑和可扩展的模型。紧凑意味着对于每个任务只需要额外少量的参数。可扩展意味着可以逐步训练以解决新任务,而不会忘记先前的任务。

在NLP中最常用的迁移学习技术有两种,分别是基于特征的迁移和微调。作者提出了基于adapter模块的另一种迁移学习方法。

基于特征的迁移关于预训练实数嵌入向量,这些向量可以为单词、语句或段落级别。然后把这些向量应用到自定义的下游模型。

微调就是从预训练的模型中拷贝权重然后基于下游任务更新它们。最近的工作表面微调通常效果比基于特征要好。

但是这两种方法都需要为每个任务训练一组新的权重,而作者提出的adpater微调方法可以更高效的利用参数。

[论文笔记]Adapter turning,论文翻译/笔记,# 大模型[论文],论文阅读,深度学习,人工智能

图1的x轴表示每文章来源地址https://www.toymoban.com/news/detail-731197.html

到了这里,关于[论文笔记]Adapter turning的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【YOLO系列】YOLOv3论文超详细解读(翻译 +学习笔记)

    YOLOv3(《Yolov3:An incremental improvement》)是Joseph Redmon大佬关于YOLO系列的最后一篇,由于他反对将YOLO用于军事和隐私窥探,2020年2月宣布停止更新YOLO。  YOLOv3在YOLOv2的基础上改良了网络的主干,利用多尺度特征图进行检测,改进了多个独立的Logistic regression分类器来取代softmax来

    2024年02月07日
    浏览(63)
  • 【YOLO系列】YOLOv7论文超详细解读(翻译 +学习笔记)

    终于读到传说中的YOLOv7了~≖‿≖✧ 这篇是在美团的v6出来不到一个月就高调登场,作者还是我们熟悉的AB大神(对,就是v4那个),读起来又是“熟悉”的感觉(贯穿了我的整个五一假期(╯-_-)╯╧╧)。 其实关于YOLOv7的网络结构还有很多细节值得深入研究,以及代码

    2024年02月02日
    浏览(75)
  • 【YOLO系列】YOLOv1论文超详细解读(翻译 +学习笔记)

    从这篇开始,我们将进入YOLO的学习。YOLO是目前比较流行的目标检测算法,速度快且结构简单,其他的目标检测算法如RCNN系列,以后有时间的话再介绍。 本文主要介绍的是YOLOV1,这是由以Joseph Redmon为首的大佬们于2015年提出的一种新的目标检测算法。它与之前的目标检测算法

    2024年02月04日
    浏览(61)
  • 【YOLO系列】YOLOv2论文超详细解读(翻译 +学习笔记)

    时隔一年,YOLOv2隆重登场,新的YOLO版本论文叫《YOLO9000: Better, Faster, Stronger》,作者 Joseph Redmon 和 Ali Farhadi 在 YOLOv1 的基础上,进行了大量改进,提出了 YOLOv2 和 YOLO9000,重点解决YOLOv1召回率和定位精度方面的不足。 论文原文:[1612.08242] YOLO9000: Better, Faster, Stronger (arxiv.org) 项

    2023年04月08日
    浏览(54)
  • 经典神经网络论文超详细解读(六)——DenseNet学习笔记(翻译+精读+代码复现)

    上一篇我们介绍了ResNet:经典神经网络论文超详细解读(五)——ResNet(残差网络)学习笔记(翻译+精读+代码复现) ResNet通过短路连接,可以训练出更深的CNN模型,从而实现更高的准确度。今天我们要介绍的是 DenseNet(《Densely connected convolutional networks》) 模型,它的基本

    2024年02月03日
    浏览(62)
  • 经典神经网络论文超详细解读(八)——ResNeXt学习笔记(翻译+精读+代码复现)

    今天我们一起来学习何恺明大神的又一经典之作:  ResNeXt(《Aggregated Residual Transformations for Deep Neural Networks》) 。这个网络可以被解释为 VGG、ResNet 和 Inception 的结合体,它通过重复多个block(如在 VGG 中)块组成,每个block块聚合了多种转换(如 Inception),同时考虑到跨层

    2024年02月03日
    浏览(55)
  • 经典神经网络论文超详细解读(五)——ResNet(残差网络)学习笔记(翻译+精读+代码复现)

    《Deep Residual Learning for Image Recognition》这篇论文是何恺明等大佬写的,在深度学习领域相当经典,在2016CVPR获得best paper。今天就让我们一起来学习一下吧! 论文原文:https://arxiv.org/abs/1512.03385 前情回顾: 经典神经网络论文超详细解读(一)——AlexNet学习笔记(翻译+精读)

    2024年02月08日
    浏览(47)
  • 论文翻译:DeepFilterNet

    论文题目 :DeepFilterNet: A Low Complexity Speech Enhancement Framework for Full-Band Audio based on Deep Filtering 题目译文 :DeepFilterNet:基于深度滤波器的全频带音频低复杂度语音增强框架 论文地址 :https://arxiv.org/abs/2110.05588 论文代码 :https://github.com/Rikorose/DeepFilterNet 引用 :Schröter H, Rosenkr

    2024年02月07日
    浏览(63)
  • 论文翻译插件推荐

    火山翻译,字节旗下产品。 火山翻译 - 在线翻译 (volcengine.com)   使用方法: 翻译PDF文件:在浏览器上安装火山翻译插件之后,可以将浏览器打开的pdf文件,在其中选中某行文字进行翻译,方便快捷; 翻译网页:右键翻译网页。 安装火山翻译浏览器插件:火山翻译浏览器插件

    2024年02月13日
    浏览(45)
  • Segment Anything【论文翻译】

    https://segment-anything.com/ https://arxiv.org/pdf/2304.02643.pdf 本文由博主 墨理学AI 借助翻译工具对该论文进行了翻译 ​​ 我们介绍Segment Anything(SA)项目:这是一个全新的任务、模型和图像分割数据集。通过在数据收集循环中使用我们高效的模型,我们建立了迄今为止最大的分割数据

    2024年02月14日
    浏览(55)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包