[论文笔记]Adapter turning-Toy模板网

这篇具有很好参考价值的文章主要介绍了[论文笔记]Adapter turning。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

引言

今天带来第一篇大语言模型高效微调的论文Adapter Tuning笔记。

预训练+微调的范式是一种高效的迁移学习机制。然而，当有很多下游任务时，微调参数并不高效：对于每个任务都要有一个全新的模型。

作者提出了基于adapter模块的迁移学习方法，可以产生一个紧凑和可扩展的模型。只需要为每个任务增加少部分可训练参数，而固定原来模型的参数。

作者说Adapter可以获取接近SOTA的表现。

在预训练的模型中进行迁移学习可以在很多NLP任务上得到很好的表现。当下游任务很多时，又不希望为每个下游任务微调一个全新的模型。

作者提出了基于adapter模块的迁移学习方法，可以产生一个紧凑和可扩展的模型。紧凑意味着对于每个任务只需要额外少量的参数。可扩展意味着可以逐步训练以解决新任务，而不会忘记先前的任务。

在NLP中最常用的迁移学习技术有两种，分别是基于特征的迁移和微调。作者提出了基于adapter模块的另一种迁移学习方法。

基于特征的迁移关于预训练实数嵌入向量，这些向量可以为单词、语句或段落级别。然后把这些向量应用到自定义的下游模型。

微调就是从预训练的模型中拷贝权重然后基于下游任务更新它们。最近的工作表面微调通常效果比基于特征要好。

但是这两种方法都需要为每个任务训练一组新的权重，而作者提出的adpater微调方法可以更高效的利用参数。

[论文笔记]Adapter turning,论文翻译/笔记,# 大模型[论文],论文阅读,深度学习,人工智能

图1的x轴表示每文章来源地址https://www.toymoban.com/news/detail-731197.html

到了这里，关于[论文笔记]Adapter turning的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！