【论文笔记】基于预训练模型的持续学习(Continual Learning)(增量学习,Incremental Learning)

这篇具有很好参考价值的文章主要介绍了【论文笔记】基于预训练模型的持续学习(Continual Learning)(增量学习,Incremental Learning)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

论文链接:Continual Learning with Pre-Trained Models: A Survey

代码链接:Github: LAMDA-PILOT

持续学习(Continual Learning, CL)旨在使模型在学习新知识的同时能够保留原来的知识信息了,然而现实任务中,模型并不能很好地保留原始信息,这也就是常说的灾害性遗忘(Catastrophic forgetting)问题。传统的CL方法需要从头开始训练模型(从随机初始化参数开始训练),目前基于大规模数据训练得到的预训练模型为持续学习带来了新的研究思路,预训练模型鲁棒的泛化性给予新任务学习较为成熟的参数,也因此基于预训练模型的CL方法已逐渐成为研究热点。

作者将基于预训练模型的CL方法分为三种:Prompt-based方法、representation-based方法和model mixed-based方法

【论文笔记】基于预训练模型的持续学习(Continual Learning)(增量学习,Incremental Learning),深度学习,论文阅读,论文阅读,人工智能,深度学习

1. Prompt-based 方法

在使用模型全局tuning的方式适应下游任务时,预训练模型的泛化性能会被严重削弱,因此Prompt-based方法在保持预训练模型参数权重不变的条件下, 增加额外可学习的Prompt tuning 模块来实现对下游任务的泛化,这样就能较好地保持原模型的泛化性能。

Vison Prompt Tuning(VPT)在feature patch中串联了一组可学习的参数P,然后使用最小化交叉熵损失的方式将特定任务的信息嵌入到预训练模型中。
【论文笔记】基于预训练模型的持续学习(Continual Learning)(增量学习,Incremental Learning),深度学习,论文阅读,论文阅读,人工智能,深度学习

VPT这种方式虽然可以较好地保留模型的泛化性,但是,在面对新的任务时,以往的Prompt模块的知识同样被覆盖,依旧遭遇了灾难性以往问题。为此,有学者提出了Prompt Pool的概念,设计了Prompt模块的集合,即P={P1,P2,…,Pm}(m表示该Pool的最大尺寸)。Prompt Pool的思想有效避免了单一Prompt的问题,但是Pool的设计使得其需要进行Prompt Selection操作,也就是需要将特定任务与其对应的Prompt模块进行索引匹配。

L2P算法是一种较为常用的Prompt selection算法,该算法设计了一种Key-Query的Prompt匹配方法,也就是为每一个Prompt提供一个可学习的索引键k,即P={(k1,P1),(k2,P2),…,(km,Pm)。L2P利用预训练模型将输入特征编码到Key对用的嵌入空间中,然后利用余弦距离损失函数在已有的Pool中搜索最近似的Key。接着,利用如交叉熵损失等方法对搜索到的Key对应的Prompt进行进行优化。
【论文笔记】基于预训练模型的持续学习(Continual Learning)(增量学习,Incremental Learning),深度学习,论文阅读,论文阅读,人工智能,深度学习

类似的Prompt Selection 算法很多,如DualPrompt算法,该算法将Prompt进行解耦,分化为General Prompt和Expert Prompt。General Prompt面向所有任务,为所有任务中共享信息,而Expert Prompt针对独立任务,数量与任务量一致。其采用了和L2P相同的key-query匹配策略。
【论文笔记】基于预训练模型的持续学习(Continual Learning)(增量学习,Incremental Learning),深度学习,论文阅读,论文阅读,人工智能,深度学习

Prompt Selection虽然可行,但仍是硬匹配,选项有限。基于注意力信息加权的Prompt Combination方法则有效缓解了该问题。如CODA-Prompt通过对Prompt Pool进行注意力机制嵌入,为每个注意力赋予自适应权重,进而求算全局Key-Query的加权和,实现可学习式Prompt组合。我觉得稀疏式注意力Prompt combination应该也是很有趣的研究。
【论文笔记】基于预训练模型的持续学习(Continual Learning)(增量学习,Incremental Learning),深度学习,论文阅读,论文阅读,人工智能,深度学习

从根本上来说Prompt Combination仍受制于Prompt Pool的范围。为此, 许多学者则开展Prompt Generation有关的研究,如DAP,其利用MLP进行特定任务提示信息的编码生成。
【论文笔记】基于预训练模型的持续学习(Continual Learning)(增量学习,Incremental Learning),深度学习,论文阅读,论文阅读,人工智能,深度学习

优点:

  1. Prompt 有助于弥合domain gap,并可有效地对特定任务的知识进行编码。
  2. Prompt Design 属于lightweight模块,与input feature具有相同的维度,因此保存Prompt是parameter-efficient,适用于边缘场景。
  3. Prompt Pool作为预训练模型的外部存储器,其支持自适应知识的检索和特定实例的预测。

缺点:

  1. 一些研究]发现L2P中的prompt selection过程收敛到一个单点,使得prompt selection只集中在特定子集上。
  2. 由于key和query在整个学习过程中不断变化,这些参数的更新将会消除先前任务的参数,导致matchimg-level和prompt-level的遗忘,使prompt selection成为CL的瓶颈。
  3. 固定大小的Prompt Pool会使得模型的表示能力受限。但是,若Prompt Pool随着数据的发展而增长,可能会为旧任务检索新的提示,导致训练和测试之间的不匹配。
  4. 最后,一些研究发现prompt-based CL的性能低于简单的representation-based的baseline性能。并且批量提示有损比较的公平性。

2. Representation-based 方法

representation-based方法直接利用预训练模型强大的泛化性和通用性来实现持续学习。比如Simple-CIL方法,该算法是ADAM算法原文中提出的Baseline,Simple-CIL冻结预训练模型参数,并通过求算类别中心的方式来构建Classifier。具体来说,在面对很多类别时,计算同类的embedding或features的平均值,并将该平均值作为该类别的标准(prototype),最后结合类别标准与余弦比较的方法替换模型的原始Classifier。

虽然基于prototype的方法存在一定的作用,但是并未很好地适应下游任务。为此,一些研究在基于prototype方法的基础上结合了外置参数高效调节模块或者外置适配器来使得预训练模型更加适应下游任务,如ADAM等。
【论文笔记】基于预训练模型的持续学习(Continual Learning)(增量学习,Incremental Learning),深度学习,论文阅读,论文阅读,人工智能,深度学习

ADAM等算法在进行类别标准设定时,类别标准之间的仍存在联系,导致任务效果降低。为此,RanPAC算法则采用online LDA classifier来去除原始方法prototype计算结果之间的相关性,加大类别间的分布差异。此外,RanPAC算法利用Random Projection layer将features映射到高维空间中,并在高维空间中进行prototype的计算,以使得特征分布符合高斯拟合。
【论文笔记】基于预训练模型的持续学习(Continual Learning)(增量学习,Incremental Learning),深度学习,论文阅读,论文阅读,人工智能,深度学习

相较于前面将预训练模型的通用语和适应性分离处理的方式,SLCA算法采用了差异学习率调整和特征经验重播的方式进行持续学习研究。该算法使用较小的learn rate调整模型主体部分,而使用较大的learn rate 调节模型的classifier,以实现模型的逐步微调和classifier的快速适应。为了避免忘记以前的分类器,SLCA还对分类特征分布进行建模,并重播它们以校准classifier。
【论文笔记】基于预训练模型的持续学习(Continual Learning)(增量学习,Incremental Learning),深度学习,论文阅读,论文阅读,人工智能,深度学习

优点:

由于class prototype代表了对应类别最常见的标准格式,因此利用其构建模型具有直观和可解释性。

Representation-based 方法主要是冻结backbone和更新classifier权重。lightweight的更新成本增加了其现实应用的可行性。

缺点:

将不同模型的特征连接起来形成class prototype,容易造成模型信息冗余。例如,不同的backbone中存在重复提取共享特征。

当下游任务涉及多个领域时,在第一阶段调整模型不足以弥合数据集之间的领域差距。在这种情况下,不断调整backbone可能更适合提取特定于任务的特征。

3. Model Mixture-based 方法

Model Mixture-based 方法在持续学习工程中构建了一组模型,然后再推理阶段通过Model Ensemble和Model Merge来进行信息综合决策。

Model Ensemble中,ESN算法凭借预训练模型强大的通用性,构建多个classifier,在面对新任务重新初始化和训练一个新的classifier。在推理时,采用投票策略来整合多个模型的结果进行最终决策。

由于Model Ensemble的核心因素取决于模型的方差,一些研究通过增强模型之间的多样性来替代使用相同的预训练模型构建不同的classifier。如PromptFusion利用预训练的ViT和CLIP,并在推理过程中动态地对logit进行组合,即f(x) = λ fvit (x) +(1−λ)fclip(x)。
【论文笔记】基于预训练模型的持续学习(Continual Learning)(增量学习,Incremental Learning),深度学习,论文阅读,论文阅读,人工智能,深度学习

与多个backbone的集成不同,PROOF采用了仅使用单个CLIP的更全面的推理方法。由于CLIP支持视觉和文本特征的跨模态匹配,因此PROOF设计了一个三层集成,考虑image-to-text、image-to-image prototype、image-to-adjusted text的跨模态融合。
【论文笔记】基于预训练模型的持续学习(Continual Learning)(增量学习,Incremental Learning),深度学习,论文阅读,论文阅读,人工智能,深度学习

Model Merge将多个不同的模型合并为一个统一的模型,无需要额外的训练。LAE定义了online和offline学习协议,online模型通过交叉熵损失进行更新,目的是在新的任务中获取新的知识。离线模型则通过Model Merge进行更新,例如指数移动平均(EMA): θ offline←α·θ offline +(1−α)·θ Online,其中α为权衡参数。LAE仅将EMA应用于参数高效调谐模块(如prompt),其利用online和offline模型的最大logit进行推断。
【论文笔记】基于预训练模型的持续学习(Continual Learning)(增量学习,Incremental Learning),深度学习,论文阅读,论文阅读,人工智能,深度学习

与LAE一样,ZSCL将合并技术应用于CLIP模型,目的是在持续学习过程中保持其zero-shot性能。然而,随着EMA中权衡参数的改变,CLIP性能不再具有鲁棒性。因此,ZSCL建议每隔几次迭代合并参数,从而在模型训练期间创建平滑的损失轨迹。
【论文笔记】基于预训练模型的持续学习(Continual Learning)(增量学习,Incremental Learning),深度学习,论文阅读,论文阅读,人工智能,深度学习

此外,CoFiMA注意到EMA在Merge过程中对每个参数的重要性是相等的,CoFiMA 在Merge过程中插入Fisher information(费雪信息)作为每个参数的估计重要性。
【论文笔记】基于预训练模型的持续学习(Continual Learning)(增量学习,Incremental Learning),深度学习,论文阅读,论文阅读,人工智能,深度学习

优点:

  1. 学习多个模型可以做出不同的决策。因此,使用Model Ensemble和Model Merge自然会产生更健壮的结果。
  2. 由于直接合并模型进行统一预测,因此可以调整前模型和后模型的权重,以突出不同阶段之间知识共享的重要性。
  3. 由于模型集将在推理过程中合并,因此最终的推理成本不会随着模型集中添加更多模型而增加。

缺点:

  1. Model Ensemble需要保存所有的历史模型,并消耗大量的内存缓冲区。虽然基于Model Merge不需要这么大的成本,但合并大型backbone的权重也需要大量的额外计算。
  2. 决定Merge哪些参数仍然是问题。

阅读记录

【论文笔记】基于预训练模型的持续学习(Continual Learning)(增量学习,Incremental Learning),深度学习,论文阅读,论文阅读,人工智能,深度学习文章来源地址https://www.toymoban.com/news/detail-858232.html

到了这里,关于【论文笔记】基于预训练模型的持续学习(Continual Learning)(增量学习,Incremental Learning)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【博士每天一篇文献-算法】Gradient Episodic Memory for Continual Learning

    阅读时间:2023-10-26 年份:2017 作者:David Lopez-Paz, Marc’Aurelio Ranzato 期刊:Part of Advances in Neural Information Processing Systems 30 (NIPS 2017) 引用量:2044 针对持续学习中灾难性遗忘问题提出一种名为Gradient Episodic Memory(GEM)算法,这种算法核心思想是将有益的知识传递给过去的任务。

    2024年02月06日
    浏览(40)
  • 论文浅尝 | SimKGC:基于预训练语言模型的简单对比知识图谱补全

    笔记整理:李雅新,天津大学硕士,研究方向为知识图谱补全 链接:https://dl.acm.org/doi/10.1145/3539597.3570483 动机 知识图谱补全 (KGC) 旨在对已知事实进行推理并推断缺失的链接。基于文本的方法从自然语言描述中学习实体表示,并且具有归纳KGC的潜力。然而,基于文本的方法的

    2024年02月11日
    浏览(48)
  • Pytorch学习笔记(模型训练)

    在同一个包下创建 train.py 和 model.py ,按照步骤先从数据处理,模型架构搭建,训练测试,统计损失,如下面代码所示 train.py model.py 运行 train.py 后可以通过启动tensorboard进行查看我们的loss情况,损失是不断下降的。 补充 argmax 函数的使用 我们模型预测处理的是概率,我们需

    2024年02月07日
    浏览(45)
  • 机器学习笔记:node2vec(论文笔记:node2vec: Scalable Feature Learning for Networks)

    2016 KDD 利用graph上的节点相似性,对这些节点进行embedding 同质性:节点和其周围节点的embedding比较相似 蓝色节点和其周围的节点 结构等价性 结构相近的点embedding相近 比如蓝色节点,都处于多个簇的连接处 随机游走是一种自监督学习的embedding方法,不需要利用节点标签也不

    2024年02月09日
    浏览(43)
  • 论文代码学习—HiFi-GAN(4)——模型训练函数train文件具体解析

    这里翻译了HiFi-GAN这篇论文的具体内容,具体链接。 这篇文章还是学到了很多东西,从整体上说,学到了生成对抗网络的构建思路,包括生成器和鉴定器。细化到具体实现的细节,如何 实现对于特定周期的数据处理?在细化,膨胀卷积是如何实现的?这些通过文章,仅仅是了

    2024年02月14日
    浏览(43)
  • 大模型学习笔记08——分布式训练

    模型规模的扩大,对硬件(算力、内存)的发展提出要求。然而,因为内存墙的存在,单一设备的算力及容量,受限于物理定律,持续提高芯片的集成越来越困难,难以跟上模型扩大的需求。 为了解决算力增速不足的问题,人们考虑用多节点集群进行分布式训练,以提升算力

    2024年01月23日
    浏览(46)
  • K210学习笔记——MaixHub在线训练模型(新版)

      最近sipeed推出了新版的maixhub在线训练平台,因为前端时间比较忙没有时间来体验新版的功能,最近闲下来后赶忙来体验一下。新版maixhub对浏览器有要求的,比如不支持qq浏览器,推荐使用Chrome、Microsoft Edge、Firefox、Safari等浏览器。点击这里跳转新版maixhub。   新版mai

    2023年04月08日
    浏览(38)
  • 高效微调大型预训练模型的Prompt Learning方法

    近年来,自然语言处理(NLP)领域的预训练模型日益增多,应用场景也变得多样。从NER(命名实体识别)到生成任务,如何高效地使用这些模型并进行微调成为了研究和实践的重要课题。本文将深入探讨一种称为Prompt Learning的方法,通过选择模型、构建模板、定义verbalizer等步

    2024年02月02日
    浏览(43)
  • 选择和训练模型(Machine Learning 研习之十一)

    当您看到本文标题时,不禁感叹,总算是到了 训练模型 这一节了。 是啊,在之前的文章中,我们对数据进行了探索,以及对一个训练集和一个测试集进行了采样,也编写了一个 预处理 管道来自动清理,准备您的数据用于 机器学习 算法,然而现在,我们可以选择并训练模型

    2024年01月18日
    浏览(49)
  • 土堆学习笔记——P28完整的模型训练套路(二)

    怎么知道模型有没有训练好?有没有达到想要的需求? 解决方法:在每轮训练之后加一个测试,在测试数据集上看效果(看损失之类的)。 注意:在测试时候不调优,仅为看效果。 还可以用tensorboard可视化损失 截图最后一行没写完[false, true].sum()=1 这个值/个数 Argmax使用 Ar

    2024年01月17日
    浏览(39)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包