【Transformer论文】CMKD:用于音频分类的基于 CNN/Transformer 的跨模型知识蒸馏

这篇具有很好参考价值的文章主要介绍了【Transformer论文】CMKD:用于音频分类的基于 CNN/Transformer 的跨模型知识蒸馏。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

  • 文献题目:CMKD: CNN/Transformer-Based Cross-Model
    Knowledge Distillation for Audio Classification
  • 文献时间:2022

摘要

  • 音频分类是一个活跃的研究领域,具有广泛的应用。 在过去十年中,卷积神经网络 (CNN) 已成为端到端音频分类模型的事实上的标准构建块。 最近,仅基于自注意力机制(如音频频谱图Transformer (AST))的神经网络已被证明优于 CNN。 在本文中,我们发现了两个非常不同的模型之间的有趣交互——CNN 和 AST 模型是彼此的好老师。 当我们使用其中任何一个作为教师并通过知识蒸馏(KD)将另一个模型训练为学生时,学生模型的性能显着提高,并且在许多情况下优于教师模型。 在我们使用这种 CNN/Transformer 跨模型知识蒸馏 (CMKD) 方法的实验中,我们在 FSD50K、AudioSet 和 ESC-50 上实现了新的最先进的性能

引言

  • 音频分类旨在识别给定音频记录中发生的声音事件,并使各种基于人工智能的系统能够消除声音的歧义并了解声学环境。历史上,手工制作的特征和隐马尔可夫模型(HMM)被用于音频分类[1]、[2]、[3]。随着过去十年神经网络的兴起,卷积神经网络 (CNN) [4] 已成为端到端音频分类模型的事实上的标准构建块,旨在学习直接映射从音频波形或频谱图到相应的标签 [5]、[6]、[7]、[8]、[9]、[10]。最近,纯粹基于自注意力的神经网络,例如音频频谱图转换器 (AST) [11]、[12]、[13],已被证明在各种音频上进一步优于使用卷积神经网络构建的深度学习模型分类任务,从而将 Transformers 的成功从自然语言处理 [14]、[15] 和计算机视觉 [16]、[17] 扩展到音频领域。
  • CNN 和 Transformer 模型都有各自的优势。 例如,CNN 模型具有一些内置的归纳偏差,例如空间局部性和平移等效性,使其非常适合基于频谱图的端到端音频分类。 Transformer 模型没有这种内置的归纳偏差,并且以更加数据驱动的方式学习,使其更加灵活。 因此,CNN 和 Transformer 模型学习的表示明显不同 [18]。 另一方面,虽然 Transformer 模型表现更好,但由于其 O ( n 2 ) O(n^2) O(n2) 复杂度,它们在长音频输入上的计算效率低于 CNN 模型。
  • 在本文中,我们展示了两个非常不同的模型之间的有趣交互——CNN 和 AST 模型是彼此的好老师。当我们使用一个模型作为教师并通过知识蒸馏(KD)训练另一个模型作为学生时,学生模型的性能明显提高,并且在大多数情况下优于教师模型。我们将 CNN 和 Transformer 模型之间的这种知识蒸馏框架称为跨模型知识蒸馏(CMKD)。跨模型知识蒸馏的成功并非微不足道,因为
  1. 跨模型知识蒸馏在 CNN→Transformer 和 Transformer→CNN 两个方向上双向工作。通常在 KD 中,老师需要比学生更强,但是对于跨模型的知识蒸馏,弱的老师仍然可以提高学生的表现。
    2)对于两个方向,学生在知识蒸馏后都优于老师,即使老师本来就更强大。
    3)同一类的两个模型之间的KD导致性能提升小得多或没有提升。因此,通过提出的跨模型知识蒸馏,具有均值池的简单 EfficientNet KD-CNN 模型在 FSD50K 和 ESC50 数据集上优于更大的 AST 模型。相反,KD-AST 模型在 FSD50K、AudioSet 和 ESC50 数据集上实现了最新的性能。
  • 本文的贡献有三个:第一,据我们所知,我们是第一个探索 CNN 和 Transformer 模型之间的双向知识蒸馏的人;之前的努力 [17]、[19] 仅研究 CNN→Transformer 方向,并在视觉领域进行。其次,我们对标准音频分类数据集进行了广泛的实验,并找到了最佳的知识蒸馏设置。此外,我们进行了一系列探测测试和消融研究,以探索跨模型知识蒸馏的工作机制。第三,由于提出的跨模型 KD 框架,小型高效的 CNN 模型匹配或优于以前的最先进模型; AST 模型在 FSD50K、AudioSet 和 ESC50 上实现了更好的性能并取得了新的最先进的结果。我们还在各种 CNN、CNN-attention 和 Transformer 模型上评估 CMKD,发现它提高了所有这些模型的性能,表明 CMKD 是一种通用方法——所有类型的模型都可以从 CMKD 中受益。

跨模型知识蒸馏

文章来源地址https://www.toymoban.com/news/detail-416258.html

到了这里,关于【Transformer论文】CMKD:用于音频分类的基于 CNN/Transformer 的跨模型知识蒸馏的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 在Transformer模块上用CNN网络搭建方式解决图像分类问题

    来源:投稿 作者:摩卡 编辑:学姐 论文标题: DeepViT: Towards Deeper Vision Transformer 本文受到传统CNN网络搭建方式的启发(深层的CNN网络可以学习到关于图像更加丰富和复杂的表示), 于是思考是否可以将这种搭建方式迁移到Transformer模块上, 以此搭建深度的Transformer网络结构处理图

    2024年02月04日
    浏览(26)
  • NodeFormer:一种用于节点分类的可扩展图结构学习Transformer

    图神经网络已经被广泛研究用于利用互连数据进行学习。尽管如此,最近的证据表明,GNN的缺陷与过度挤压、异质性、处理长程依赖性、边缘不完全性有关,尤其是完全没有图。虽然一个合理的解决方案是学习用于消息传递的新的自适应拓扑,但有关二次复杂性的问题阻碍了

    2024年02月11日
    浏览(46)
  • 【音频分类与检测】PANNs:用于音频模式识别的大规模预训练音频神经网络

    音频模式识别是机器学习领域的一个重要研究课题,它包括 音频标注、声音场景分类、音乐分类、语音情感分类和声音事件检测 等任务。近年来,神经网络已被应用于解决音频模式识别问题。然而,以前的系统是建立在特定数据集上的,数据集时长有限。 最近,在计算机视

    2024年02月02日
    浏览(32)
  • RadioTransformer:用于视觉注意力引导疾病分类的级联全局焦点Transformer

    利用放射科医生的注视模式并模拟他们的视觉认知行为,以在胸部X光片上进行疾病诊断。 放射科医生等领域专家依靠视觉信息来解释医学图像。 另一方面,视觉解释有挑战性,但是视线跟踪已被用来捕获领域专家的观看行为,从而深入了解视觉搜索的复杂性。但即使是那些

    2024年04月29日
    浏览(21)
  • 论文浅尝 | 预训练Transformer用于跨领域知识图谱补全

    笔记整理:汪俊杰,浙江大学硕士,研究方向为知识图谱 链接:https://arxiv.org/pdf/2303.15682.pdf 动机 传统的直推式(tranductive)或者归纳式(inductive)的知识图谱补全(KGC)模型都关注于域内(in-domain)数据,而比较少关注模型在不同领域KG之间的迁移能力。随着NLP领域中迁移学习的成功,

    2024年02月15日
    浏览(33)
  • 论文笔记:ViT Adapter——Transformer与CNN特征融合,屠榜语义分割!

    论文题目:《VISION TRANSFORMER ADAPTER FOR DENSE PREDICTIONS》 会议时间:ICLR 2023 论文地址:https://openreview.net/pdf?id=plKu2GByCNW 源码地址:https://github.com/czczup/ViT-Adapter   Transformer在计算机视觉领域取得了显著的成功,主要得益于transformer的 动态建模能力(dynamic modeling capability) 和 注

    2024年04月15日
    浏览(21)
  • 【论文阅读】Swin Transformer Embedding UNet用于遥感图像语义分割

    Swin Transformer Embedding UNet for Remote Sensing Image Semantic Segmentation 全局上下文信息是遥感图像语义分割的关键 具有强大全局建模能力的Swin transformer 提出了一种新的RS图像语义分割框架ST-UNet型网络(UNet) 解决方案:将Swin transformer嵌入到经典的基于cnn的UNet中 ST-UNet由Swin变压器和CNN并联

    2024年02月08日
    浏览(43)
  • 用于肺结节分类的常规 EHR 的纵向多模态Transformer集成成像和潜在临床特征

    该研究提出了一种基于Transformer 的多模态策略,用于将重复成像与常规电子健康记录(EHRs)中的纵向临床特征整合,以进行孤立性肺结节(SPN)的分类。通过对潜在临床特征进行无监督解缠,并利用时间-距离缩放的自注意力机制,共同学习临床特征的表达和胸部计算机断层

    2024年04月26日
    浏览(19)
  • 基于CNN-Transformer时间序列预测模型

      基于CNN-Transformer时间序列预测模型   特色:1、单变量,多变量输入,自由切换             2、单步预测,多步预测,自动切换            3、基于Pytorch架构            4、多个评估指标(MAE,MSE,R2,MAPE等)            5、数据从excel文件中读取,更换简单

    2024年02月11日
    浏览(30)
  • (5)步态识别论文研读——GaitDAN:基于对抗域适应的跨视角步态识别

    GaitDAN: Cross-view Gait Recognition via Adversarial Domain Adaptation | IEEE Journals Magazine | IEEE Xplore GaitDAN: Cross-view Gait Recognition via Adversarial Domain Adaptation 基于对抗与适应 摘要:视角变化导致步态外观存在显着差异。因此,识别跨视角场景中的步态是非常具有挑战性的。最近的方法要么在进

    2024年04月27日
    浏览(19)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包