【Transformer论文】CMKD：用于音频分类的基于 CNN/Transformer 的跨模型知识蒸馏

这篇具有很好参考价值的文章主要介绍了【Transformer论文】CMKD：用于音频分类的基于 CNN/Transformer 的跨模型知识蒸馏。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

文献题目：CMKD: CNN/Transformer-Based Cross-Model
Knowledge Distillation for Audio Classification
文献时间：2022

摘要

音频分类是一个活跃的研究领域，具有广泛的应用。在过去十年中，卷积神经网络 (CNN) 已成为端到端音频分类模型的事实上的标准构建块。最近，仅基于自注意力机制（如音频频谱图Transformer （AST））的神经网络已被证明优于 CNN。在本文中，我们发现了两个非常不同的模型之间的有趣交互——CNN 和 AST 模型是彼此的好老师。当我们使用其中任何一个作为教师并通过知识蒸馏（KD）将另一个模型训练为学生时，学生模型的性能显着提高，并且在许多情况下优于教师模型。在我们使用这种 CNN/Transformer 跨模型知识蒸馏 (CMKD) 方法的实验中，我们在 FSD50K、AudioSet 和 ESC-50 上实现了新的最先进的性能

引言

音频分类旨在识别给定音频记录中发生的声音事件，并使各种基于人工智能的系统能够消除声音的歧义并了解声学环境。历史上，手工制作的特征和隐马尔可夫模型（HMM）被用于音频分类[1]、[2]、[3]。随着过去十年神经网络的兴起，卷积神经网络 (CNN) [4] 已成为端到端音频分类模型的事实上的标准构建块，旨在学习直接映射从音频波形或频谱图到相应的标签 [5]、[6]、[7]、[8]、[9]、[10]。最近，纯粹基于自注意力的神经网络，例如音频频谱图转换器 (AST) [11]、[12]、[13]，已被证明在各种音频上进一步优于使用卷积神经网络构建的深度学习模型分类任务，从而将 Transformers 的成功从自然语言处理 [14]、[15] 和计算机视觉 [16]、[17] 扩展到音频领域。
CNN 和 Transformer 模型都有各自的优势。例如，CNN 模型具有一些内置的归纳偏差，例如空间局部性和平移等效性，使其非常适合基于频谱图的端到端音频分类。 Transformer 模型没有这种内置的归纳偏差，并且以更加数据驱动的方式学习，使其更加灵活。因此，CNN 和 Transformer 模型学习的表示明显不同 [18]。另一方面，虽然 Transformer 模型表现更好，但由于其 $O(n^2)$ 复杂度，它们在长音频输入上的计算效率低于 CNN 模型。
在本文中，我们展示了两个非常不同的模型之间的有趣交互——CNN 和 AST 模型是彼此的好老师。当我们使用一个模型作为教师并通过知识蒸馏（KD）训练另一个模型作为学生时，学生模型的性能明显提高，并且在大多数情况下优于教师模型。我们将 CNN 和 Transformer 模型之间的这种知识蒸馏框架称为跨模型知识蒸馏（CMKD）。跨模型知识蒸馏的成功并非微不足道，因为

跨模型知识蒸馏在 CNN→Transformer 和 Transformer→CNN 两个方向上双向工作。通常在 KD 中，老师需要比学生更强，但是对于跨模型的知识蒸馏，弱的老师仍然可以提高学生的表现。
2）对于两个方向，学生在知识蒸馏后都优于老师，即使老师本来就更强大。
3）同一类的两个模型之间的KD导致性能提升小得多或没有提升。因此，通过提出的跨模型知识蒸馏，具有均值池的简单 EfficientNet KD-CNN 模型在 FSD50K 和 ESC50 数据集上优于更大的 AST 模型。相反，KD-AST 模型在 FSD50K、AudioSet 和 ESC50 数据集上实现了最新的性能。

本文的贡献有三个：第一，据我们所知，我们是第一个探索 CNN 和 Transformer 模型之间的双向知识蒸馏的人；之前的努力 [17]、[19] 仅研究 CNN→Transformer 方向，并在视觉领域进行。其次，我们对标准音频分类数据集进行了广泛的实验，并找到了最佳的知识蒸馏设置。此外，我们进行了一系列探测测试和消融研究，以探索跨模型知识蒸馏的工作机制。第三，由于提出的跨模型 KD 框架，小型高效的 CNN 模型匹配或优于以前的最先进模型； AST 模型在 FSD50K、AudioSet 和 ESC50 上实现了更好的性能并取得了新的最先进的结果。我们还在各种 CNN、CNN-attention 和 Transformer 模型上评估 CMKD，发现它提高了所有这些模型的性能，表明 CMKD 是一种通用方法——所有类型的模型都可以从 CMKD 中受益。