TFECN音频分类的时频增强卷积神经网络

这篇具有很好参考价值的文章主要介绍了TFECN音频分类的时频增强卷积神经网络。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

TFECN音频分类的时频增强卷积神经网络

第一章 语音增强之《TFECN: Time-Frequency Enhanced ConvNet for Audio Classification》



前言

语音新手入门,学习读懂论文。
本文作者机构是苏州大学计算机信息处理技术省级重点实验室
TFECN音频分类的时频增强卷积神经网络,音视频,分类,cnn


一、做了什么

音频分类是指将音频片段映射到一个或多个声音事件类别中,是声信号处理中一个活跃的研究课题。为了证明纯ConvNet仍然可以达到领先的性能,作者引入了时频增强ConvNet (TFECN),它结合了Transformer的通用架构设计并改进了频谱图特征的卷积。

二、动机

之前很多工作使用Transformer相关的各种方法来提高模型性能,但尚未有工作试图使用这些方法来改进用于音频分类的ConvNet。

三、挑战

使用纯ConvNet仍然可以在音频分类中取得高级性能

如果一个声音事件类别的视觉模式沿频率轴移动,那么模式所代表的类别或语义很可能发生了变化

使用先前工作提供的预训练权值

四、方法

1.模型图

TFECN音频分类的时频增强卷积神经网络,音视频,分类,cnn
与时间轴对齐的模式是平移不变的,类似于图像中的对象,这意味着视觉模式沿着时间轴的移动可以被视为图像中对象空间位置的变化。相反,沿频率轴分布的模式不是位移不变的,这意味着如果一个声音事件类别的视觉模式沿频率轴移动,那么模式所代表的类别或语义很可能发生了变化,如图1(a)所示。

2.时频增强卷积神经网络

不同阶段采用步幅为2的3×3 conv的下采样层来分离。
在模型开始时,使用一个由7×7 conv和stride 4组成的patchify层来生成谱图patch。
以识别空间格局为主的conv块体,该块体采用倒瓶颈设计。
用1×1核的点向卷积扩展特征维度,然后用组数等于通道数的深度卷积捕获空间模式,最后用另一个点向卷积恢复特征维度。
Transformer在自注意层之后添加了一个MLP作为补充来改善这个问题。受此启发,作者在倒置瓶颈后添加了额外的MLP,以增加不同特征维度之间的通信。

3.时频增强卷积

特征图中不同位置的相同视觉模式通过相同的权值连接到神经元上,最终产生相同的输出。
这意味着不同位置的模式具有相同的语义。在图像中,这与现实相对应,例如,一只狗从左向右移动。但是,当一个时间-频率模式在频谱图中从低频率移动到高频率时,语义可能会发生变化,例如,从哭到笑。
我们首先沿着频率方向扩展核,直到它覆盖整个频率维度,这样当核沿着频率轴滑动时,连接神经元和特征映射的权值总是不同的。如图1(b)所示。
在填充输入特征图使其大小在conv前后不发生变化后,仍然可以保证输出特征图中最左边和最右边的神经元能够覆盖整个频率维度,如图1©所示。
TFECN音频分类的时频增强卷积神经网络,音视频,分类,cnn
把使用这种核的深度卷积称为频率增强卷积(FEConv)。
考虑到时间线索在某些声音事件的识别中也起着重要作用,我们引入了另一种核函数,并将其沿时间方向扩展,以增加时间维度的接受野,使其能够更好地识别时间维度上的移位不变性特征。
使用由TEConv和FEConv共同组成的时频增强卷积(TFEConv)来代替反向瓶颈中的深度卷积。
TFECN音频分类的时频增强卷积神经网络,音视频,分类,cnn
使用两个可学习的权重参数wt和wf对TEConv和FEConv的加权输出求和

4.ImageNet pretraining

使用convformer 预训练模型,这个预训练模型的核大小为7×7,不能直接转移到模型中。首先初始化与TEConv和FEConv中大小相同的两个大核,然后使用预训练的小核的权值对两个大核的中心区域分配权值。TFECN音频分类的时频增强卷积神经网络,音视频,分类,cnn
TFECN音频分类的时频增强卷积神经网络,音视频,分类,cnn

五、实验评价

1.数据集

AudioSet最大的音频分类公共数据集,由200多万个10秒音频片段组成。FSD50K是人工标记声音事件的第二大公共数据集。ESC50包含2000个5秒音频片段,并使用50个类别手动标记。

2.消融实验

TFECN音频分类的时频增强卷积神经网络,音视频,分类,cnn
消融实验从一个类似mobilenetv2的模型开始,与TFECN相比,该模型有两个简化:去除MLP和用7×7核的深度转换取代TFEConv。由于MLP等效于深度可分离卷积中的点卷积,而倒瓶颈等效于深度卷积,因此我们称该模型为深度可分离卷积网络

3.客观评价

TFECN音频分类的时频增强卷积神经网络,音视频,分类,cnn
TFECN音频分类的时频增强卷积神经网络,音视频,分类,cnn

六、结论

介绍了一种用于音频分类的纯卷积神经网络TFECN,它在多个数据集上取得了出色的性能,优于最近基于变压器的模型,这表明纯卷积神经网络仍然可以在音频分类中取得先进的性能。然而,由于训练大核的困难,TFECN过于依赖预训练。在未来,我们将继续探索有效的训练TFECN的方法,使其在不进行预训练的情况下仍能取得优异的性能。

七、知识小结

AP:PR 曲线下面积
mAP:mean Average Precision, 即各类别 AP 的平均值
TP、FP、FN、TNTrue Positive (TP):
查准率(Precision): TP/(TP + FP)
查全率(Recall): TP/(TP + FN)二者绘制的曲线称为 P-R 曲线
TFECN音频分类的时频增强卷积神经网络,音视频,分类,cnn文章来源地址https://www.toymoban.com/news/detail-799930.html

到了这里,关于TFECN音频分类的时频增强卷积神经网络的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 基于卷积神经网络的高光谱图像分类

    近年来深度学习的技术在计算机视觉领域中大放异彩,使得对多光谱数据分类的研究迅速发展,结合2D-CNN,3D-CNN,注意力机制,PCA降维等方法均可使得对多光谱图像的分类精度得以提升。目前CNN网络大量用于传统的CV领域,而对于高光谱图像的分类仍比较缺乏,本文章基于C

    2024年02月10日
    浏览(42)
  • 卷积神经网络实现天气图像分类 - P3

    🍨 本文为🔗365天深度学习训练营 中的学习记录博客 🍦 参考文章:Pytorch实战 | 第P3周:彩色图片识别:天气识别 🍖 原作者:K同学啊 | 接辅导、项目定制 🚀 文章来源:K同学的学习圈子 系统: Linux 语言: Python3.8.10 深度学习框架: Pytorch2.0.0+cu118 首先是包引用 查询当前环境的

    2024年02月12日
    浏览(40)
  • PyTorch实战:卷积神经网络详解+Python实现卷积神经网络Cifar10彩色图片分类

    目录 前言 一、卷积神经网络概述 二、卷积神经网络特点 卷积运算 单通道,二维卷积运算示例 单通道,二维,带偏置的卷积示例 带填充的单通道,二维卷积运算示例 Valid卷积 Same卷积 多通道卷积计算 1.局部感知域 2.参数共享 3.池化层 4.层次化提取  三、卷积网络组成结构

    2024年02月07日
    浏览(57)
  • 卷积神经网络(CNN)实现图像分类——Python

    卷积神经网络(CNN)实现图像分类——Python 输入 1 测试一张图片并预测结果 输入 2 对测试集整体进行测试,得出准确率(10秒左右) 输入其他数字自动退出程序 本程序包含python库较多,请自行配置(pip), 如有需求,请评论或私信 ! 回复其他数字会自动退出程序 输入图片

    2024年02月06日
    浏览(42)
  • 综合实验---基于卷积神经网络的目标分类案例

    ①首先打开 cmd,创建虚拟环境。 如果报错:‘conda’ 不是内部或外部命令,也不是可运行的程序 或批处理文件。请在环境变量里添加Anconda3路径,如果没有Anconda3直接去官网下载就行了 具体步骤:我的电脑—右键属性—高级系统设置—环境变量—系统变量—Path—双击进入—新

    2024年02月13日
    浏览(39)
  • 高光谱分类论文解读分享之基于形态卷积神经网络的高光谱影像分类

    Morphological Convolutional Neural Networks for Hyperspectral Image Classification Swalpa Kumar Roy; Ranjan Mondal; Mercedes E. Paoletti; Juan M. Haut; Antonio Plaza Classification, convolutional neural networks (CNNs), deep learning (DL), hyperspectral images (HSIs), latent feature space transfer, morphological transformations. 在卷积中嵌入形态学运算

    2024年01月17日
    浏览(44)
  • Python基于PyTorch实现卷积神经网络分类模型(CNN分类算法)项目实战

    说明:这是一个机器学习实战项目(附带 数据+代码+文档+视频讲解 ),如需 数据+代码+文档+视频讲解 可以直接到文章最后获取。 卷积神经网络,简称为卷积网络,与普通神经网络的区别是它的卷积层内的神经元只覆盖输入特征局部范围的单元,具有稀疏连接(sparse connec

    2024年02月15日
    浏览(51)
  • 竞赛 深度学习卷积神经网络垃圾分类系统 - 深度学习 神经网络 图像识别 垃圾分类 算法 小程序

    🔥 优质竞赛项目系列,今天要分享的是 深度学习卷积神经网络垃圾分类系统 该项目较为新颖,适合作为竞赛课题方向,学长非常推荐! 🧿 更多资料, 项目分享: https://gitee.com/dancheng-senior/postgraduate 近年来,随着我国经济的快速发展,国家各项建设都蒸蒸日上,成绩显著。

    2024年02月08日
    浏览(47)
  • Pytorch:搭建卷积神经网络完成MNIST分类任务:

    2023.7.18 MNIST百科: MNIST数据集简介与使用_bwqiang的博客-CSDN博客 数据集官网:MNIST handwritten digit database, Yann LeCun, Corinna Cortes and Chris Burges 数据集将按以图片和文件夹名为标签的形式保存:  代码:下载mnist数据集并转还为图片  训练代码: 测试代码: 分类正确率不错:

    2024年02月17日
    浏览(46)
  • 卷积神经网络狗猫数据集的分类

    安装Anaconda 具体安装过程,请自行百度 配置TensorFlow、Keras 创建虚拟环境 输入下面命令: 激活环境 使用下面命令: 安装tensorflow和keras 使用下面命令: 安装完成后,我们需要在指定虚拟环境中新建一个 jupyter notebook 项目,执行如下命令即可将指定环境添加到 jupyter notebook 中

    2024年02月12日
    浏览(38)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包