【语音增强论文解读 03】TCNN: TEMPORAL CONVOLUTIONAL NEURAL NETWORK FOR REAL-TIME SPEECHENHANCEMENT IN THE TIME

这篇具有很好参考价值的文章主要介绍了【语音增强论文解读 03】TCNN: TEMPORAL CONVOLUTIONAL NEURAL NETWORK FOR REAL-TIME SPEECHENHANCEMENT IN THE TIME。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

作者:Ashutosh Pandey and DeLiang Wang

文末附文章地址及其开源代码地址

1.动机

        尽管使用 T-F 表示是最流行的方法,但它也有一些缺点。首先,这些方法通常忽略干净的相位信息,并使用噪声相位进行时域信号重建。

2.方法

        受成功实现用于序列建模的 TCNN 以及基于编解码器架构的时域语音增强的有效性的启发,建议将它们结合起来以获得实时增强系统。所提出的模型具有基于编码器-解码器的架构,该架构由因果卷积层组成。在编码器和解码器之间插入一个 TCM,以学习过去的长期依赖关系。

3.TCNN

        TCNN 是为具有因果约束的序列建模任务提出的通用卷积网络 。给定一个输入序列和相应的输出序列,序列建模网络通过在某个损失函数上训练网络来学习估计输出序列 。网络上的因果约束意味着预测序列仅取决于输入序列,而不是未来输入。在时域语音增强的情况下,输入序列是噪声帧序列,输出序列是干净帧序列。

        为了施加因果约束,TCNN 由因果卷积层和扩张卷积层组成。因果卷积确保信息不会从未来泄漏到过去。扩张的卷积有助于增加receptive field。receptive field越大,网络越能回顾过去。下说明了使用大小为 2 的滤波器的扩张和因果卷积的示例。

【语音增强论文解读 03】TCNN: TEMPORAL CONVOLUTIONAL NEURAL NETWORK FOR REAL-TIME SPEECHENHANCEMENT IN THE TIME

        此外,TCNN 由残差块组成,因此可以使用残差学习充分训练深度网络。下图显示了这项工作中使用的残差块。

【语音增强论文解读 03】TCNN: TEMPORAL CONVOLUTIONAL NEURAL NETWORK FOR REAL-TIME SPEECHENHANCEMENT IN THE TIME

4.网络架构

        提出的 TCNN 具有三个组件:编码器、解码器和 TCM。编码器和解码器由二维因果卷积层组成,而 TCM 由一维因果卷积层和扩张卷积层组成。所提出框架的框图如下图所示

【语音增强论文解读 03】TCNN: TEMPORAL CONVOLUTIONAL NEURAL NETWORK FOR REAL-TIME SPEECHENHANCEMENT IN THE TIME

        编码器将噪声帧序列作为输入。输入到编码器的大小为 T × 320 × 1,其中 T 是帧数,320 是帧大小,1 是输入通道数。TCM 将三个膨胀块堆叠在一起。一个膨胀块是通过堆叠六个具有指数增加膨胀率的残差块形成的。在膨胀块中,残差块中的连续膨胀率为 1、2、4、8、16 和 32。解码器是编码器的镜像,由一系列二维因果转置卷积(反卷积)层组成。每一层之后解码器的输出与编码器中相应对称层的输出连接。在训练时,向来自编码器的传入跳过连接添加 0.3 的 dropout。解码器中的每一层都遵循批量归一化和参数 ReLU 非线性。

        详细的网络参数在下图中给出。对于编码器和解码器,超参数的格式为 filterHeight × filterWidth,(沿时间步长,沿跨帧步长)。对于 TCM,小括号括起来的条目表示残差块,超参数的格式为 filterSize、dilationRate、outputChannels。

【语音增强论文解读 03】TCNN: TEMPORAL CONVOLUTIONAL NEURAL NETWORK FOR REAL-TIME SPEECHENHANCEMENT IN THE TIME

5.实验

5.1 数据集

        在 WSJ0 SI-84 数据集上以与说话人和噪声无关的方式评估所提出的框架。WSJ0 SI-84 数据集由 83 位说话者(42 位男性和 41 位女性)的 7138 条话语组成。为测试集选择了六个说话人剩下的 77 个说话人用于创建训练集混合。对于训练噪音,使用来自音效库(可在 www.sound-ideas.com 获得)中的 10000 个非语音声音。训练话语的 SNR 为 -5 dB、-4 dB、-3 dB、-2 dB、-1 dB 和 0 dB。通过以下方式创建噪音。首先,随机选择训练说话者的话语、SNR 和噪声类型。然后在选定的 SNR 处将选定的话语与选定噪声类型的随机片段混合。总共生成了 320000 个训练话语。训练噪音的持续时间约为 125 小时,训练话语的持续时间约为 500 小时。

        对于测试集,使用 Auditec CD(可从 http://www.auditec.com 获得)中的两种具有挑战性的噪音(babble and cafeteria)。创建了两个测试集。第一个测试集使用来自训练集的 6 名说话者(3 名男性和 3 名女性)的话语。第二个测试集是根据未包含在训练集中的 6 位(3 位男性和 3 位女性)说话者的话语创建的。这两个测试集评估了受过训练和未受过训练的演讲者的表现。请注意,所有测试话语都从训练集中排除。

 5.2 基线

        对于基线,训练了两个模型。首先,训练一个基于 LSTM 的实时因果系统。在结果中将此模型称为 LSTM。.从输入层到输出层,LSTM模型有161、1024、1024、1024、1024、161单元。其次,训练了最近提出的另一个实时因果系统。该系统是一种循环卷积架构,它使用基于编码器-解码器的卷积网络和 LSTM 进行循环。在结果中将此模型称为 CRN。请注意,两个基线模型都在频域中运行。

 5.3 实验设置

        所有的话语都被重新采样到 16 kHz。使用大小为 20 ms 且重叠为 10 ms 的矩形窗口提取帧。所有模型都使用均方误差损失和batch size为8进行训练。小话语被零填充以匹配批次中最大话语的大小。Adam 优化器用于基于随机梯度下降 (SGD) 的优化。学习率设置为一个小的常数值,等于 0.0002。

5.4 实验结果

        在STOI和PESQ分数方面比较模型。首先,将 TCNN 与受过训练的说话者的基线进行比较。结果在下表给出

【语音增强论文解读 03】TCNN: TEMPORAL CONVOLUTIONAL NEURAL NETWORK FOR REAL-TIME SPEECHENHANCEMENT IN THE TIME

        与LSTM相比,两个SNR的STOI平均改善6.1%。PESQ在-5 dB时提高了0.14,在-2 dB时提高了0.17。类似地,与CRN相比,SNR上的STOI提高了4%,PESQ在-5 dB上提高了0.04,在-2 dB上提高了0.09。

        在未经训练的说话人上比较模型。结果见下表

 【语音增强论文解读 03】TCNN: TEMPORAL CONVOLUTIONAL NEURAL NETWORK FOR REAL-TIME SPEECHENHANCEMENT IN THE TIME

        除了在这种情况下,TCNN 在 PESQ 分数方面也显着优于 CRN,在性能改进中也观察到了类似的趋势。这表明 CRN 模型过拟合训练集中的说话者。还比较了模型中可训练参数的数量。数字在下表中给出。与基线模型相比,所提出的模型具有更少的参数,使其适合在实际应用中的有效实现。

 【语音增强论文解读 03】TCNN: TEMPORAL CONVOLUTIONAL NEURAL NETWORK FOR REAL-TIME SPEECHENHANCEMENT IN THE TIME

        最后,值得一提的是,所提出的框架可以在输入端接受可变帧大小。唯一需要的更改是根据所需的帧大小从编码器和解码器中添加或删除层。此外,该模型可以轻松应用于其他基于回归的监督语音处理任务,例如说话人分离、去混响和回声消除。

6.结论

        在这项研究中,作者提出了一种新颖的全卷积神经网络,用于时域的实时语音增强。所提出的 TCNN 在频域中显着优于现有的实时系统。此外,所提出的框架具有更少的可训练参数。此外,通过对网络的编码器和解码器的简单修改,系统很容易适应不同的帧大小。文章来源地址https://www.toymoban.com/news/detail-433850.html

论文地址:TCNN: Temporal Convolutional Neural Network for Real-time Speech Enhancement in the Time Domain | IEEE Conference Publication | IEEE Xplore

开源代码地址:暂无

到了这里,关于【语音增强论文解读 03】TCNN: TEMPORAL CONVOLUTIONAL NEURAL NETWORK FOR REAL-TIME SPEECHENHANCEMENT IN THE TIME的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 【读点论文】A review of convolutional neural network architectures and their optimizations

    本文详细分析和阐述了卷积神经网络(CNN)的典型架构及其优化的研究进展。本文提出了一种基于模块对 CNN 架构进行分类的典型方法,以适应更多具有多种特征的新网络架构,这些架构很难依赖于原始的分类方法。通过对各种网络架构的优缺点分析及其性能比较, 对六种典

    2024年02月03日
    浏览(41)
  • SRM : A Style-based Recalibration Module for Convolutional Neural Networks论文笔记

    整体结构图: Style Pooling风格池部分: Style Integration风格集成部分 1.提出了一个基于风格的重新校准模块(SRM),他通过利用中间特征映射的风格来自适应地重新校准。 2.SRM首先通过样式池从特征图的每个通道中提取样式信息,然后通过独立于通道的样式集成估计每个通道的重校

    2024年02月11日
    浏览(45)
  • 论文笔记:DCRNN (Diffusion Convolutional Recurrent Neural Network: Data-Driven Traffic Forecasting)

    ICLR 2018 交通预测是一项具有挑战的任务 对道路网络的复杂空间依赖性 随道路条件变化的非线性时间动态 长期预测的固有困难 ——将交通流建模为有向图上的扩散过程 ——引入扩散卷积递归神经网络 (DCRNN) 使用图上的双向随机游走来捕获空间依赖性 使用具有计划采样(sc

    2024年02月01日
    浏览(47)
  • 图像融合论文阅读:IFCNN: A general image fusion framework based on convolutional neural network

    @article{zhang2020ifcnn, title={IFCNN: A general image fusion framework based on convolutional neural network}, author={Zhang, Yu and Liu, Yu and Sun, Peng and Yan, Han and Zhao, Xiaolin and Zhang, Li}, journal={Information Fusion}, volume={54}, pages={99–118}, year={2020}, publisher={Elsevier} } 论文级别:SCI A1 影响因子:18.6 📖 该论文是【

    2024年02月03日
    浏览(45)
  • EEG-GNN论文阅读和分析:《EEG Emotion Recognition Using Dynamical Graph Convolutional Neural Networks》

    下面所有博客是个人对EEG脑电的探索,项目代码是早期版本不完整,需要完整项目代码和资料请私聊。 数据集 1、脑电项目探索和实现(EEG) (上):研究数据集选取和介绍SEED 相关论文阅读分析: 1、EEG-SEED数据集作者的—基线论文阅读和分析 2、图神经网络EEG论文阅读和分析:《

    2024年02月07日
    浏览(51)
  • 【论文阅读】DeepVO: Towards End-to-End Visual Odometry with Deep Recurrent Convolutional Neural Networks

    相较于传统的视觉里程计,端到端的方法可以认为是把特征提取、匹配、位姿估计等模块用深度学习模型进行了替代。不同于那种用深度学习模型取代里程计框架一部分的算法,端到端的视觉里程计是直接将整个任务替换为深度学习,输入依然是图像流,结果也依然是位姿,

    2024年03月18日
    浏览(53)
  • FCT: The Fully Convolutional Transformer for Medical Image Segmentation 论文解读

    论文:The Fully Convolutional Transformer for Medical Image Segmentation (thecvf.com) 代码:Thanos-DB/FullyConvolutionalTransformer (github.com) 期刊/会议:WACV 2023 我们提出了一种新的transformer,能够分割不同形态的医学图像。 医学图像分析的细粒度特性所带来的挑战意味着transformer对其分析的适应仍处

    2024年02月10日
    浏览(41)
  • 【CVPR 2023 论文解读】TriDet: Temporal Action Detection with Relative Boundary Modeling

    发表时间:CVPR 2023 作者团队:北航,美团,JD Explore 代码链接: GitHub - dingfengshi/TriDet: [CVPR2023] Code for the paper, TriDet: Temporal Action Detection with Relative Boundary Modeling [CVPR2023] Code for the paper, TriDet: Temporal Action Detection with Relative Boundary Modeling - GitHub - dingfengshi/TriDet: [CVPR2023] Code for t

    2024年02月05日
    浏览(51)
  • TCN(Temporal Convolutional Network,时间卷积网络)

            实验表明,RNN 在几乎所有的序列问题上都有良好表现,包括语音/文本识别、机器翻译、手写体识别、序列数据分析(预测)等。         在实际应用中,RNN 在内部设计上存在一个严重的问题: 由于网络一次只能处理一个时间步长,后一步必须等前一步处理完才能

    2024年02月01日
    浏览(36)
  • 论文解读:SuperGlue: Learning Feature Matching with Graph Neural Networks

    SuperGlue: Learning Feature Matching with Graph Neural Networks 发表时间:2020 论文地址:https://arxiv.org/abs/1911.11763 项目地址:http://github.com/magicleap/SuperGluePretrainedNetwork。 本文介绍了一种通过联合寻找对应和拒绝非匹配点来匹配两组局部特征的神经网络。通过求解一个可微最优传输问题来估

    2024年02月08日
    浏览(57)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包