毕业设计-基于深度学习的单通道语音降噪技术

这篇具有很好参考价值的文章主要介绍了毕业设计-基于深度学习的单通道语音降噪技术。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

目录

前言

课题背景和意义

实现技术思路

一、基于子空间投影的时域语音降噪

二、基于噪声信息辅助的双阶段语音降噪

 三、感知高相关时频损失函数研究

实现效果图样例

最后


前言


    📅大四是整个大学期间最忙碌的时光,一边要忙着备考或实习为毕业后面临的就业升学做准备,一边要为毕业设计耗费大量精力。近几年各个学校要求的毕设项目越来越难,有不少课题是研究生级别难度的,对本科同学来说是充满挑战。为帮助大家顺利通过和节省时间与精力投入到更重要的就业和考试中去,学长分享优质的选题经验和毕设项目与技术思路。

🚀对毕设有任何疑问都可以问学长哦!

选题指导: https://blog.csdn.net/qq_37340229/article/details/128243277

大家好,这里是海浪学长毕设专题,本次分享的课题是

🎯毕业设计-基于深度学习的单通道语音降噪技术

课题背景和意义

语音作为一种快捷、高效的通信方式,在人人交互以及人机交互中拥有重要 地位。日常生活中有大量与语音相关的应用,如手机通话,自动 语音识别(Automatic Speech Recognition,ASR),智能语音助手,电子助听器 等。这些应用大多需要在相对安静的环境中才能正常工作,然而在现实世界中, 往往不可避免地存在各种各样的噪声干扰,如自然噪声(风声,雨声等),机器 噪声(发动机工作声,风扇转动声等)以及人为噪声(餐厅中他人的说话声等) 等等。这些噪声干扰会导致语音质量和可懂度的下降,进而影响语音应用的正常 工作。以人机交互中的重要环节语音识别为例,在复杂噪声的干扰下,语音质量 明显下降,语音识别准确率也随之严重降低。为了抑制噪声的干扰,提高语音应 用的鲁棒性,语音降噪变得愈发重要。语音降噪是一种从带噪语音信号中恢复干净语音信号,进而 提高语音信号听感质量和可懂度的技术手段。

实现技术思路

一、基于子空间投影的时域语音降噪

研究动机 令𝑥, 𝑠, 𝑛 ∈ ℝ𝑇分别代表带噪语音信号,干净语音信号和加性噪声信号,其中 T 代表信号采样点数。则带噪语音信号可以由下式表示:

深度学习语音降噪,卷积神经网络,毕设选题教程,深度学习,课程设计,算法,语音识别,深度学习,人工智能

 令𝑓𝜃(⋅)代表语音降噪模型,其中𝜃表示模型中的可学习参数,则增强后的语 音信号可以由下式表示:

深度学习语音降噪,卷积神经网络,毕设选题教程,深度学习,课程设计,算法,语音识别,深度学习,人工智能

语音降噪的目标在于让增强语音信号与干净语音信号拥有尽可能接近的语 音听感质量。

深度学习语音降噪,卷积神经网络,毕设选题教程,深度学习,课程设计,算法,语音识别,深度学习,人工智能

 现有的基于深度学习的语音降噪方法大多采用了编码器-解码器的网络结构, 如上图所示。这类方法先通过编码器将带噪语音编码得到嵌入向量,经过一些中间处理后再将嵌入向量送入解码器来预测干净语音。然而送入解码器的嵌入向 量不可避免地同时包含语音信息和噪声信息,直接用它进行解码可能会影响对干 净语音的预测。

基于子空间投影的时域语音降噪方法描述

SPTSNRN 的整体结构如图所示。SPTSNRN 基于经典的时域降噪模型 Wave-U-Net设计。它主要由四部分构成,分别为编码器,投影模块,语音解码 器以及噪声解码器。对于输入的带噪语音 x,编码器首先将它编码得到包含高层 次特征的嵌入向量 embmix,该嵌入向量同时包含了语音信息和噪声信息。

深度学习语音降噪,卷积神经网络,毕设选题教程,深度学习,课程设计,算法,语音识别,深度学习,人工智能

 (1) 投影模块

投影模块具体结构如图所示,它由一个卷积模块和两个并行的自注意力 层(Self-Attention,SA)构成。其中卷积模块用于进一步提取嵌入向量的局部特征,而两个自注意力层则用于提取全局信息并将 embmix 投影得到语音嵌入向量 embs 和噪声嵌入向量 embn。下面介绍使用自注意力层实现投影的原理。

自注意力层是构建 Transformer[25]的重要部分,它与递归神经网络一样具备 时序建模能力,能够提取时序信息。

自注意力层的可学习参数由 3 个矩阵构成, 依次为𝑊𝑞 ∈ ℝ 𝑑𝑞×𝑑𝑥,𝑊𝑘 ∈ ℝ𝑑𝑘×𝑑𝑥和𝑊𝑣 ∈ ℝ𝑑𝑣×𝑑𝑥,其中𝑑𝑞,𝑑𝑘,𝑑𝑣分别表示查 询向量,键向量和值向量的维度,𝑑 表示输入时间序列的特征维度。最后值矩阵 V 与注意 力矩阵 A 相乘得到最终输出𝑋𝑜𝑢𝑡 ∈ ℝ𝑑𝑣×𝑇。自注意力层的输入输出关系如式所示。

深度学习语音降噪,卷积神经网络,毕设选题教程,深度学习,课程设计,算法,语音识别,深度学习,人工智能

 通过简单推导不难得到 SA 的最终输出𝑋𝑜𝑢𝑡可以写成下面的形式:

深度学习语音降噪,卷积神经网络,毕设选题教程,深度学习,课程设计,算法,语音识别,深度学习,人工智能

 可以看到输出序列𝑋𝑜𝑢𝑡的每一个时间点的输出都是矩阵𝑊𝑣与一向量的乘积。 如图所示,不难证明矩阵与向量相乘的结果是矩阵列向量的线性组合,因而 𝑋𝑜𝑢𝑡的每一帧都处在𝑊𝑣的列向量所张成的子空间内。

深度学习语音降噪,卷积神经网络,毕设选题教程,深度学习,课程设计,算法,语音识别,深度学习,人工智能

 通过对两个𝑊𝑣添加正交约束,让它们的列向量彼此正交,我们可以让两个自 注意力层输出所在的子空间互相正交,从而极大程度地分离嵌入向量中的语音信 息与噪声信息。为此与 Subspace[40]一样,我们在训练中额外添加了针对两个𝑊𝑣 的正交约束损失 LOC,其计算方法如式所示:

深度学习语音降噪,卷积神经网络,毕设选题教程,深度学习,课程设计,算法,语音识别,深度学习,人工智能

 (2) 编码器 编码器的具体结构如图所示,它由 L 个卷积模块级联构成,每个卷积模 块包含一维 CNN,批归一化层(Batch Normalization,BN),含参修正线性单元 激活函数(Parametric Rectified Linear Unit,PReLU)以及下采样层(Down Sampling, DS)。

深度学习语音降噪,卷积神经网络,毕设选题教程,深度学习,课程设计,算法,语音识别,深度学习,人工智能

 (3) 解码器 解码器包含了语音解码器和噪声解码器两个模块,两个解码器的具体结构完 全一致。

深度学习语音降噪,卷积神经网络,毕设选题教程,深度学习,课程设计,算法,语音识别,深度学习,人工智能

 由于在编码过程和投影过程中难免会造成信息的丢失,故本文在编码器和解 码器对应卷积模块间添加了跳连。

深度学习语音降噪,卷积神经网络,毕设选题教程,深度学习,课程设计,算法,语音识别,深度学习,人工智能

二、基于噪声信息辅助的双阶段语音降噪

在以上基础上提出了基于噪声信息辅助的双阶段语音降噪模型 SPTSNRN-MN。该模型在 SPTSNRN 的基础上添加了融合网络(Merge Network, MN),该网络能够进一步利用 SPTSNRN 中噪声解码器预测的噪声信息来辅助 和提升最终的语音降噪效果。

研究动机

利用训练好的 SPTSNRN 对 VBD 测试集中的带噪语音同时预测 语音信号和噪声信号,然后比较语音解码器直接预测的语音信号和利用噪声解码 器间接预测的语音信号在 PESQ 上的差异。比较结果如图所示。

深度学习语音降噪,卷积神经网络,毕设选题教程,深度学习,课程设计,算法,语音识别,深度学习,人工智能

下图展示了间接 预测的语音和直接预测的语音的语谱图对比。其中带噪语音的噪声场景为公共广 场,信噪比为 12.5dB。

深度学习语音降噪,卷积神经网络,毕设选题教程,深度学习,课程设计,算法,语音识别,深度学习,人工智能

基于噪声信息辅助的双阶段语音降噪方法描述

选用两种融合方案都先通过网络预测权重, 然后通过该权重对直接预测的和间接预测的语音信号以加权相加的形式进行融 合。该权重能反映不同时间下直接预测和间接预测语音的相对质量,当某段时间 内间接预测的语音信号质量更好时,融合网络可以赋予它更大的权值,反之则赋 予直接预测的语音信号更大的权重,从而使得最终得到的语音信号拥有更好的语 音质量。

针对两种融合方案,设计了对应的融合网络。图展示了时域融合 网络的具体结构。其中𝑠̂和𝑛̂分别表示 SPTSNRN 预测的语音信号与噪声信号,x为带噪语音信号,𝑠𝑓 𝑙 ̂ 为最终预测的语音信号。

深度学习语音降噪,卷积神经网络,毕设选题教程,深度学习,课程设计,算法,语音识别,深度学习,人工智能

图展示了频域融合网络的具体结构。该网络完全由 5 个二维卷积模块构 成。其中前 4 个二维卷积模块由二维 CNN,BN 层以及 PReLU 激活函数构成, 最后一个卷积模块将 PReLU 激活函数替换成 Sigmoid 激活函数。所有 CNN 的 卷积核大小为(7,3),卷积步长为(1,1),从前至后 CNN 的输出通道数依 次为 36,72,72,36,1。、

深度学习语音降噪,卷积神经网络,毕设选题教程,深度学习,课程设计,算法,语音识别,深度学习,人工智能

通过将 SPTSNRN 与 MN 级联我们可以得到一个双阶段的语音降噪网络 SPTSNRN-MN,其网络结构如图所示。该网络首先在第一个阶段利用 SPTSNRN 预测语音信号以及噪声信号,然后在第二个阶段用 MN 将噪声信号与 语音信号相融合以得到更好降噪语音信号。

深度学习语音降噪,卷积神经网络,毕设选题教程,深度学习,课程设计,算法,语音识别,深度学习,人工智能

 三、感知高相关时频损失函数研究

从损失函数出发,分析目前常用的损失函数与语音听感质量存在的失配 问题,并针对该问题提出了感知高相关时频损失函数。

研究动机

语音降噪的最终目的是希望让增强语音具有和真实语音一样的听感质量。尽 管 PESQ 等客观评价指标能较好地评估语音听感质量,但是由于这些指标在计算 过程中涉及了一些不可导的运算操作,所以无法直接将这些客观评价作为损失函 数指导网络的训练。

将 VBD 测试集中的带噪语音和干净语 音分解成 2 秒的片段,然后利用这些语音片段计算上述常用损失函数的损失值以 及对应的 PESQ,接着分析这些损失值与 PESQ 的相关度。这里我们采用样本皮 尔森相关系数 r 来衡量相关度,其计算方法如式所示:

深度学习语音降噪,卷积神经网络,毕设选题教程,深度学习,课程设计,算法,语音识别,深度学习,人工智能

其中 N 为样本数,𝑋̅,𝑌̅分别代表 X 和 Y 的样本均值,𝜎𝑋和𝜎𝑌分别代表 X 和 Y 的样本标准差。r 的取值范围为-1 至 1,其绝对值越大,说明两个变量越相关,反之则说明越不相关。我们以样本的损失值为横坐标,PESQ 为纵坐标画出所有 样本的分布图,具体如图所示。

深度学习语音降噪,卷积神经网络,毕设选题教程,深度学习,课程设计,算法,语音识别,深度学习,人工智能

感知高相关时频损失函数方法描述

感知高相关视频损失函数的计算流程如图所示,其中𝑠与𝑠̂分别代表干净 语音和增强语音,𝐴与𝐴̂为对应的对数幅度谱(Log Amplitude Spectrum,LAS)。

深度学习语音降噪,卷积神经网络,毕设选题教程,深度学习,课程设计,算法,语音识别,深度学习,人工智能

 相比 AES,MAES 中与感知更相关的误差分量获得了更大的权重。最后再对 MAES 在时间和频率上求平均便得到了最终的 PHRTF 损 失。PHRTF 损失详细的计算方法如式所示,其中⊗表示按元素 相乘。

深度学习语音降噪,卷积神经网络,毕设选题教程,深度学习,课程设计,算法,语音识别,深度学习,人工智能

1、频谱感知掩模预测

频谱感知掩模预测模块具体结构如图所示。该模块的结构比较简单,主 要包含了 L 个级联的卷积模块,一个动态平均池化层,一个线性层以及 Sigmoid 激活函数。其中每个卷积模块均由一个二维 CNN 以及 ReLU 激活函数组成。动 态平均池化层会对输入特征图的每个通道内的特征值取平均。

深度学习语音降噪,卷积神经网络,毕设选题教程,深度学习,课程设计,算法,语音识别,深度学习,人工智能

2、PHRTF 损失训练方法

未训练的 PSMP 不能正确预测 PSM,故需要用合适的训练任务对 PSMP 模 块进行训练,以提升 PHRTF 损失与语音听感质量的相关度。考虑到 PESQ 能较 好的衡量语音听感质量,这里我们以提升 PHRTF 损失与 PESQ 的相关度为训练 目标。我们用皮尔森相关系数来衡量两者的相关度

深度学习语音降噪,卷积神经网络,毕设选题教程,深度学习,课程设计,算法,语音识别,深度学习,人工智能

实现效果图样例

语音降噪技术:

深度学习语音降噪,卷积神经网络,毕设选题教程,深度学习,课程设计,算法,语音识别,深度学习,人工智能

我是海浪学长,创作不易,欢迎点赞、关注、收藏、留言。

毕设帮助,疑难解答,欢迎打扰!文章来源地址https://www.toymoban.com/news/detail-627668.html

最后

到了这里,关于毕业设计-基于深度学习的单通道语音降噪技术的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 毕业设计-基于深度学习的垃圾分类识别方法

    目录 前言 课题背景和意义 实现技术思路 一、目标检测算法对比研究 二、垃圾数据集的制作 实现效果图样例 最后     📅大四是整个大学期间最忙碌的时光,一边要忙着备考或实习为毕业后面临的就业升学做准备,一边要为毕业设计耗费大量精力。近几年各个学校要求的毕设

    2024年02月06日
    浏览(85)
  • 毕业设计-基于深度学习的图像文字识别系统

    目录 前言 课题背景和意义 实现技术思路 一、基本原理 二、基于深度学习的图像文字识别技术 三、总结 实现效果图样例 最后     📅大四是整个大学期间最忙碌的时光,一边要忙着备考或实习为毕业后面临的就业升学做准备,一边要为毕业设计耗费大量精力。近几年各个学校

    2024年02月05日
    浏览(56)
  • 毕业设计-基于深度学习的智能车牌识别系统

    目录 前言 课题背景和意义 实现技术思路 一、车牌识别的一般流程 二、智能车牌识别系统的设计思路 三、基于深度学习的智能车牌识别系统的实现 四、智能车牌识别系统的训练与测试 五、总结 实现效果图样例 最后     📅大四是整个大学期间最忙碌的时光,一边要忙着备考

    2024年02月06日
    浏览(68)
  • 毕业设计-基于深度学习的垃圾邮件过滤系统的设计与实现

    目录 前言 课题背景和意义 实现技术思路 实现效果图样例     📅大四是整个大学期间最忙碌的时光,一边要忙着备考或实习为毕业后面临的就业升学做准备,一边要为毕业设计耗费大量精力。近几年各个学校要求的毕设项目越来越难,有不少课题是研究生级别难度的,对本科同学

    2024年02月02日
    浏览(55)
  • 毕业设计-基于深度学习的图像去雾算法

    目录 前言 课题背景和意义 实现技术思路 实现效果图样例     📅大四是整个大学期间最忙碌的时光,一边要忙着备考或实习为毕业后面临的就业升学做准备,一边要为毕业设计耗费大量精力。近几年各个学校要求的毕设项目越来越难,有不少课题是研究生级别难度的,对本科同学

    2024年02月02日
    浏览(68)
  • 毕业设计-基于深度学习的交通标识识别-opencv

    目录 前言 课题背景和意义 实现技术思路 实现效果图样例     📅大四是整个大学期间最忙碌的时光,一边要忙着备考或实习为毕业后面临的就业升学做准备,一边要为毕业设计耗费大量精力。近几年各个学校要求的毕设项目越来越难,有不少课题是研究生级别难度的,对本科同学

    2024年02月02日
    浏览(55)
  • 毕业设计 基于深度学习的图像修复算法 DCGAN

    今天学长向大家分享一个毕业设计项目 基于深度学习的图像修复算法 DCGAN 项目获取: https://gitee.com/sinonfin/algorithm-sharing 图像修复是指利用复杂的算法重建图形中丢失或损坏的部分的过程。在现实生活中,这项工作仍然由经验丰富的图像修复师来完成。图像修复技术主要用来

    2024年01月21日
    浏览(73)
  • 基于深度学习YOLOv5电动车头盔佩戴检测设计毕业设计

    wx供重浩:创享日记 对话框发送:625头盔 获取完整源码源文件+标注好的数据集(在源码文件夹-yolov5-5.0-VOCdevkit)+优秀论文+答辩PPT及文稿等 一、环境安装配置等请详见该教程 :点击查看 二、下载该源码解压后从PyCharm中打开 三、下载安装相关包开始训练和识别,可以参考教程

    2024年02月11日
    浏览(69)
  • 基于Python的人脸识别系统 深度学习 毕业设计 (附源码)

             人脸识别系统是一种基于人脸图像或视频进行人物身份认证和识别的技术。 技术进步:随着计算机视觉和深度学习技术的发展,人脸识别系统取得了长足进步。特别是卷积神经网络(CNN)的出现,使得人脸识别系统在准确性、鲁棒性和性能上都有了显著提升。

    2024年02月05日
    浏览(63)
  • 毕业设计-基于深度学习的图像去噪方法研究

    目录 前言 课题背景和意义 实现技术思路 实现效果图样例     📅大四是整个大学期间最忙碌的时光,一边要忙着备考或实习为毕业后面临的就业升学做准备,一边要为毕业设计耗费大量精力。近几年各个学校要求的毕设项目越来越难,有不少课题是研究生级别难度的,对本科同学

    2023年04月18日
    浏览(50)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包