单通道说话人语音分离——Conv-TasNet(Convolutional Time-domain audio separation Network)

这篇具有很好参考价值的文章主要介绍了单通道说话人语音分离——Conv-TasNet(Convolutional Time-domain audio separation Network)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

单通道说话人语音分离——Conv-TasNet模型(Convolutional Time-domain audio separation Network)

参考文献:《Conv-TasNet: Surpassing Ideal Time-FrequencyMagnitude Masking for Speech Separation》

1.背景

        在真实的声学环境中,鲁棒的语音处理通常需要自动的语音分离。由于这一研究课题对语音处理技术的重要性,人们已经提出了许多方法来解决这一问题。然而,语音分离的准确性,特别是对新演讲者,仍然不够。

        大多数以前的语音分离方法都是在混合信号的时频(T-F,或谱图)表示中制定的,这是使用短时傅里叶变换(STFT)从波形中估计的。T-F域的语音分离方法的目的是从混合谱图中近似出单个源的干净谱图。

        虽然时频掩蔽仍然是最常用的语音分离方法,但该方法存在几个缺点:

首先,STFT是一种通用的信号转换,它不一定是最优的语音分离。

其次,干净源相位的精确重构是一个重要的问题,对相位的错误估计引入了重构音频精度的上界。这个问题是明显的,即使是理想的混合物,理想的干净幅度谱图。虽然相位重建的方法可以用来缓解这一问题,但该方法的性能仍然不理想。

第三,成功地从时频表示中分离出来,需要对混合信号进行高分辨率的频率分解,这需要一个较长的时间窗口来计算STFT。

        为了解决这些缺点,这里提出了一个全卷积时域音频分离网络(Conv-TasNet),一个用于端到端时域语音分离的深度学习框架。Conv-TasNet使用线性编码器生成语音波形的表示。

2.Conv-TasNet模型介绍

单通道说话人语音分离——Conv-TasNet(Convolutional Time-domain audio separation Network)

 如图所示,

(A): TasNet系统的方框图。编码器将混合波形的一部分映射到高维表示法,并且分离模块计算每个目标源的乘法函数(即,掩模)。解码器从掩码特征重建源波形。

(B): 所建议的系统的流程图。一个一维卷积自动编码器对波形进行建模,而一个时间卷积网络(TCN)分离模块基于编码器的输出来估计掩模。TCN中一维卷积块的不同颜色表示不同的膨胀因子。

(C): 一维卷积块的设计。每个块由一个1×1-conv操作组成,然后是一个深度卷积(D−conv)操作,在每两个卷积操作之间添加非线性激活函数和归一化。两个线性的1×1−conv块分别作为剩余路径和跳过连接路径。

这里不对模型进行细讲,具体可以看原文

单通道说话人语音分离——Conv-TasNet(Convolutional Time-domain audio separation Network)

编码器和解码器基函数的可视化,编码器表示,和源掩码的样本2-扬声器混合物。扬声器用红色和蓝色表示。编码器表示法根据每个扬声器在每个基函数和时间点上的功率进行着色。基函数根据其欧几里得相似性进行排序,并在频率和相位调谐上显示出多样性。

训练目标

训练端到端系统的目标是最大化尺度不变的源噪比(SI-SNR),这通常被用作源分离的评估度量,取代标准的源失真比(SDR)

单通道说话人语音分离——Conv-TasNet(Convolutional Time-domain audio separation Network)

 其中,是分离的语音,为目标的语音。

3.实验结果

实验数据:华尔街日报的说话人数据集(要花钱买的,有钱请随意)

两个说话人

单通道说话人语音分离——Conv-TasNet(Convolutional Time-domain audio separation Network)

 三个说话人

单通道说话人语音分离——Conv-TasNet(Convolutional Time-domain audio separation Network)

 

4.展望

说话人分离目前是热门方向,特别是在会议系统里面有很多的应用场景。

但目前关键在于,模型训练太久了,长串联式结构,一个batch只能用1或者2,如何减少训练代价也是一个值得研究的问题。

另外,因为该模型使用的是时域信息,不适用于高采样率音频也是问题,说话人分离的音频都是8kHz采样,16kHz也很勉强训练,同样也是训练代价问题。文章来源地址https://www.toymoban.com/news/detail-475346.html

到了这里,关于单通道说话人语音分离——Conv-TasNet(Convolutional Time-domain audio separation Network)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • STM32自学☞AD单通道

      程序的最终运行成果: 当转动电位器时,数值和电压值发生变化 #include \\\"stm32f10x.h\\\" #include \\\"stm32f10x_adc.h\\\" #include \\\"ad.h\\\" #include \\\"stdint.h\\\" void ad_Init(void) {  /*  初始化步骤:  1.开启GPIO时钟和ADC时钟,配置ADCCLK  2.配置GPIO,模拟输入模式  3.配置多路开关  4.配置ADC转换器  5.开启

    2024年03月21日
    浏览(49)
  • 基于 VITA57.4 标准的单通道 6GSPS 12 位采样 ADC,单通道 6GSPS 16 位采样 DAC 子卡模块

    概述 FMC147 是一款单通道 6.4GSPS(或者配置成 2 通道 3.2GSPS)采样率的 12 位 AD 采集、单通道 6GSPS(或配置成 2 通道 3GSPS) 采样率 16 位 DA 输出子卡模块,该板卡为 FMC+标准,符合 VITA57.4 规范,该模块可以作为一个理想的 IO 单元耦合至 FPGA 前端,ADC 数字端通过 16lane 通道的 JE

    2023年04月16日
    浏览(50)
  • AD7616单通道SPI模式采集数据

    AD7616支持并口及SPI串行通讯,使用单片机采用单线SPI读数据时一直无法正确运行。 1.排查硬件设计,包括模式选择,复位逻辑等,没有问题。 2.用FPGA与AD7616通讯正常,排除7616自身单线模式无法工作的原因。 3.更换时序逻辑完全一致的其他芯片,如AD8686,一切正常。 使用逻辑

    2024年02月13日
    浏览(55)
  • STM32 hal库使用笔记(五)ADC—单通道/双通道DMA传输

    实现目的:利用ADC采集光敏传感器/烟雾传感器的值,并利用串口打印 实验平台:正点原子精英版 一、简介 1.DMA的介绍 参考:STM32 hal库使用笔记(四)DMA—内存到内存/内存到外设_乱码小伙的博客-CSDN博客 2.ADC简介      ADC(Analog-Digital Converter)模拟-数字转换器 ADC可以将引脚

    2024年02月03日
    浏览(57)
  • STM-32:ADC模数转换器—ADC单通道转换/ADC多通道转换

    ADC(Analog-Digital Converter),意即模拟-数字转换器,简称模数转换器。ADC可以将引脚上连续变化的模拟电压转换为内存中存储的数字变量,建立模拟电路到数字电路的桥梁。与ADC相对应,从数字电路到模拟电路的桥梁即DAC(Digital-Analog Convertor),数模转换器。 DAC不是唯一可以

    2024年02月09日
    浏览(44)
  • 机器学习-卷积神经网络CNN中的单通道和多通道图片差异

    最近在使用CNN的场景中,既有单通道的图片输入需求,也有多通道的图片输入需求,因此又整理回顾了一下单通道或者多通道卷积的差别,这里记录一下探索过程。 直接给出结论,单通道图片和多通道图片在经历了第一个卷积层以后,就没有单通道或者多通道的区别了,剩下

    2023年04月11日
    浏览(37)
  • 实验(六):ADC应用:独立模式单通道采集实验

    实验目的: 1. 学习对ADC基础功能的使用; 2. 掌握KEIL5的仿真与调试。 任务: 1.   根据要求编写程序,并写出原理性注释; 2. 将检查程序运行的结果,分析一下是否正确; 3. 完成所建工程的验证调试。 贴片滑动变阻器的动触点通过连接至STM32 芯片的ADC 通道引脚。当我们使

    2024年02月15日
    浏览(50)
  • 修改yolov8使支持单通道图像输入

    yolov8 默认支持BGR三通道图像输入,但是在很多工业场景下,存在很多灰度图像的场景,因此对yolov8代码做一些修改以支持单通道图像输入,满足项目实际需求。 修改后的代码如下: https://github.com/shanglianlm0525/ultralytics-8.1.0 训练/推理时,只需要在输入参数中 添加 ch=1 即可。

    2024年02月13日
    浏览(43)
  • STM32-单通道ADC采集(DMA读取)实验

    关于ADC的一些原理和实验我们已经有了2篇笔记,链接如下: 关于ADC的笔记1_Mr_rustylake的博客-CSDN博客 STM32-ADC单通道采集实验_Mr_rustylake的博客-CSDN博客 实验要求:通过ADC1通道1(PA1)采集电位器的电压,并显示ADC转换的数字量和换算后的电压值。 我们通过下表可以知道DMA1通道

    2024年02月16日
    浏览(50)
  • 毕业设计-基于深度学习的单通道语音降噪技术

    目录 前言 课题背景和意义 实现技术思路 一、基于子空间投影的时域语音降噪 二、基于噪声信息辅助的双阶段语音降噪  三、感知高相关时频损失函数研究 实现效果图样例 最后     📅大四是整个大学期间最忙碌的时光,一边要忙着备考或实习为毕业后面临的就业升学做准备

    2024年02月14日
    浏览(97)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包