05｜音频降噪概述(1)一传统降噪方法-Toy模板网

这篇具有很好参考价值的文章主要介绍了05｜音频降噪概述(1)一传统降噪方法。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

一. 噪声的分类：

加性噪声和乘性噪声：

稳态噪声和非稳态噪声：

二. 如何降噪

1.线性滤波器：

2.谱减法

3.基于统计模型的实时降噪算法

3.1 核心思想：

3.2 基于两个假设：

3.3 维纳滤波

WebRTC原生降噪算法的三个特点：

3.4 改进方法OMLSA & IMCRA

4.子空间算法

思想：

算法：

算法场景：

4.基于机器学习的降噪

5.其他降噪方法

一. 噪声的分类：

加性噪声和乘性噪声：

加性噪声：加性噪声和信号直接不相关，满足加性条件。由噪声和源信号相加得到的。种类按照声源，比如风声、汽笛声、键盘敲击声等。

乘性噪声：噪声和信号是相关联的，比如房间的混响、信号的衰减、开普勒效应等。并且往往是从信道传输中产生，也叫信号噪声。

稳态噪声和非稳态噪声：

从降噪的角度，按照噪声是否稳定。

稳态噪声：一直存在且响度、频率分布等特性不随时间变化或变化缓慢。如手机、电脑之类的设备底噪、电脑散热架的风扇声等。

非稳态噪声：这些噪声等统计特性随时间变化比如开关门等声音、门铃声、背景人声等。非稳态噪声按照是否连续又分为 连续非稳态噪声（持续的背景人声）和瞬态噪声（敲击声）。

如下图，左稳态噪声右为非稳态噪声：

音频降噪算法,音频技术学习总结,音视频,降噪,维纳滤波,语音降噪,噪音分类

稳态噪声可以通过之前出现过的噪声进行建模抑制。非稳态噪声则是通过区分和正常语音的差异。另外噪声往往不是单独存在。

二. 如何降噪

1.线性滤波器：

【频段降噪、硬件】

线性滤波器处理方法算力要求较低，但需知道噪声会在哪个频段出现。实际中会先做噪声出现的频段检测，再设计线性滤波器或滤波器组来消除噪声。

常见于音频采集硬件中，因为硬件厂商知道自己的硬件噪声特性。如电路设计中有些频段会有持续的电流声，则可以采用比如高通滤波器消除滴频噪声、用一些陷波滤波器消除某些频段的持续噪声。

2.谱减法

【非人声、减噪声谱、幅度谱减法、功率谱减法】

核心是先取一段非人声音频，记录下噪声的频谱能量，然后从音频频谱中减去这个噪声频谱能量。适用于离线稳态噪声的降噪处理。

3.基于统计模型的实时降噪算法

3.1 核心思想：

用统计的方法估算出音频每个频点对应噪声和语言的能量。 (适用于相对平稳噪声)

3.2 基于两个假设：

噪声相对于人声在时频域上的声学统计特性更稳定。
所有的噪声都满足加性条件。

3.3 维纳滤波

采用最小均方误差准则设计的线性滤波器。

如实时频域维纳滤波器，目标是求当前帧每个频点的能量中有多少占比是语音。只能通过后验的带噪信号与噪声的信噪比估计前验的语音和含噪信号比值。

3.3.1维纳滤波的降噪原理：

从动态平滑的噪声模型得到噪声，根据带噪信号和噪声模型经过维纳滤波器进行降噪。

音频降噪算法,音频技术学习总结,音视频,降噪,维纳滤波,语音降噪,噪音分类

3.3.2 流程：

短时傅里叶变换（加窗分帧），再快速傅里叶变换得到模，再求功率谱。
利用功率谱进行分位数噪声估计、语音存在概率、噪声更新以及噪声抑制系数计算。
得到的每个频点的抑制系数乘带噪信号的频谱得到降噪后的频谱。
ISTFT得到降噪后的时域信号。

3.3.3 分位数噪声估计与维纳滤波降噪的特点

分位数噪声估计与维纳滤波的降噪算法逻辑背后的思考：

基于统计的降噪主要是对噪声进行建模(一般是稳态的噪声)。且噪声模型迭代不能太快，比如WebRTC所用的分位数噪声估计是基于频域更新，更新周期大约是700ms。当噪声发生了变化，模型可能需要500ms-4s的时间来收敛到新的噪声模型，并且会存在噪声残留。
降噪思想类似于谱减法，利用无人段进行噪声估计。
为区分人声与非人声采用VAD。这里VAD通过人工提取的特征统计得出的语音存在概率进行判断。特征包括，频谱平坦度、频谱差异度以及先验和后验信噪比的差异得出的似然因子。

3.3.4 Speech Probability的计算流程：

音频降噪算法,音频技术学习总结,音视频,降噪,维纳滤波,语音降噪,噪音分类