基于自适应软掩模的语音混合特征增强分析

目前，音频处理技术获得了众多学者的关注与研究，相关语音处理技术也得到了开发应用^[1-2]。例如，在开展时，需要根据语音特征来判断语音信息，各项语音特征对应的语音信息也存在差异，实际性能也具有明显区别^[3]。但根据传统语音特征进行分析时，滤波器存在较大限制，并不能对人耳听觉非线性过程达到良好匹配性，这对系统过程具有明显阻碍^[4]。其中，梅尔滤波器组在高频率段表现为更加稀疏的特点，由此造成高频特征丢失的结果，按照人耳耳蜗结构构建的伽马通滤波器组能够非常准确体现人耳基底膜结构特征，同时实现优异鲁棒性能^[5,6]。

本文引用地址：

根据上述研究结果，本文设计了一种以与共同分析的算法来实现的效果。以进行分析时，可以消除单一梅尔域滤波器无法提供高频特征的缺陷。

1 本文方案

选择IRM作为学习目标时，可以根据语音能量与噪语音强度比例将其设置于0~1 区间内。采用IRM 建立学习目标时，可以获得较小失真度的增强语音，同时有效消除背景残留噪声。关于上述传统学习目标控制情况，本文开发了一种以语音相位差实现的语音增强方法。上述学习目标综合考虑了语音幅度与相位差，能够对问题形成更深刻的理解。

以组成深度神经网络输入，再以融合相位

参数的来实现语音增强的效果。此算法由训练与测试2个过程构成，从图1 中可以看到包含混合特征与融合相位的系统框图。

图1 本文语音增强算法系统

1.1 训练阶段训练阶段

第1 步先对纯净语音、信号噪声、含噪语音实施预处理，之后利用Gammatone 滤波器对上述音频信号开展时频分解，由此获得耳蜗值。进行反向调优时采用最小均方误差法进行处理，结果见式（1）：

（1）

式中，V_soft(t,f)与_soft(t,f) 分别对应第t 帧与第f 频带最优时频掩蔽参数与采用网络模型估计得到的输出结果，T 为语音帧的总数量。

1.2 测试阶段测试阶段

先提取获得语音特征参数，再将其输入神经网络模型内，并根据网络模型确定学习目标。综合考虑测试集含噪语音特征与时频掩蔽值确定增强语音特征，最终利用含噪相位完成语音数据的重构。

2 实验结果与分析

2.1 实验数据的选取

为了对本文混合特征与自适应软掩模过程的性能特点进行验证，从IEEE 语音数据库内选出90 条独立语音，信号频率保持一致。按照同样信噪比对剩余20 条纯净语音与噪声后半段进行混合处理形成测试集。

2.2 对比实验分析

根据表1给出的对比算法对本文混合与学习目标进行有效性测试。

表1 对比实验内容及其编号

以对比算法1 进行处理是为了对本文混合特征性能优异性进行验证，根据对比算法2 与3 可知，本文建立的融合相位自适应软掩模能够满足有效性要求。为实现对本文算法性能的更直观判断，将语音置于Factory 噪声环境中，控制信噪比为5 dB 条件下获得增强算法时域波形。

为综合分析本文算法的实际处理性能，设置了PESQ 与STOI 两个指标对混合特征与自适应软掩模进行有效性验证，得到表2~4 中在不同噪声与信噪比环境中的PESQ 与STOI。根据表2 可知，带噪语音信噪比为-5dB 的情况下，算法1 与2 显示，对于各噪声条件，PESQ 值提升了0.11 的均值水平，STOI 值则获得了0.02的提升。会与算法2、3 相比，PESQ 值提升了0.21，同时STOI 提升了0.02。

表2 信噪比为-5dB的性能对比

根据表3 可知，带噪语音信噪比为0dB 的条件下，各噪声下的PESQ 值都提升达到0.18，STOI 值提升了0.01。与算法2、3 相比，PESQ 值提升了0.16，同时STOI 提升了0.01。

表3 信噪比为0dB的性能对比

对表4 进行分析可知，设置带噪语音信噪比5dB 的条件下，各种噪声下的PESQ 值都提升了近0.12，此时STOI 值提升了0.01。PESQ 值提升0.16，STOI 指标提升0.01。

表4 信噪比为5dB的性能对比

综合分析表2~4 中各项参数得到以下结果：

1）对比算法1 与2 结果可知，混合特征增强语音属于单特征MFCC，在所有信噪比与噪声环境中，PESQ 值都提升了0.14，同时STOI 提升了0.01。根据算法1 与2 结果可以判断本文设计的混合特征具备明显优势，对提升语音质量发挥着关键作用。

2）通过对比算法2 与3 结果可以发现，以本文融合相位差自适应软掩模可以获得比IRM 更显著优势，对于本文信噪比与噪声环境，增强语音PESQ 值提升了0.18，同时提升了0.01 的 STOI。算法2 与3 表明采用本文融合相位差自适应软掩模能够在获得更优增强语音质量的条件下改善可懂度。

3）比较算法1 与3 测试结果可知，经过优化处理的语音特征与学习目标构建得到的语音增强算法能够促进语音质量的明显提升。增强语音PESQ 值提升0.32，STOI 提升了0.03。表明本文设计的算法具备明显优势。

为准确分析实验结果，将各算法对应的PESQ 与STOI 均值具体见图2 与图3。从以上结果中可以推断本文设计的混合特征与融合相位自适应软掩模具备明显优越性。

图2 给出了各信噪比下以不同算法获得的增强语音PESQ 均值，结果发现，以自适应软掩模与混合特征训练神经网络处理获得的各信噪比PESQ 均值都超过其余两种算法。由此表明采用本文经过改进后的语音特征与目标达到更优的算法性能。

图2 不同信噪比下增强语音PESQ平均值

图3给出了各信噪比下以不同算法获得的增强语音STOI均值，对图3进行分析可以发现，选择自适应软掩模与混合特征训练神经网络进行处理时获得的各个信噪比下的STOI值达到了最大。因此采用本文设计的混合特征能够对语音特性达到更准确评价的效果，并且利用融合相位差的自适应软掩模能够对时频单元掩蔽结果进行准确评估。通过上述两者的结合后能够在获得更优增强语音质量的条件下进一步促进可懂度的提高。

图3 不同信噪比下增强语音STOI平均值

3 结束语

1）选择融合相位自适应软掩模方式时，能最大程度去除背景噪声，满足有效性要求。

2）经过优化处理的语音特征与学习目标构建得到的语音增强算法能够促进语音质量提升。

3）以自适应软掩模与混合特征训练神经网络处理获得的各信噪比PESQ和STOI值都超过其余两种算法，采用本文经过改进后的语音特征与目标达到更优的算法性能。

参考文献：

[1] 李如玮,孙晓月,李涛.基于幂函数压缩梅尔倒谱系数和掩膜后处理的多目标学习语音增强算法[J].电子与信息学报,2021,43:1-8.

[2] 孙坤伦,夏秀渝,孙文慧.基于听觉掩蔽效应的改进型维纳滤波算法[J].计算机与网络,2020,46(13):4.

[3] 葛宛营,张天骐.基于掩蔽估计与优化的单通道语音增强算法[J].计算机应用,2019,39(10): 6.

[4] 鲍长春,项扬.基于深度神经网络的单通道语音增强方法回顾[J].信号处理,2019,35(12):11.

[5] 李鸿燕,屈俊玲,张雪英.基于信号能量的浊语音盲信号分离算法[J].吉林大学学报(工学版),2015,(5):6.

[6] 李如玮,孙晓月,李涛.基于幂函数压缩梅尔倒谱系数和掩膜后处理的多目标学习语音增强算法[J].电子与信息学报,2021,43:1-8.

（本文来源于《电子产品世界》杂志2023年8月期）