深度学习在语音增强中的应用

发布时间:2023-08-03  

随着科学技术的发展,语音作为新一代人机交互方式,成为人和智能设备、语音助手交流的重要接口,然而在真实环境中,语音信号不可避免的被各种噪声所干扰,除了各种环境噪声,声波在封闭空间中的衰减和延时反射所引起的混响等都会影响语音的感知质量,研究者将真实场景下影响语音质量的因素总结为三个方面:环境噪声、房间混响和其他说话人干扰,语音增强的目的就是消除上述三个方面的影响。语音增强是指利用音频信号处理的技术以及算法提高失真语音信号的整体感知质量或者可懂度。


语音去噪

深度学习在语音降噪中的应用广泛,根据处理语音的通道数不同,可以分为单通道降噪和多通道降噪,其中单通道语音的去噪由俄亥俄州立大学的汪德亮团队提出的基于DNN-SVM算法,后来又相继提出CRNN、DP-SARNN和Transformer等算法,Zhang等人[1]人提出了双分支神经网络DBNet同时在时域和频域上解决语音增强的问题。而深度学习在多通道语音增强中常常结合空间信息或者传统算法例如波束形成等实现去噪,例如具有代表性算法的基于掩蔽的波束形成技术[2]。利用深度学习进行语音去的算法一般包括非端到端语音降噪方法和端到端语音降噪算法。其中非端到端语音降噪的算法常用的处理方式有基于掩膜的方法和基于特征映射的方法。

wKgaomSssumAdMjCAAKdnojtLxQ359.jpg

基于深度学习非端到端语音去噪方法框图

wKgaomSssumAdmrLAAEd60Q59jg171.jpg

基于深度学习端到端语音去噪算法框图

基于掩膜的语音增强

基于时频掩蔽的语音增强方法将描述纯净语音与噪声之间相互关系的时频掩蔽作为学习目标,该方法假设纯净语音信号与噪声之间有一定的独立性,理想二值掩蔽(Ideal Binary Mask,IBM)是最初被引入语音增强的时频掩蔽方法,该掩蔽方法通过判断某个时频单元内语音与噪声主导情况将连续的时频单元离散化为0或1两种状态,IBM公式如下所示:

wKgZomSssumAbW9UAAANXR79q2Q738.jpg

通过IBM的公式可以看出只有0、1两种取值,可以一定程度提高语音质量,但这种方法对于带噪语音的处理过于简单粗暴,会在处理过程中引入较大的噪声。


基于语音和噪声独立假设的情况下,基于比值掩蔽的方法刻画了时频单元内纯净语音能量和带噪语音能量的比值,该类掩蔽方法中常用的有理想比值掩蔽(Ideal Ratio Mask,IRM)。IRM相较于IBM从离散的状态值变为连续的状态值,相较之下可以有效的提升语音的质量和可懂度,但是缺点是利用带噪语音的相位信息对纯净语音进行了重构。


除了上述两种掩蔽方法,仍然有许多的掩蔽方法,例如基于信号能量比值的理想幅度掩蔽(Ideal Amplitude Mask,IAM),考虑相位误差的时频掩蔽方法的相位敏感掩蔽(Phase Sensitive Mask,PSM),广泛应用的复数域的复数理想比率掩蔽(Complex Ideal Ratio Mask,cIRM)以及最佳比例掩膜(Optimal Ratio Mask,ORM)等等。这些掩蔽根据语音以及噪声的幅度谱或者功率谱计算获得,通过网络计算得到估计掩蔽后,将带噪语音信号与时频掩蔽相乘得到纯净语音信号,进而得到干净语音的时域波形。


基于特征映射的方法

基于特征映射的语音增强方法是通过网络完成带噪语音特征和干净语音特征之间的映射关系,常见的特征映射包括目标幅度谱(TMS)、短时傅里叶变换幅度谱(STFT)等,通过带噪语音估计纯净语音特征,将得到的谱图与带噪语音相位结合,从而得到语音波形。另外声学特征也可以被用作特征映射深度学习的目标,例如Chen等人[3]探索了低信噪比下已经被用作语音分离和语音增强的一系列特征的表现,包括了Mel域特征中的MFCC和DSCC,线性预测特征中的PLP特征和RASTA-PLP特征,gamma域中的GF特征、GFCC特征和GFMC特征,信号自相关域中的RAS-MFCC特征、AC-MFCC特征和PAC-MFCC特征,调制域中的GFB特征和AMS特征等。Wang等人[4]提出一种单声道和多声道语音增强的复数频谱映射方法,利用DNN从带噪信号中预测纯净语音的实部和虚部,并融合波束形成算法得到在 CHiME-4语音数据集上WER较好的性能提升。


基于端到端的方法

监督语音增强大部分是在时频域进行的,端到端的语音增强对原始时域波形信号直接进行处理,由于不依赖于频域表示,避免了语音相位信息的丢失以及重构增强语音时使用带噪语音相位可能导致的性能下降问题,使得模型流程简化。Ritwik Giri等人[5]提出了带有注意力机制的U-Net应用于语音增强,在VCTK数据集上测试多信噪比情况下PESQ、SSNR等评价指标都得到了提升。


语音去混响

混响语音为信号和房间冲激响应(Room Impulse Response,RIR)的卷积,这会使得语音信号在时域和频域都发生畸变,导致语音可懂度的下降。利用深度学习的混响消除算法包括三类算法,直接预测、间接预测和联合传统算法。

wKgZomSssumAHfOVAAK7UeQgJos295.jpg

直接预测的方法为混响语音信号直接映射到纯净语音信号,间接预测的方法例如可以通过预测后期混响信号间接性得到目标语音信号,联合传统算法为将DNN与WPE等算法进行结合,通过网络预测WPE算法中间参数从而去除迭代计算的操作。Han等人[6]在2014年首先提出了基于DNN的语音去混响方法,这种方法在耳蜗图上使用谱映射,DNN被训练成从混响语音帧映射到干净语音帧。Zhao等人[7]通过LSTM预测语音信号晚期混响间接得到目标语音信号,Kinoshita K[8]通过LSTM网络预测WPE算法中的中间参数进而实现混响消除。


语音增强作为语音识别中的一项核心关键技术,广泛应用在各种场景之中,国内外研究人员针对语音增强提出了许多算法,深度学习的广泛应用也为来研究领域带来了新的突破,但是语音增强领域仍然有许多问题,例如泛化性能、相位失真问题和低信噪比下的应用效果不理想,未来的语音增强仍然充满挑战。

文章来源于:电子工程世界    原文链接
本站所有转载文章系出于传递更多信息之目的,且明确注明来源,不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。

我们与500+贴片厂合作,完美满足客户的定制需求。为品牌提供定制化的推广方案、专属产品特色页,多渠道推广,SEM/SEO精准营销以及与公众号的联合推广...详细>>

利用葫芦芯平台的卓越技术服务和新产品推广能力,原厂代理能轻松打入消费物联网(IOT)、信息与通信(ICT)、汽车及新能源汽车、工业自动化及工业物联网、装备及功率电子...详细>>

充分利用其强大的电子元器件采购流量,创新性地为这些物料提供了一个全新的窗口。我们的高效数字营销技术,不仅可以助你轻松识别与连接到需求方,更能够极大地提高“闲置物料”的处理能力,通过葫芦芯平台...详细>>

我们的目标很明确:构建一个全方位的半导体产业生态系统。成为一家全球领先的半导体互联网生态公司。目前,我们已成功打造了智能汽车、智能家居、大健康医疗、机器人和材料等五大生态领域。更为重要的是...详细>>

我们深知加工与定制类服务商的价值和重要性,因此,我们倾力为您提供最顶尖的营销资源。在我们的平台上,您可以直接接触到100万的研发工程师和采购工程师,以及10万的活跃客户群体...详细>>

凭借我们强大的专业流量和尖端的互联网数字营销技术,我们承诺为原厂提供免费的产品资料推广服务。无论是最新的资讯、技术动态还是创新产品,都可以通过我们的平台迅速传达给目标客户...详细>>

我们不止于将线索转化为潜在客户。葫芦芯平台致力于形成业务闭环,从引流、宣传到最终销售,全程跟进,确保每一个potential lead都得到妥善处理,从而大幅提高转化率。不仅如此...详细>>