编码机

基于矢量空间投影的深层语音去噪

发布时间:2022/10/22 14:58:25   
北京哪家白癜风医院最好 https://baijiahao.baidu.com/s?id=1688947293563234773&wfr=spider&for=pc

我们提出了一种算法,在存在非静态和动态噪声的情况下,从单个麦克风对扬声器进行去噪。我们的方法受到最近神经网络成功的启发,这些模型将扬声器与其他扬声器和歌手以及乐器伴奏分开。与现有技术不同,我们利用源对比估计产生的嵌入空间,这是一种源自自然语言处理中的负采样技术的技术,同时获得连续推理掩模。我们直接嵌入空间通过联合优化对扬声器和噪声的区分建模他们的特征。

这个空间可以推广,因为它不是扬声器或噪声特定的,并且即使模型没有在训练集中看到说话者也能够对语音进行去噪。参数采用双重目标进行训练:一个促进选择性带通滤波器,消除超过信号功率的时频位置的噪声,另一个按比例分割信号和噪声之间的时频内容。我们比较了现有的算法以及传统的稀疏非负矩阵分解解决方案。由此产生的算法通过提供更直观和易于优化的方法避免了严重的计算负担,同时实现了竞争准确性。

1.简介

一个多世纪以来,信号去噪一直是多媒体中的一个问题,其应用范围包括声学语音处理、图像处理、地震数据分析和其他模态。对于每种应用的方法已经发展了几十年,包括传统的统计信号处理,如Wiener和卡尔曼滤波,小波理论以及矩阵分解的特定实例。虽然对于局部和广义静止信号都有效,即使历史悠久,但由于其算法容量,这些努力在更动态和更野性的噪声集中取得了较少的成功。

动态噪声代表了许多真实的语音场景,具有令人印象深刻的结果的解决方案专注于硬件:阵列处理[1]采用SONAR,RADAR和合成孔径传感的形式。这些方法通过使用多个传感器的输入处理感兴趣的源来解决该问题。不幸的是,许多记录的当代媒体经常使用更有限的硬件,如智能手机,同样的方法也不能轻易扩展到单声道情况[2],它记录来自单个麦克风的音频。

在先前针对单声道问题的方法中,明确地对信号和噪声属性做出假设,或者规范已经实现了对环境和记录设备的一些控制。由于具有诸如手机和笔记本电脑之类的记录功能的廉价便携式设备的激增,在嘈杂或混响室中的单轨语音记录的更一般情况已经变得越来越普遍。在这种情况下,不能保证关于环境的性质或麦克风的位置的语音或噪声归属的保证。

在过去十年中,机器学习方法已开始在这种情况下取得成功。尤其是,已经证明将熟悉的矩阵分解技术[3]适用于处理音频信号的时频表示是有用的。然而,这些方法难以达到性能[4],在许多情况下,需要额外的复杂性来准确地模拟源特征。

可以通过包含关于其特征的先验知识来建模更复杂的源。如果使用的模型具有高容量,则可以根据经验从大量训练数据中获得。近年来,神经网络和深度学习方法在其他音频处理应用中取得了巨大成功,包括一般语音去噪问题[5]。在这些方法中,尤其是递归神经网络在声学时间序列建模方面表现出最大的希望[6,7],特别是当应用于时间相关的光谱特征时。

神经网络方法的一个具有挑战性的方面是开发成本函数。特别是对于语音信号,由于与语音相关的时间尺度包含许多样本,因此成本函数的计算复杂度很重要。另外,如果目标是分离源(例如扬声器和噪声源),由于排序是任意的,因此成本函数必须对恢复的源的不同排列不变。所提出的方法使用有效的置换不变采样技术自动化扬声器的特征化和噪声的表征。

基于我们之前的源对比估算工作[8],我们扩展了直接优化向量空间的方法,该向量空间将特定的源特征隔离到一般的语音去噪问题。此外,我们通过在[7]中提出的成本函数中加入掩模推理项来进一步改进我们的模型。我们的模型能够从语音中去除各种各样的噪声类型,并且计算效率很高。

2.相关工作

长期以来,人们在语音处理方面做了大量的工作。在这里,我们描述了一些代表去噪问题的各种解决方案的方法,虽然许多其他的(例如[9])存在并且为了简洁而被省略。我们从信号处理理论的方法开始,其中大量方法使用某种类型的矩阵分解[10,11]。特别是,稀疏非负矩阵分解(SNMF)在[4,12,3]中显示出有效提取非平稳噪声源。SNMF根据训练数据构建一组频谱基函数,并将这些函数与一组学习权重线性组合,以重建所需信号的频谱特征。稀疏度通常由对包含乘法超参数μ的学习权重的“1范数约束”强制执行。如第5节所示,诸如此类的线性方法缺乏与更现代技术竞争的算法能力。

2.1、卷积去噪自动编码器

自动编码器已被用于成功消除噪声并将单个源与音频信号隔离[13]。在较高的层次上,自动编码器学会对输入(编码)进行特征化,然后将它们重建为输出(解码)。这种方法非常适合去噪,因为模型被迫通过丢弃有关噪声的信息来构建输入的压缩表示。

密切相关的是卷积自动编码器,通常用于去噪图像[14,15]。这些模型在解码期间在编码和解卷积层期间使用卷积层。应用于通过频谱图(使用STFT)表示的音频信号的卷积去噪自动编码器(DAE)的操作类似,尽管这些方法中的许多方法都存在将信号概括为不可见的问题。此外,卷积自动编码器是一种仍然依赖于其成本函数的架构构造,这是一种挑战,它定义了它们在去噪的情况下的表现,其中常见的“2-范数”可能没有足够的描述性

2.2、基于神经网络的源嵌入

最近在单声道音频源分离和去噪方面的成功已经学习了嵌入向量[6,16,17,7]。学习嵌入向量的主要优点是它们绕过了所谓的置换问题,其中必须对学习算法的输出进行置换以解释目标源的无序性[18]。另外,使用适当的聚类技术,要分离和去噪的源的数量可以是任意的(尽管这取决于如何执行推断)。

我们在以下部分中提出的嵌入模型最类似于[7]中发现的深度聚类[6]和掩模推理(DC+MI),但成本函数大大降低.DC+MI网络在给定光谱幅度的情况下学习嵌入。混合音频采样使用一系列四个双向LSTM(BLSTM)。除了聚类那些嵌入以创建二进制掩码,如[6]中所示,学习的非线性变换用于将嵌入直接转换为比率掩模。这具有限制执行二元掩模固有的一些伪像的优点。然而,这需要将源数量固定为两个。仍然可以在嵌入上对任意数量的源进行聚类,但是只能从这些聚类构建二进制掩码。

3.方法

本文中使用的方法结合了第2节中引用文献的掩模推理能力以及从单声道音频信号的语音中去除动态,非平稳噪声源的部分的灵活性。

3.1、数据集

我们的任务是使用单声道音频信号将语音与动态噪声和语音的混合隔离。所有去噪算法都是在LibriSpeech[19]和UrbanSound8K[20]数据集的混合上进行训练和评估的。LibriSpeech提供高质量的录音,包括男性和女性演讲者的孤立英语演讲,UrbanSound8K提供10种非固定噪音课程的录音。以各种SNR比率添加来自每个数据集的两个两秒剪辑以创建噪声语音数据。对于除SNMF算法之外的所有训练阶段,SNR比在-5和5dB之间连续变化,其中语音和噪声分别馈入。没有使用脉冲响应卷积,以便仅

转载请注明:http://www.aideyishus.com/lktp/1969.html

------分隔线----------------------------