探讨CNNs和语音识别优化技巧(上)

原作者:yuaOssama Abdel-Hamid,李登,董宇

出版日期:2013

原出版:加拿大安大略省多伦多约克大学计算机科学与工程系和美国华盛顿州雷蒙德市微软研究院

我只是负责翻译的,哈哈

摘要

最近,卷积神经网络(CNN)已经被证明在电话识别任务中的标新优于深度神经网络/隐马尔可夫模型(DNN / HMM)框架内的标准的完全连接的深度神经网络。在本文中,我们扩展了CNN早期的基本形式并以多种方式进行研究。我们首先研究了CNN的几种架构,包括完整和有限的权重共享,对时域和频域的卷积以及多个卷积层的堆叠。然后,我们开发出了一个新的加权softmax池层,以便池中的大小可以自动学习。此外,我们通过RBM的卷积实现了对CNN预训练的效果的评估。我们发现,CNN神经网络在电话识别和大型词汇量语音识别任务中的表现都要优于以前的DNN神经网络,其中,有限权重分享体系结构的表现要优于完全权重分享结构。而softmax池化层的表现跟表现最好的人工调参的CNN网络表现相当,而且还具有进一步改善的能力。最后,我们发现,CNN与训练对大词汇量语音识别任务会产生更好的表现。

关键词:卷积神经网络,混合神经网络/HMM模型,预训练,卷积限制玻尔兹曼机。

一、介绍

最近,DNN / HMM混合系统在许多大型词汇语音识别任务中取得了显着的成绩[1, 2, 3,4,5,6,7]。这要归功于DNN被改进的建模功能使其能够将复杂的数据映射到类标签或后验概率上。这种建模能力源于深层结构和词向量。此外,DNN的无监督预训练有助于更好地实现某些任务。这种无监督的预训练通常通过单层网络的堆叠完成,又称为受限玻尔兹曼机器(RBM)。最近,Abdel-Hamid等人 [8]表明,一种被称为卷积神经网络(CNN)的特殊神经网络结构可以进一步提高混合模型在TIMIT电话识别任务的性能。CNN网络利用其结构对领域知识的不变性,已成功应用于各种图像分析和识别的任务中【9,10】。对于语音处理,[11]中理论上提出了CNN对时间轴卷积可以获得对小时间偏移的鲁棒性,尽管没有实验结果证明这一结论。在文献[12]中,一种叫做卷积RBM(CRBM)的模型被用来对语音特征的时域卷积的无监督学习。而文献【8】则已经表明,通过对频域卷积和最大化池化可以获得极大的性能加强。不同的说话人之间以及在不同情绪下的相同说话人产生的语音信号在频域有小幅度的频移,而对频率的卷积在语音特征的小频移上具有不变性。此外,在[13]中,一个异构池化结构被证明是有益的。

在本文中,我们将从多个角度进一步探索CNNs。我们首先研究CNN的不同架构,包括完全和有限权重共享的卷积滤波器、对频率和时间的卷积以及多个卷积层的堆叠。然后,我们提出一个新的加权softmax池化层,以实现对池化尺寸的自动调整。最后,我们评估通过叠加经过训练的CRBM和RBM实现的CNN预训练的效果[14]。

本文的其余部分安排如下。 在第2节中我们介绍CNN和各种架构。 在Section3中我们描述了加权的softmax池。 CNN预训练讨论4。 在第5节汇报实验结果,并在第6节结束本文。

二、卷积神经网络

2.1基本结构

CNN是具有特殊结构的神经网络。图1显示了一个全权重分享的示例CNN。在这个CNN中,由许多特征图组成的第一层叫做卷积层。在卷积层中的每一个神经元都接受一个来自代表着有限频域特征的感知器的输入。属于同一特征图的神经元共享权重(也称为滤波器或内核),但接收不同频率的输入。 那么卷积层就会通过下层激活函数对内核进行卷积。

假设NN输入是V∈R(mat:A×B),其中A是表示输入频带的特征的数量,B是输入频带的数量。 在滤波器组的特征中,B表示滤波器组特征向量的大小。 假设v = [v1 v2 ... vB],其中vb是表示带b的特征向量。 卷积层的激活函数可以表示为:

其中h(j,k)是第k卷积层带上的第j个特征映射的卷积层输出,s是滤波器大小,w(b,j)是代表第b个滤波器组的第j个滤波器的权重矢量。aj是第j个特征映射的偏差,θ(x)是激活函数,在本文中设置为sigmoid函数。

一个池化层被添加到了卷积层的顶部用于计算由子采样产生的低分辨率表达,这个计算某些激活函数的池化层通常被用于卷积层频域移动窗口产生的神经元上。【8】使用了一个简化了频带特征值最大值的计算的池化层。这个max pooling的激活函数可以表达为:

其中pj,m是第m个池化层组对第j个feature map 的输出,n是子采样因子,r是程序池的大小,权重共享和最大池发挥在实现特征结果在小频移中的不变性起了至关重要的作用。 这是一个理想的属性,因为,例如,对于由不同的说话者产生的相同的音素在频域的共振峰会存在轻微的不同,甚至同一个说话者在不同的情绪下也会不同。而且权重共享可以减少训练的次数,从而减缓了过拟合的情况。卷积池对可以堆叠起来,其上的连接层可以通过与不同频带的特征结合,以获得更高级别的特征。

2.2完全权重分享和有限权重分享

我们将图1中的权重共享方案称为完全权重共享。 这是用于图像处理的标准方

然而,在语音识别中,不同的识别模式会用在不同的频带中。出于这个原因,如图2所示的有限权重共享方案更适合于语音识别任务。这里的区别在于卷积层中的不同频率窗口会使用一个不同的(不共享的)内核。池化层中的神经元总结了因由内核定义的feature map而产生的卷积层激活函数。就好像卷积层和池化层被分成许多部分,其中每个部分仅处理输入波段的一个有限范围,并在池化层中仅生成一个输出波段。从数学的角度来说,卷积层和池化层的激活函数可以被表示为:

其中h(m)j,k是第m个卷积层部分第j个特征映射的第k个波段的值,而pj,m是第m个池化层的第j个特征的值。该方案还有助于减少池化层中的神经元数量,因为每个频带所使用的内核仅考虑相应频带范围内的模式,所以导致了每个频带的内核数目减少,并且所得到的表示具有更好的区分不同频带中的模式的能力。另一方面,这种有限的权重分配方案具有防止在顶部增加更多卷积层的缺点。这是因为该方案中不同池层组中的特征是不相关的并且不能被卷积。另一种可能导致更好性能的解决方案是在完全权重共享之上应用有限的权重共享卷积层。

2.3时域卷积

CNN体系结构也可以应用于时域以减少时间一边性。在混合神经网络NN/HMM模型框架中,HMM是用来处理语音的时域变化的。然而,由于每一帧的评分是由一个窗口的连续帧计算得来的,所以不变性对于窗口的小范围移动是可取的。注意池化和子采样不会影响HMM看到的时间分辨率,它只影响CNN上层接收到的时间分辨率。

将时域和频域的卷积结果结合在一起可以产生一个2D的CNN可以处理的图像,有点类似于图像识别冲CNN处理的图像,这有助于识别性能的提高。于图像识别中的不同,语音识别的时域卷积和频域卷积的参数是独立的。这增加了模型参数的调参数量,而且需要仔细地处理这些参数。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180607G1IEU800?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。

扫码关注云+社区

领取腾讯云代金券