Capsule Network在TIMIT语音识别中的实践（一）

文章来源：企鹅号 - 深度学习每日摘要

在上一期漫谈Capsule Network基本原理中，我们已经讲解了Capsule Network的基本原理，其对特征的可适应性与鲁棒性使得它在MNIST图像识别中取得了较好的性能，因为语音识别也是一个处理复杂特征的过程，接下来几期我们探索一下其在小规模数据集TIMIT上语音识别的效果，今天这一期重点讲解代码实现过程中的需要注意的地方。

按照ASR项目中已有的架构，我仍然是先写CapsuleNetwork模型，以train中的args作为参数传递到CapsuleNetwork，这一部分大家可以根据之前实现的DynamicRNN模型了解。

在Hinton的原始论文中，应用到MNIST的CapsuleNetwork非常简单，总的来说就三层，分别是输入CNN层、PrimaryCapsule层和DigitCapsule层，由于语音识别任务较为复杂，为了通用起见，这里我设计的是多层CapsuleLayer和最后的一个全连接层，在实现多层CapsuleLayer中，由于语音识别和图像识别最大的区别就是语音识别是一个序列建模的过程，最后的输出必须保证是一段序列的概率分布，所以，这里代码的处理细节上会与原始论文存在很多不同，从结果上看，原始论文中的输出应该是[batchSize, classes]的格式，而在语音识别中，输入到CTC loss中的应该是[batchSize, timeSteps, classes]的格式。

在实现CapsuleNetwork中，我将CapsuleLayer单独放在了一个类中实现，其中对层的类型作了区分，因为如果我们构建一个多层CNN Capsule Layer和一个DNN Layer，由于CNN Capsule Layer要比DNN Layer多了一个卷积的过程，因此在数据处理上会有不同，虽然它们二者都会有routing、squashing的过程。

在Capsule Layer中，会使用到squashing函数和routing算法，因此我将它们写成了两个分离的函数，需要注意的是，在routing算法中，由于需要多次迭代，因此迭代的那个参数是不需要梯度传递的，这就好比在EM算法中的E-step以及RBM中的CD算法的训练过程，但是，在迭代的最后一步，是需要进行梯度传递。

除了Capsule Network之外，其他的数据处理代码、训练代码与之前项目保持一致，这里不再介绍。

项目地址：

https://github.com/zzw922cn/Automatic_Speech_Recognition

深度学习每日摘要｜坚持技术，追求原创

发表于: 2017-12-132017-12-13 06:08:11
原文链接：http://kuaibao.qq.com/s/20171213G022UJ00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

Capsule Network在TIMIT语音识别中的实践（一）

相关快讯

扫码

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐