学界 | 新研究将GRU简化成单门架构,或更适用于语音识别

选自arXiv

机器之心编译

参与:Panda

Yoshua Bengio 领导的一个团队近日在 arXiv 上发布了一篇论文,介绍了他们通过修改门控循环单元(GRU)提升语音识别效果的研究进展。据介绍,这项研究是修改 GRU 方面的进一步研究进展,提出了一种可能更加适合语音识别的架构。机器之心对本论文进行了摘要介绍。另外,本研究相关的实验代码也已发布在 GitHub 上。

  • 论文:https://arxiv.org/abs/1710.00641v1
  • 代码:https://github.com/mravanelli/theano-kaldi-rnn

本论文有两大贡献:

第一,我们提出从网络设计中移除重置门(reset gate)。与 [31] 类似,我们发现移除重置门并不会影响系统的表现,因为我们观察到在更新门(update gate)和重置门发挥的作用上存在一定的冗余。

第二,我们提出在状态更新过程中使用修正线性单元(ReLU)激活函数替代双曲正切(tanh)。在过去,由于 ReLU 激活函数的无界性所引起的数值不稳定性,我们会在 RNN 上避开这样的非线性。但是,当我们将基于 ReLU 的 GRU 架构与批规范化(batch normalization)[4] 结合到一起时,我们没有遇到这样的数值问题。这让我们可以使用 ReLU 神经元了,这种神经元已经在进一步缓解梯度消失问题以及加速网络训练上得到了有效的证明。

我们在多种不同的任务、输入特征和噪声条件上进行了实验,结果表明:在我们的实现中,这种修改后的架构可以将每 epoch 的训练时钟时间减少 30% 以上,同时在本研究所涉及的所有实验条件中都实现了识别水平的提升。

论文:通过修改门控循环单元改善语音识别(Improving speech recognition by revising gated recurrent units)

语音识别正在广泛使用深度学习,表明现代循环神经网络(RNN)具有很多显著优势。最流行的 RNN 是长短期记忆(LSTM),由于它们学习长期依赖性和对梯度消失保持稳健的能力,它们往往能在很多任务上达到当前最佳的表现。尽管如此,LSTM 有一种带有三个乘法门的相当复杂的设计,这可能会妨碍 LSTM 的有效实现。最近对 LSTM 的一次简化尝试为我们带来了门控循环单元(GRU),它只基于两个乘法门。

本论文立足于这些成果,通过进一步修改 GRU 提出了一种简化的架构,该架构可能更加适合语音识别。本研究有两大贡献。第一,我们提出移除 GRU 设计中的重置门,从而得到一种更高效的单门架构。第二,我们提出在状态更新过程中使用 ReLU 激活函数替代 tanh。结果表明,在我们的实现中,比起标准的 GRU,这种修改后的架构可以将每 epoch 的训练时钟时间减少 30% 以上,同时还能在多种不同的任务、输入特征和噪声条件上都实现识别表现的提升。

一般的 GRU 架构定义如下:

移除重置门并且使用 ReLU 激活函数替代 tanh 后,我们可以得到新的公式:

我们将这个架构称为 M-reluGRU。

我们使用 Theano 实现了我们提出的这个系统,并且结合使用 Kaldi 解码器 [35] 创建了一个具有语境依赖的 DNN/HMM 语音识别器。实验代码请访问:https://github.com/mravanelli/theano-kaldi-rnn/

在 TIMIT 上的结果

表 1:各种 RNN 架构在 TIMIT 的测试集上所得到的音素错误率(PER%)

表 2:在 TIMIT 开发集上优化过的 RNN 架构的每 epoch 训练时间比较

在 DIRHA English WSJ 上的结果

表 3:各种 RNN 架构在 DIRHA English WSJ 数据集(仿真的部分)上所得到的词错率(%)

表 4:各种 RNN 架构在 DIRHA English WSJ 数据集(真实部分)上所得到的词错率(%)

本文为机器之心编译,转载请联系本公众号获得授权。

原文发布于微信公众号 - 机器之心(almosthuman2014)

原文发表时间:2017-10-06

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏黄成甲

数据分析之时间序列分析

顾名思义,时间序列就是按照时间顺利排列的一组数据序列。时间序列分析就是发现这组数据的变动规律并用于预测的统计技术。该技术有以下三个基本特点:

19420
来自专栏大数据挖掘DT机器学习

用TensorFlow实现文本分析模型,做个聊天机器人

不错的学习聊天机器人的资源,不知道小伙伴们有没有去学习呢。 自己动手做聊天机器人教程 http://www.shareditor.com/blogshow...

49950
来自专栏星回的实验室

特征选择的评估方法

数据挖掘中,特征选择的过程就是计算特征与样本观测结果的相关性。卡方检验和互信息是用得较多的计算方法。

21610
来自专栏CDA数据分析师

机器学习基础与实践(一)——数据清洗

想写这个系列很久了,最近刚好项目结束了闲下来有点时间,于是决定把之前学过的东西做个总结。之前看过一些机器学习方面的书,每本书都各有侧重点,机器学习实战和集体智慧...

29370
来自专栏机器之心

专栏 | 阿里IJCAI 2017 Workshop论文:使用深度强化学习方法求解一类新型三维装箱问题

机器之心专栏 阿里菜鸟物流人工智能部 据机器之心了解,阿里巴巴有 11 篇论文入选如今正在墨尔本进行的 IJCAI 2017 大会,其中 6 篇来自阿里巴巴-浙...

1.1K60
来自专栏机器之心

基于TensorFlow理解三大降维技术:PCA、t-SNE 和自编码器

选自medium 机器之心编译 参与:Panda Pythonista 数据科学家 Elior Cohen 近日在 Medium 上发文解读了最常见的三大降维技...

47470
来自专栏大数据文摘

暑期追剧学AI (三) | 10分钟搞定机器学习数学思维:向量和它的朋友们

22250
来自专栏深度学习入门与实践

机器学习基础与实践(一)----数据清洗

本博客所有内容以学习、研究和分享为主,如需转载,请联系本人,标明作者和出处,并且是非商业用途,谢谢!   想写这个系列很久了,最近刚好项目结束了闲下来有点时间,...

61160
来自专栏企鹅号快讯

机器学习算法原理系列详解-机器学习基础与实践(一)-数据清洗

作者:Charlotte77 数学系的数据挖掘民工 博客专栏:http://www.cnblogs.com/charlotte77/ 个人公众号:Charlo...

28460
来自专栏新智元

DeepMind丨深度学习最新生成记忆模型,远超RNN的GTMM

【新智元导读】DeepMind 的最新研究成果,对广泛使用于语音识别、图像识别、语义理解等领域的深度学习人工网络RNN性能带来显著提升(substantiall...

41460

扫码关注云+社区

领取腾讯云代金券