端到端语音识别时代

文章来源：企鹅号 - 语音杂谈

时间回到2018 interspeech，谷歌Rohit Prabhavalkar 和Tara Sainath做了关于谷歌在end-to-end models for Automatic Speech Recogntion的分享，具体的ppt内容可以见这里。谷歌一直走在语音识别技术的前沿，从LSTM,CTC，再到这次的LAS模型。大神们一如既往地引领大家一直追求语音识别的不断提升。

与此同时，谷歌另一路大神们发明了Transformer，具体见https://github.com/tensorflow/tensor2tensor。当然不例外，同样给出源码跟语音识别例子。国内自动化所zhou shiyu博士把这个带人汉语，写了很多论文，具体可以去arxiv里周博士的论文，同样证明很有效。

也许在同时，espnet团队也开源了espnet（end-to-end speech processing toolkit），该工具箱融合了kaldi的数据处理，特征处理；借助pytorch跟chainer，使用python把CTC跟attention模型串起来，抛弃了fst的一整套东西，同时在各个开源数据集上取得还不错的性能。目前espnet不仅仅能做语音识别，还可以做语音合成。

也与此同时，NVIDIA团队开源了openSeq2Seq，一种基于tensorflow的框架，也可以实现CTC跟seq2seq的模型。你可以基于此做翻译，语音识别，语音合成等等序列任务。个人觉得这个平台把语音解码用C++实现了，你可以快速工程化。

再来到facebook，他们先基于lua弄了一套wav2letter，但是最近他们整了一套wav2letter++。为什么叫++，那当然是用c++来实现了，那肯定也可以快速工程化了。但是wav2letter++刚开源还有一堆坑要去填。当然这个也肯定是CTC跟attention。

以上五条也许在告诉我们基于fst的语音识别框架要被end-to-end语音识别框架替代了。时代在前进，语音识别的门槛已经降低了很多很多。拥抱变化，在这快速变化的世界里才有足够多的机会。未来的语音识别一定成为一个像电、煤气的基础功能。让我们一起为这美好的开源时代欢呼。

最后的最后，如果你还在犹豫，是时候抓住这个最后的机会了。要不然要被别人丢弃n个时代了。很久没写杂谈的文章，我还在那里。希望这篇文章对你有用。

发表于: 2018-12-222018-12-22 19:01:27
原文链接：https://kuaibao.qq.com/s/20181222B1156500?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

端到端语音识别时代

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐