学界 | 小米加入 AI 研究大家庭!联合西工大推出基于注意力机制的普通话语音识别算法

AI 科技评论按小米近期发布了自己的 AI 音箱,加入了智能家居的战局。正当我们觉得小米会不会只是蹭“人工智能”热点的时候,小米的这篇论文证明了自己真的是把人工智能作为一件严肃的公司业务来做。请允许我们代表人工智能研究大家庭对小米公司表示欢迎,对小米的研究员们致以敬意!

这篇论文是西北工业大学、陕西省语音与图像信息处理重点实验室与小米科技公司的研究员联合研究的成果。该项工作主要针对普通话识别任务,提出了一种基于注意力机制的端到端学习模型。

以下是 AI 科技评论根据论文摘要进行的编译简介。

论文摘要

在最近,语言识别领域的研究越来越多地采用了端到端(End-to-End)学习模式。这种学习模式可以直接将输入的语音转录成相应的文本,而不需要使用到任何预定义的校准规则。据雷锋网 AI 科技评论了解,该论文中的研究员们在端到端学习模式基础上,探讨了一种基于注意力机制的编解码模型(Attention-based encoder-decoder model),而该模型主要针对普通话语音识别(Mandarin speech recognition)任务,并且取得了很不错的效果。

图一,上图展示了编码模型。该编码模型是一个BLSTM,它从输入x中提取出h。

在训练期间还使用了帧子采样(Frame sub-sampling)技术。在该项工作中,研究员通过跳帧(Skipping frames)的方式来缩小原序列的长度,并且正则化了权重以取得更好的泛化能力和收敛效果。除此之外,本项工作还探究了卷积注意力(Convoluional attention)和注意力平滑(Attention smoothing)这两种不同的注意力机制所产生的不同影响,以及模型的性能和波束搜索(Beam search)的宽度之间的关联性。

图二,上图展示了AttendAndSpell模型。该模型由MLP(注意力机制)和LSTM(解码模型)组成。在每一次时间步骤(time step)t,MLP将结合隐含状态st-1和输入h计算出上下文向量(context vector)ct。从而生成新的隐含状态st和新的标签yt。

最终,该论文所提出的算法,在MiTV数据集上,在没有使用任何词汇(Lexicon)或语言模型(Language model)的情况下,实现了仅为 3.58%的字符错误率(Character error rate, CER)以及7.43%的句子错误率(Sentence error rate, SER)。另外值得一提的,该模型在结合了三元语言模型(Trigram language model)之后,进一步取得了2.81%的字符错误率以及5.77%的句子错误率。相比另两种基于内容的注意力算法和卷积注意力算法,论文中提出的注意力平滑算法都取得了更好的表现。

论文中还表示,他们的下一步研究目标是把现有的技术和非常深的卷积网络结合,以期获得更好的表现。他们的后续成果我们拭目以待,我们期待小米进一步深化人工智能在自家产品中的应用,也希望更多国内企业都参与到人工智能相关技术的研究和应用中来。

论文地址: https://arxiv.org/abs/1707.07167

AI 科技评论编译。

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2017-07-29

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏人工智能头条

大规模知识图谱的构建、推理及应用

1152
来自专栏AI科技评论

业界 | Facebook全面转为神经网络人工智能翻译

AI 科技评论按:语言翻译是一股能够让人们组建群体和使世界更加紧密的力量。 它可以帮助人们与在海外居住的家庭成员联系起来,或者可以更好地了解讲不同语言的人们的观...

3069
来自专栏机器之心

前沿 | MIT提出实时3D医疗影像生成算法:速度提升1000倍

Voxelmorph 项目链接:https://github.com/voxelmorph/voxelmorph

1020
来自专栏AI科技评论

视频 | 斯坦福大学提出自监督人脸模型:250Hz 单眼可重建

本文为雷锋字幕组编译的 CVPR 2018 Oral 论文解读短视频,论文题目 Self-supervised Face Model Learning for ...

822
来自专栏机器之心

业界 | 44篇论文强势进击CVPR 2018,商汤科技的研究员都在做哪些研究?

自 2012 年以来,经过视觉领域诸多学者们的不懈努力,「物体识别」、「人脸检测」等传统任务的性能在一定程度上达到饱和,因此纵观本届 979 篇入选论文,我们会...

913
来自专栏算法channel

一文梳理NLP之机器翻译和自动摘要的发展现状

2 NLP入门:CNN,RNN应用文本分类,个性化搜索,苹果和乔布斯关系抽取(2)

1052
来自专栏新智元

大神Quoc Le:谷歌 AutoML幕后的传奇英雄

【新智元导读】提及谷歌大脑、seq2seq、AutoML,许多人已是耳熟能详。在成功的背后,定是有许多研究人员的默默付出。而Quoc Le就是其中一位,堪称谷歌...

514
来自专栏机器之心

回顾 | CVPR 2017完全指北:深度学习与计算机视觉融合的一年,未来又会是什么?

机器之心(海外)原创 作者:QW、CZ 参与:王灏、Panda 当地时间 7 月 21 日到 16 日,夏威夷火奴鲁鲁迎来了 2017 年计算机视觉与模式识别会...

3836
来自专栏新智元

重磅 | 经典教材 R. Sutton《增强学习导论》最新版(451PDF)

2016年10月18日, 世界人工智能大会技术分论坛,特设“新智元智库院长圆桌会议”,重量级研究院院长 7 剑下天山,汇集了中国人工智能产学研三界最豪华院长阵容...

5067
来自专栏专知

35页自然语言处理深度学习综述,带你纵览NLP知识全貌

【导读】随着深度学习技术的蓬勃发展,自然语言处理领域也是日新月异,本文为大家带来了最新的基于深度学习的自然语言处理综述,希望能够帮助大家了解NLP领域中的最新进...

842

扫码关注云+社区