学界 | 小米加入 AI 研究大家庭!联合西工大推出基于注意力机制的普通话语音识别算法

AI 科技评论按小米近期发布了自己的 AI 音箱,加入了智能家居的战局。正当我们觉得小米会不会只是蹭“人工智能”热点的时候,小米的这篇论文证明了自己真的是把人工智能作为一件严肃的公司业务来做。请允许我们代表人工智能研究大家庭对小米公司表示欢迎,对小米的研究员们致以敬意!

这篇论文是西北工业大学、陕西省语音与图像信息处理重点实验室与小米科技公司的研究员联合研究的成果。该项工作主要针对普通话识别任务,提出了一种基于注意力机制的端到端学习模型。

以下是 AI 科技评论根据论文摘要进行的编译简介。

论文摘要

在最近,语言识别领域的研究越来越多地采用了端到端(End-to-End)学习模式。这种学习模式可以直接将输入的语音转录成相应的文本,而不需要使用到任何预定义的校准规则。据雷锋网 AI 科技评论了解,该论文中的研究员们在端到端学习模式基础上,探讨了一种基于注意力机制的编解码模型(Attention-based encoder-decoder model),而该模型主要针对普通话语音识别(Mandarin speech recognition)任务,并且取得了很不错的效果。

图一,上图展示了编码模型。该编码模型是一个BLSTM,它从输入x中提取出h。

在训练期间还使用了帧子采样(Frame sub-sampling)技术。在该项工作中,研究员通过跳帧(Skipping frames)的方式来缩小原序列的长度,并且正则化了权重以取得更好的泛化能力和收敛效果。除此之外,本项工作还探究了卷积注意力(Convoluional attention)和注意力平滑(Attention smoothing)这两种不同的注意力机制所产生的不同影响,以及模型的性能和波束搜索(Beam search)的宽度之间的关联性。

图二,上图展示了AttendAndSpell模型。该模型由MLP(注意力机制)和LSTM(解码模型)组成。在每一次时间步骤(time step)t,MLP将结合隐含状态st-1和输入h计算出上下文向量(context vector)ct。从而生成新的隐含状态st和新的标签yt。

最终,该论文所提出的算法,在MiTV数据集上,在没有使用任何词汇(Lexicon)或语言模型(Language model)的情况下,实现了仅为 3.58%的字符错误率(Character error rate, CER)以及7.43%的句子错误率(Sentence error rate, SER)。另外值得一提的,该模型在结合了三元语言模型(Trigram language model)之后,进一步取得了2.81%的字符错误率以及5.77%的句子错误率。相比另两种基于内容的注意力算法和卷积注意力算法,论文中提出的注意力平滑算法都取得了更好的表现。

论文中还表示,他们的下一步研究目标是把现有的技术和非常深的卷积网络结合,以期获得更好的表现。他们的后续成果我们拭目以待,我们期待小米进一步深化人工智能在自家产品中的应用,也希望更多国内企业都参与到人工智能相关技术的研究和应用中来。

论文地址: https://arxiv.org/abs/1707.07167

AI 科技评论编译。

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2017-07-29

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏PPV课数据科学社区

三张图读懂机器学习 :基本概念、五大流派与九种常见算法

机器学习正在进步,我们似乎正在不断接近我们心中的人工智能目标。语音识别、图像检测、机器翻译、风格迁移等技术已经在我们的实际生活中开始得到了应用,但机器学习的发展...

3495
来自专栏新智元

【CNN已老,GNN来了】DeepMind、谷歌大脑、MIT等27位作者重磅论文,图网络让深度学习也能因果推理

1382
来自专栏新智元

【田渊栋年度总结】FAIR强化学习研究进展,理论研究竞争也相当激烈

作者:田渊栋 【新智元导读】FAIR研究科学家田渊栋今天在知乎发表他的2017年工作总结。今年的主要研究方向是两个:一是强化学习及其在游戏上的应用,二是深度学习...

2494
来自专栏机器之心

学界 | 为数据集自动生成神经网络:普林斯顿大学提出NeST

2825
来自专栏数据科学与人工智能

机器学习两次浪潮|机器学习

第一次浪潮:浅层学习 20世纪80年代末期,用于人工神经网络的反向传播算法(也叫Back Propagation算法或者BP算法)的发明,给机器...

2686
来自专栏AI科技评论

参会见闻系列:ACL 2018,在更具挑战的环境下理解数据表征及方法评价

AI 科技评论按:本篇属于「顶会见闻系列」。每年这么多精彩的人工智能/机器学习会议,没去现场的自然可惜,在现场的也容易看花眼。那么事后看看别的研究员的见闻总结,...

611
来自专栏机器之心

学界 | 复现深度强化学习结果所面临的挑战与建议

选自arXiv 机器之心编译 参与:蒋思源、路雪 本论文对强化学习顶尖试验结果的复现性进行了详细的探讨,并讨论了超参数和随机种子等变量对强化学习模型复现性的重要...

2568
来自专栏机器之心

深度 | 迁移学习全面概述:从基本概念到相关研究

选自sebastianruder.com 作者:Sebastian Ruder 机器之心编译 参与:马亚雄、吴攀、李亚洲 将在一个场景中学习到的知识迁移到另一个...

2717
来自专栏机器之心

深度神经网络全面概述:从基本概念到实际模型和硬件基础

选自arxiv 作者:Joel Emer等 机器之心编译 深度神经网络(DNN)所代表的人工智能技术被认为是这一次技术变革的基石(之一)。近日,由 IEEE F...

42819
来自专栏AI科技大本营的专栏

忘掉PS吧!欢迎进入修图的神经网络时代

左边是原图,右边是修图。是不是觉得美女与右边图片的背景搭在一起,更有动感和帅气。可是不会修图啊,肿么办? 今天让我们来看一个有意思的AI应用,让不会PS的你,...

3375

扫描关注云+社区