专栏首页AI科技评论学界 | 小米加入 AI 研究大家庭!联合西工大推出基于注意力机制的普通话语音识别算法

学界 | 小米加入 AI 研究大家庭!联合西工大推出基于注意力机制的普通话语音识别算法

AI 科技评论按小米近期发布了自己的 AI 音箱,加入了智能家居的战局。正当我们觉得小米会不会只是蹭“人工智能”热点的时候,小米的这篇论文证明了自己真的是把人工智能作为一件严肃的公司业务来做。请允许我们代表人工智能研究大家庭对小米公司表示欢迎,对小米的研究员们致以敬意!

这篇论文是西北工业大学、陕西省语音与图像信息处理重点实验室与小米科技公司的研究员联合研究的成果。该项工作主要针对普通话识别任务,提出了一种基于注意力机制的端到端学习模型。

以下是 AI 科技评论根据论文摘要进行的编译简介。

论文摘要

在最近,语言识别领域的研究越来越多地采用了端到端(End-to-End)学习模式。这种学习模式可以直接将输入的语音转录成相应的文本,而不需要使用到任何预定义的校准规则。据雷锋网 AI 科技评论了解,该论文中的研究员们在端到端学习模式基础上,探讨了一种基于注意力机制的编解码模型(Attention-based encoder-decoder model),而该模型主要针对普通话语音识别(Mandarin speech recognition)任务,并且取得了很不错的效果。

图一,上图展示了编码模型。该编码模型是一个BLSTM,它从输入x中提取出h。

在训练期间还使用了帧子采样(Frame sub-sampling)技术。在该项工作中,研究员通过跳帧(Skipping frames)的方式来缩小原序列的长度,并且正则化了权重以取得更好的泛化能力和收敛效果。除此之外,本项工作还探究了卷积注意力(Convoluional attention)和注意力平滑(Attention smoothing)这两种不同的注意力机制所产生的不同影响,以及模型的性能和波束搜索(Beam search)的宽度之间的关联性。

图二,上图展示了AttendAndSpell模型。该模型由MLP(注意力机制)和LSTM(解码模型)组成。在每一次时间步骤(time step)t,MLP将结合隐含状态st-1和输入h计算出上下文向量(context vector)ct。从而生成新的隐含状态st和新的标签yt。

最终,该论文所提出的算法,在MiTV数据集上,在没有使用任何词汇(Lexicon)或语言模型(Language model)的情况下,实现了仅为 3.58%的字符错误率(Character error rate, CER)以及7.43%的句子错误率(Sentence error rate, SER)。另外值得一提的,该模型在结合了三元语言模型(Trigram language model)之后,进一步取得了2.81%的字符错误率以及5.77%的句子错误率。相比另两种基于内容的注意力算法和卷积注意力算法,论文中提出的注意力平滑算法都取得了更好的表现。

论文中还表示,他们的下一步研究目标是把现有的技术和非常深的卷积网络结合,以期获得更好的表现。他们的后续成果我们拭目以待,我们期待小米进一步深化人工智能在自家产品中的应用,也希望更多国内企业都参与到人工智能相关技术的研究和应用中来。

论文地址: https://arxiv.org/abs/1707.07167

AI 科技评论编译。

本文分享自微信公众号 - AI科技评论(aitechtalk),作者:隔壁王大喵

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2017-07-29

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 学界 | 深度学习盛会ICLR2017最佳论文出炉,AI科技评论带你5分钟看完重点

    AI科技评论按:受到万众瞩目的2017年ICLR 即将于今年四月在法国召开。该大会是Yann LeCun 、 Yoshua Bengio 等几位行业顶级专家于2...

    AI科技评论
  • 吴恩达、张潼接受WSJ采访:如何让AI像电力一样颠覆世界?

    AI科技评论按:目前,人工智能也许是科技界的一大困扰之一。很多人感到很恐惧,害怕将来机器人掌管整个世界。 斯坦福大学兼职教授、谷歌前人工智能科学家吴恩达与腾讯 ...

    AI科技评论
  • UC 伯克利优化理论教授谈深度学习:为了可解释性,我们可能需要牺牲一些模型表现

    AI 科技评论按:在人工智能的浪潮之下,以深度学习为首的机器学习方法迅速席卷了各个领域,给许多问题带来了全新的解决方案(当然同时也带来了新的问题等待解决)。 除...

    AI科技评论
  • 每个时代都有创世者,谁创造了 AI 时代?

    从12年前英特尔原CEO保罗·欧德宁对智能手机芯片商业潜力的不屑,而将乔布斯拒之门外,再到游戏显卡市场常年被芯片巨头的战略忽视。边缘化市场于垄断者而言,是提高平...

    AI掘金志
  • 唱作俱佳 腾讯AI艾灵领唱中国新儿歌

    本文转自腾讯AI实验室 2019年,腾讯高校合作第一次迎来音乐声学博士,中国音乐学院音乐科技系李子晋副教授与腾讯AI Lab语音识别中心开展了一项歌声合成相关...

    腾讯高校合作
  • AI革命已至,商业化浪潮即将来临——镁客网M-TECH主题论坛2018苏州站圆满落幕

    镁客网
  • 谁说AI没想象力?DeepMind破解灾难性遗忘密码,让AI也有记忆

    暑假结束回到学校时,你可能会觉得前一年学过的东西已经统统忘光了。但如果你像人工智能系统那样学习,你会真的忘光光——当你第一天在课堂上坐下来时,你的大脑会把这当作...

    新智元
  • AI主播、AI记者、AI编辑,传媒AI化加速

    The Verge 消息:微软从Microsoft News、MSN等媒体中裁撤了数十名新闻媒体工作者和编辑人员,其中涉及英国 27 名员工和美国 50 名员工...

    刘旷
  • MIT开发新方法,减少AI偏见,同时不会降低预测结果准确性

    AI偏见导致社交媒体中部署的预测模型在搜索结果或用户体验方面表现不佳,但当AI用于医疗保健,自动驾驶汽车,刑事司法或预测性警务策略等事件时,它可能会对人的生命产...

    AiTechYun
  • 只要你的AI算法能比小白鼠聪明,DeepMind的这20万奖金请拿走

    实际情况是,机器学习算法一般都是在给定条件的任务中有较好的表现,但现实情况则要复杂很多。举例来说,一个老鼠在迷宫中或有遮挡的环境中寻找食物的表现要比一个AI好得...

    量子位

扫码关注云+社区

领取腾讯云代金券