动态 | 新里程碑!微软语音到文字转录已经达到人类水平

AI 科技评论按:语音到文字的转换是语音研究领域的重要课题。自引入神经网络的方法以来,语音识别正确率有了长足的进展,也为苹果 Siri、亚马逊 Echo、科大讯飞语音输入法等等实际产品提供了生长的土壤。面对算法识别总还是比人类要差一些的现状,微软刚刚发布一篇博文公布了自己的最新成果,达到人类水平已经不是梦想。AI 科技评论编译如下。

2016年,微软语音和对话研究团队对外公布了一则里程碑性的消息,他们在 Switchboard 数据库的对话语音识别任务中达到了人类的一致性水平,这意味着他们的系统识别对话中文字的能力已经和专业的人类转录员一样好。

当时微软的研究人员们测量的这个转录系统的单词误识别率为5.9%,这个表现已经达到了他们测量的人类转录员的水平;其它的研究人员也进行了自己的研究,运用了一个更加深入的多转录员协作模式,达到了更好的5.1%的人类平均单词错误率。这个结果和更早的研究是相符的,其中表明如果人类更仔细、更努力地去做,他们就能够对对话中出现的确切单词有更高的一致性。

一年后的8月20日,微软语音和对话研究团队负责人黄学东兴奋地公布了他们的最新进展,他们的语音识别系统也达到了同样的5.1%的错误率。这是业界的新的里程碑,也比他们去年的成绩又有显著的提高。研究的细节在他们一同发表的论文「The Microsoft 2017 Conversational Speech Recognition System」中进行了详细介绍。

Switchboard 是一个录制的电话对话语料库,语音研究界用这个语料库测试语音识别系统的表现已经有20多年的时间。测试任务是对陌生人之间关于运动和政治话题的讨论进行从语音到文字的转录。

相比去年的单词误识别率,今年的系统又把它下降了12%。这个新系统在他们使用的基于神经网络的语音语言模型上又继续加入了一系列改进,其中添加了一个额外的 CNN-BLSTM(convolutional neural network combined with bidirectional long-short-term memory,带有双向LSTM的卷积神经网络)用来提升语音建模的效果。并且,系统中以前就在使用的从多个语音模型进行综合预测的方法,如今在帧/句音级别和单词级别下都可以发挥效果。

除此之外,微软的研究员们还根据整个对话过程的历史记录来预测接下来可能会说的话,进一步加强了识别器的语言模型,大大增强了模型对话题和局部上下文的适应能力。

在开发过程中,研究团队也从自家的大规模深度学习软件 Microsoft Cognitive Toolkit 2.1 (CNTK) 中获益匪浅,不管是探索模型架构还是优化模型的超参数。并且,微软在云计算基础设置方面的投资,尤其是 Azure 云GPU,也帮助提升了训练模型、测试新想法的效果和速度。

在过去的25年中,达到与人类水平的错误率都是这个领域的研究目标。如今,微软在长期研究中的投入已经证明了它们的价值,微软未来也会在 Cortana、Presentation Translator、Microsoft Cognitive Services等自家产品和服务中让用户们感受到这些技术的好处。看到百万级的用户每天使用这些产品,微软的研究团队也感到非常欣慰。

在语音识别方面,业界和学术界有许多研究团队都做出了杰出的贡献,微软研究团队也表示自己从这个领域的整体发展中得到了很大收获。不过,虽然在 Switchboard 语音识别任务中取得了5.1%错误率这样的喜人成果,整个语音研究领域还有许多的挑战等待克服,比如在有噪音、录音距离较远的场景下,在语音有口音的情况下,在只有非常有限的讲话风格和语言训练数据的条件下,达到接近人类水平的语音识别效果都还是很大的困难。另一方面,在教会了电脑把语音转换为文字之后,下一步还要教会电脑理解其中的含义和目的。在微软研究团队看来,从语音识别到语音理解将会是语音相关技术的下一个重要前沿。

论文地址:https://www.microsoft.com/en-us/research/publication/microsoft-2017-conversational-speech-recognition-system/

via Microsoft Research Blog,AI 科技评论编译

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2017-08-21

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏华章科技

收藏 | 来自微软大神的机器学习秘籍!

在这个人人都可能是学霸的全民学习时代,为什么人与人的差距依然很大?像优达学城这样的学习网站可以为每一个人想要学习的人带去技能和知识的补充,但要成为一个优秀的人才...

873
来自专栏机器之心

教程 | Kaggle CTO Ben Hamner :机器学习的八个步骤

选自Kaggle 作者:Ben Hamner 机器之心编译 参与:黄小天 上个月,Kaggle 联合创始人兼 CTO Ben Hamner 在 Quora 上...

2555
来自专栏人工智能快报

美MIT研发“数据科学机器”

在2015年10月19至21日召开的电气电子工程师学会(IEEE)数据科学和先进分析方法的国际会议上,美国麻省理工学院(MIT)研究人员James Max Ka...

32711
来自专栏大数据文摘

学界 | MIT最新:机器学习首次模仿大脑处理声音,能辩歌词和歌曲分类

1857
来自专栏ATYUN订阅号

DeepMind开发新AI:学习理解其他AI思想并进行预测

任何与Siri或Alexa有过互动的人都知道,数字助理根本不懂人类。它们需要的是心理学家所谓的心智理论,即对他人信仰和欲望的认识。现在,DeepMind已经开发...

552
来自专栏镁客网

用未知解决未知,AI学会了如何增强大脑记忆力 | 黑科技

803
来自专栏数据小魔方

不同图表类型的使用场景

来这里找志同道合的小伙伴! 上一篇给大家介绍了图表制作过中突破常规的布局思维——单元格与图表结合的技巧。 今天要给大家介绍常用的图表适用场景。 ▌我们在平时...

2816
来自专栏小鹏的专栏

开启聊天机器人模式

聊天机器人系统框架图 今天看到了一篇关于聊天机器人的一个不错的资源汇总: https://www.52ml.net/20510.html 进去看看先大概了解了...

1756
来自专栏PPV课数据科学社区

AI时代就业指南:数据挖掘工程师成长之路

编者按:数联寻英发布的首份《大数据人才报告》显示,目前全国大数据人才只有46万,未来3到5年人才缺口达150万之多。 今年3月份时,谷歌开发的人工智能Alph...

4177
来自专栏PPV课数据科学社区

是的,人工智能就是分析

关于人工智能究竟是什么,以及人工智能的学科应该如何分类,似乎存在一些混淆。人工智能是分析学的一种形式,还是一门与分析学不同的全新学科?我坚信人工智能与预测分析和...

2614

扫描关注云+社区