动态 | 新里程碑!微软语音到文字转录已经达到人类水平

AI 科技评论按:语音到文字的转换是语音研究领域的重要课题。自引入神经网络的方法以来,语音识别正确率有了长足的进展,也为苹果 Siri、亚马逊 Echo、科大讯飞语音输入法等等实际产品提供了生长的土壤。面对算法识别总还是比人类要差一些的现状,微软刚刚发布一篇博文公布了自己的最新成果,达到人类水平已经不是梦想。AI 科技评论编译如下。

2016年,微软语音和对话研究团队对外公布了一则里程碑性的消息,他们在 Switchboard 数据库的对话语音识别任务中达到了人类的一致性水平,这意味着他们的系统识别对话中文字的能力已经和专业的人类转录员一样好。

当时微软的研究人员们测量的这个转录系统的单词误识别率为5.9%,这个表现已经达到了他们测量的人类转录员的水平;其它的研究人员也进行了自己的研究,运用了一个更加深入的多转录员协作模式,达到了更好的5.1%的人类平均单词错误率。这个结果和更早的研究是相符的,其中表明如果人类更仔细、更努力地去做,他们就能够对对话中出现的确切单词有更高的一致性。

一年后的8月20日,微软语音和对话研究团队负责人黄学东兴奋地公布了他们的最新进展,他们的语音识别系统也达到了同样的5.1%的错误率。这是业界的新的里程碑,也比他们去年的成绩又有显著的提高。研究的细节在他们一同发表的论文「The Microsoft 2017 Conversational Speech Recognition System」中进行了详细介绍。

Switchboard 是一个录制的电话对话语料库,语音研究界用这个语料库测试语音识别系统的表现已经有20多年的时间。测试任务是对陌生人之间关于运动和政治话题的讨论进行从语音到文字的转录。

相比去年的单词误识别率,今年的系统又把它下降了12%。这个新系统在他们使用的基于神经网络的语音语言模型上又继续加入了一系列改进,其中添加了一个额外的 CNN-BLSTM(convolutional neural network combined with bidirectional long-short-term memory,带有双向LSTM的卷积神经网络)用来提升语音建模的效果。并且,系统中以前就在使用的从多个语音模型进行综合预测的方法,如今在帧/句音级别和单词级别下都可以发挥效果。

除此之外,微软的研究员们还根据整个对话过程的历史记录来预测接下来可能会说的话,进一步加强了识别器的语言模型,大大增强了模型对话题和局部上下文的适应能力。

在开发过程中,研究团队也从自家的大规模深度学习软件 Microsoft Cognitive Toolkit 2.1 (CNTK) 中获益匪浅,不管是探索模型架构还是优化模型的超参数。并且,微软在云计算基础设置方面的投资,尤其是 Azure 云GPU,也帮助提升了训练模型、测试新想法的效果和速度。

在过去的25年中,达到与人类水平的错误率都是这个领域的研究目标。如今,微软在长期研究中的投入已经证明了它们的价值,微软未来也会在 Cortana、Presentation Translator、Microsoft Cognitive Services等自家产品和服务中让用户们感受到这些技术的好处。看到百万级的用户每天使用这些产品,微软的研究团队也感到非常欣慰。

在语音识别方面,业界和学术界有许多研究团队都做出了杰出的贡献,微软研究团队也表示自己从这个领域的整体发展中得到了很大收获。不过,虽然在 Switchboard 语音识别任务中取得了5.1%错误率这样的喜人成果,整个语音研究领域还有许多的挑战等待克服,比如在有噪音、录音距离较远的场景下,在语音有口音的情况下,在只有非常有限的讲话风格和语言训练数据的条件下,达到接近人类水平的语音识别效果都还是很大的困难。另一方面,在教会了电脑把语音转换为文字之后,下一步还要教会电脑理解其中的含义和目的。在微软研究团队看来,从语音识别到语音理解将会是语音相关技术的下一个重要前沿。

论文地址:https://www.microsoft.com/en-us/research/publication/microsoft-2017-conversational-speech-recognition-system/

via Microsoft Research Blog,AI 科技评论编译

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2017-08-21

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏大数据文摘

深度学习,未来机器人的进化途径

1515
来自专栏PPV课数据科学社区

学习了哪些知识,计算机视觉才算入门?

有感于大家对计算机视觉研究的热情,同时对计算机视觉研究认知的局限性,或者说是基本研究方法和思路上的局限性。华刚博士根据最近计算机视觉领域国际权威、加州大学洛杉矶...

892
来自专栏人工智能LeadAI

三大技术基础推动人工智能走向实用

人工智能从幕后走向实用离不开人工智能技术取得的突破和发展。在互联网时代背景下,大数据、新型高性能计算架构以及深度学习帮助人工智能技术实现了从量变到质变的转变。其...

2839
来自专栏钱塘大数据

【大咖说】李飞飞:AI会改变世界,改变AI的又会是谁?

导读:2017年1月15日,李飞飞教授出席未来论坛2017年会暨首届未来科学颁奖典礼,发表名为《视觉智能的探索》 (The Quest for Visua...

2637
来自专栏量子位

利用人工智能“解锁”世界音乐

颜萌 编译整理 量子位 出品 | 公众号 QbitAI ? 人们喜欢感受的是音乐带来的那种氛围。 整理过歌单的任何人都知道,好的歌单往往有一种贯穿始终的情感。...

3598
来自专栏AI科技大本营的专栏

YC 孵化器新兴技术系列(一):如何进入自然语言处理领域

【AI100 导读】本系列的每一篇文章都会为大家介绍一种新兴的技术,并且教大家如何入门相关的技术领域。本篇文章是为想进入 NLP 领域的人准备的。 我们很高兴能...

2685
来自专栏人工智能头条

人工智能安全:是营销炒作还是全新机会

1375
来自专栏新智元

【大师观】机器学习和人工智能:2016 重大进展和 2017 主要趋势

【新智元导读】“2016年机器学习及人工智能领域的最大亮点和 2017年的重要趋势是什么?”Kdnuggets 网站汇集了十几位专家的看法,AlphaGo 无疑...

3398
来自专栏新智元

谷歌实习博士访谈:我终于拥有了在大学实验室梦寐以求的算力

【新智元导读】正在谷歌实习的慕尼黑工业大学博士在读生 Philip Haeusser 的研究领域是计算机视觉。在这篇访谈中,他谈到了自己在谷歌的实习项目、经历、...

2594
来自专栏灯塔大数据

13招神技 让你在数据科学和数据分析工作中脱颖而出

简介:我有幸在很早参与了一个大数据科学项目,我非常喜欢其中的工作,甚至我意识到我的努力可以增加一些公司的价值。 然而,可悲的是,只有不到30%的数据科学项目最...

3407

扫码关注云+社区