【微软语音识别新突破,错误率降至5.1%】黄学东:新的行业里程碑

【新智元导读】微软语音识别系统取得最新突破:微软的语音对话研究小组在Switchboard语音识别任务中,将错误率从去年的 5.9% 再一次降低到 5.1%,达到目前最先进水平。

去年,微软的语音与对话研究小组宣布在Switchboard 对话语音识别任务上达到人类水平,实现里程碑式的突破。

微软技术Fellow黄学东在微软官方博客上称,这意味着,他们创造了一种技术,可以在对话中识别词语,且与人类专业的速记员水平相当。

黄学东在博客上说:“在我们的转录系统达到5.9%的错误率之后,其他研究人员进行了自己的研究,采用了更多参与的多转录程序,将错误率降低至5.1%。今天,我很高兴地宣布,我们的研究团队通过我们的语音识别系统达到了5.1%的错误率,这是一个新的行业里程碑,大大超过了去年实现的准确性。本周末发布的技术报告记录了我们系统的细节。”

以下是微软官方博客的介绍:

Switchboard 是一个电话通话录音语料库,这种语料库用于语音识别系统的研究已经超过20年了。任务包括转写陌生人之间的话题讨论,比如关于体育或政治话题的对话。 我们对基于神经网络的语音和语言模型做了一系列改进,和去年的精确度相比,错误率大大降低。

我们又为改进语音模型引入了 CNN-BLSTM(convolutional neural network combined with bidirectional long-short-term memory)。另外,我们现在在 frame/senone 和词语层面都使用了结合多个声学模型的预测的方法。 此外,我们通过使用整个对话过程来加强识别器的语言模型,以预测接下来可能发生的事情,使得模型有效地适应了对话的话题和语境。

我们的团队使用最可扩展的深度学习软件Microsoft Cognitive Toolkit 2.1(CNTK),用于探索模型架构和优化我们的模型的超参数。此外,微软对云计算基础设施(特别是Azure GPU)的投资,也有助于提高我们训练模型并测试新想法的有效性和速度。

达到人类水平精度,能够与人类对话,是过去25年来微软的研究目标。微软对长期研究的投入,已经在诸如Cortana,演示文稿转换器(Presentation Translator)和Microsoft认知服务等产品和服务上见到了成效。我们的研究团队非常高兴地看到,每天都有数百万在使用的我们工作成果。

工业界和学术界已经有许多研究团队在语音识别方面做得很好,我们的工作从研究社区整体的进步中获益良多。虽然在 Switchboard 语音识别任务上实现5.1%的词汇错误率是一项重大的成果,但语言研究领域仍然面临许多挑战,例如在嘈杂环境下较远的麦克风的语音识别,识别方言,或训练数据有限的特定说话风格或较少人使用的语言的语音识别,这些都仍未达到人类水平。此外,我们在教计算机不仅是转录口语,而且要了解话语的意义和意图方面仍有很多工作要做。从识别语音到理解话语,是语音技术的下一个主要挑战。

微软语音识别最新技术报告:https://www.microsoft.com/en-us/research/wp-content/uploads/2017/08/ms_swbd17-2.pdf

编译来源:

https://www.microsoft.com/en-us/research/blog/microsoft-researchers-achieve-new-conversational-speech-recognition-milestone/

本文分享自微信公众号 - 新智元(AI_era)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2017-08-21

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏人工智能头条

AAAI主席Rao Kambhampati:破解人机共存的规划技术挑战(PPT下载)

15230
来自专栏机器人网

机器学习工具榜单-Python取代R成为最受欢迎的编程语言

近日,KDnuggets网站公布了2018年度的数据科学和机器学习工具调查结果。2300多名参与者对自己“过去 12 个月内在项目开发中使用过的数据挖掘 / 机...

12030
来自专栏ATYUN订阅号

AI有助于揭示人们如何处理抽象思维

随着AI变得越来越复杂,公众越来越关注这些技术在国际象棋和其他战略游戏中如何成功地与人类竞争。来自休斯顿大学的一位哲学家采取了不同的方法,解构机器学习中使用的复...

9730
来自专栏机器之心

业界 | 谷歌TPU之后还有高通,人工智能芯片竞赛已经展开

选自Wired 作者:Cade Metz 机器之心编译 参与:黄小天、李泽南 作为机器学习的领军人物,Yann LeCun(杨立昆)曾在 25 年前开发过一块...

388110
来自专栏大数据文摘

CrowdFlower数据科学家17年调查报告:情愿断腿也不想丢数据

38560
来自专栏机器之心

OpenAI联合DeepMind发布全新研究:根据人类反馈进行强化学习

选自DeepMind 作者:Shane Legg等 机器之心编译 参与:吴攀、黄小天、李亚洲 DeepMind 和 OpenAI 是现在人工智能研究界最重要的两...

29980
来自专栏人工智能头条

语音识别真的比肩人类了?听听阿里 iDST 初敏怎么说

18420
来自专栏数据科学与人工智能

【机器学习】“机器深度学习”的未来:读懂人类的情感

“机器学习”的概念自上世纪50年代出来以来就备受科技界的关注,而近年来“深度学习”逐渐成为机器学习研究中的一个新的领域,其动机在于建立、模拟人脑进行分析学习的神...

28760
来自专栏about云

什么是机器学习技术?

问题导读 1.什么是机器学习? 2.机器学习可以来做什么? 3.机器学习技术可以被应用于哪三种不同方式? 这篇博客文章由微软研究院的杰出科学家J...

304100
来自专栏AI科技评论

深度 | IBM语音识别能力逼近人类水平,获深度学习巨头Yoshua Bengio盛赞

你知道吗?人类每听20个词,其实就有一两个成为“漏网之鱼”。而在一段五分钟的对话中,这一数字达到了80。但对于我们而言,少听一两个词并不会影响我们对语意的理解,...

31860

扫码关注云+社区

领取腾讯云代金券