突破 | 语音识别新里程碑,微软将错误率降至6.3% (附论文)

【新智元导读】微软的语音识别技术又获得了新的突破:9月13日,微软语音与对话研究团队在arxive上发表论文,宣布在 作为行业标准的 Switchboard 基准上,微软的错误率做到了6.3%,比上周 IBM 公布的 6.6 % 有小幅提升。要实现微软 CEO 纳德拉提到的“对话即平台”AI战略,语音识别准确度的提升是不可或缺的。

昨天,微软研究院在让计算机理解语音上又获得了里程碑式的突破。

在作为行业标准的Switchboard 语音识别任务中,微软研究团队将词汇错误率(WER)降到了6.3%,打破了此前的记录。

昨天在arxive发布的论文中,微软写到:“在NIST 2000 Switchboard 测试集上,我们最好的单一系统错误率为6.9%。我们认为,这是目前有报道的、不基于系统结合的语音识别系统中最好的表现。在与声学模型合并的情况下,这一系统在 Switchboard 数据集上的错误率能降到6.3%”。

历年来语音识别词语错误率的发展趋势,图中绿线代表在Switchboard上的表现。

上周末,在旧金山举行的语音通信与技术国际会议——Interspeech上,IBM称已经将WER错误率降到6.6%。20年前,已发布的最好的研究系统的WER还是43%以上。

黄学东

微软语音研究的首席科学家黄学东(音译)是这个系统的主要研发者之一,他说:“这一里程碑式的突破,离不开过去20年间AI社区中不同机构在各种技术上的发展”。

微软在官方博客中写道:一些研究者现在认为,这些技术很快将会发展到一个新的阶段,让计算机可以像人一样理解人类的语言。这与微软通过自己的技术,比如私人助理小娜、Skype 翻译以及语音和语言相关的认知服务,来提供更加个性化的计算机体验的战略是一致的。

此外,语音上的研究突破对于微软整体的人工智能战略来说也至关重要,微软希望提供可以预测用户需要而不是只根据命令做回应的系统。更长远地看,微软希望提供的是一个能看、能听、能说,甚至能理解和增强人类工作方式的智能系统。

IBM 和微软都认为,深度神经网络的出现是语音识别获得突破的一个关键原因。计算机科学家在过去的几十年间一直在尝试训练计算机系统,让它们可以执行识别图像或者理解语音的任务,但是不久前,这些系统依然因为误差太大而被诟病。

神经网络有多层。今年年初,微软的研究员通过使用一个深度的残差网络系统赢得了ImageNet 计算机视觉挑战赛。这一系统使用的是一种新的跨层网络连接。

微软另一个关键的研究是深度学习工具包(CNTK),采用复杂的优化后,CNTK 能让深度学习算法运行得更快。通过 CNTK 和 GPU 的结合,小娜的语音训练现在在相同的时间内,能消化的数据是以前的10倍。该工具包已经在今年1月份时在 Github 上开源。

Geoffery Zweig

微软语音与对话研究小组的首席研究员和主任 Geoffery Zweig 领导Switchboard 语音识别研究工作。他说:“我们的研究团队学习了一个世纪以来的语音研究与发展的经验,推动语音识别技术不断获得突破”。

本年度的开发者大会上,微软曾把自己的AI战略描述为“对话即平台”(Caap)。微软 CEO Satya Nadella 说,Caap 给我们的计算机体验带来的影响,将会和此前的图像用户交互界面以及网页和移动端一样深刻。

“这是一个很简单的概念,但是在影响力上却是非常强大的。它利用人类语言的力量,并把这种力量更加广泛地运用到我们的计算机上”,Nadella说。

论文摘要

我们将介绍微软的对话语音识别系统,在这个系统中,我们将最近基于神经网络的声学和语音模型进行组合,在Switchboard 识别任务上获得突破。受机器学习组合技术的启发,这一系统使用了一系列卷积和递归神经网络。 I-vector 建模和 lattice-free MMI 训练,为所有的声学模型架构提供了显著的帮助。使用多个前向和后向运行的RNNLMs,语言模型可以rescoring,此外,一个基于词后的系统的融入,能提供20%的提升。使用一个ResNet 架构声学模型,加上RNNLM rescoring,在NIST 2000 Switchboard 任务上的错误率为6.9%。 组合的系统错误率为6.3%,代表了在这一基准任务上对此前任务的一个提升。

作者:W. Xiong, J. Droppo, X. Huang, F. Seide, M. Seltzer, A. Stolcke, D. Yu, G. Zweig

本文分享自微信公众号 - 新智元(AI_era)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2016-09-14

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏人工智能LeadAI

三大技术基础推动人工智能走向实用

人工智能从幕后走向实用离不开人工智能技术取得的突破和发展。在互联网时代背景下,大数据、新型高性能计算架构以及深度学习帮助人工智能技术实现了从量变到质变的转变。其...

36890
来自专栏机器之心

业界 | DuerOS普罗米修斯计划:30页国际专家PPT全面剖析对话式AI数据集

机器之心发布 百度 DuerOS 美国西部时间 11 月 9 日,百度 DuerOS 普罗米修斯计划在美国硅谷召开启动发布会。一周后,2017 百度世界大会上,...

385100
来自专栏CDA数据分析师

AI 经典书单 | 人工智能学习该读哪些书

? 本文转自网络,如涉侵权请及时联系我们 人工智能相关岗位中,涉及到的内容包含: 算法、深度学习、机器学习、自然语言处理、数据结构、Tensorflow、Py...

41780
来自专栏AI研习社

机器人聊天的秘密|硬创公开课

语义理解简单来说,就是让计算机听懂用户说了什么,然后可以进一步回答用户的问题或与用户对话。这类技术在现实场景中的应用有大家比较熟知的微软小冰与百度度秘。锤子手机...

40140
来自专栏AI科技评论

重磅 | 从SwiftScribe说起,回顾百度在语音技术的七年积累

人与机器的自然交互一直是人类孜孜不倦的奋斗目标。随着移动互联网时代的发展,声音与图片成为了人机交互更为自然的表达方式。作为最核心的入口,语音技术就成为了科技巨头...

409130
来自专栏机器之心

专访 | UIUC陈德铭教授:「万能芯片」FPGA与深度学习

人工智能的风潮从技术一路蔓延到硬件,让「芯片」成为今年行业里盛极一时的主题。人们关注通用芯片领域里 CPU 和 GPU 不断刷新的基准(benchmark),更...

12820
来自专栏AI科技评论

苏州大学张民教授两小时讲座精华摘录:自然语言处理方法与应用

2018 中国人工智能大会(CCAI 2018)于 7 月 28 日-29 日于深圳召开。「过去未去,未来已来」,李德毅院士在 CCAI 2018 开幕式上对人...

19840
来自专栏Petrichor的专栏

综述:VR、AR、MR、CR

14620
来自专栏量子位

谷歌大脑小姐姐亲授:如何应聘成功羡煞旁人的AI工程师岗位

不如听听过来人怎么说。最近,谷歌大脑的小姐姐Catherine Olsson上了一堂名企应聘公开分享,手把手教你应该以怎样的姿势开始AI安全类工程师求职之旅。

11720
来自专栏机器之心

INTERFACE | 从技术到产品,搜狗为我们解读了神经机器翻译的现状

INTERFACE 分享者:陈伟、李健涛 机器之心报道 参与:李泽南 3 月 12 日,搜狗正式在线上平台发布了「旅行翻译宝」。这款随身翻译设备结合了搜狗神经...

44440

扫码关注云+社区

领取腾讯云代金券