专栏首页新智元【专访微软黄学东】0.1%,0.2%与0.3%,语音识别军备竞赛中小数点差距有何意义

【专访微软黄学东】0.1%,0.2%与0.3%,语音识别军备竞赛中小数点差距有何意义

【新智元导读】 微软语音识别研究团队在黄学东的带领下,去年将语音识别的单词错误率降至5.9%,又在最近降至5.1%。在本次专访中,我们讨论了语音识别错误率百分之几的小数点在研究和实际应用上的意义。黄学东认为,从研究角度来说,这个意义十分重大,即便是0.1%的差距,无论是运算量还是时间,耗费都是巨大的。

达到人类水平,超越人类水平,人工智能研究领域的突破性进展。

以上赞誉被给予了微软最近的语音识别研究成果:其语音识别研究团队在黄学东的带领下,去年将语音识别的单词错误率降至5.9%,又在最近降至5.1%。

从研究层面来说,微软语音团队花了不到一年时间就实现了这个目标,的确是一个很了不起的突破。就像黄学东曾在微软博客上所说:

“去年10月,在我们的转录系统达到5.9%的错误率之后,其他研究人员也进行了自己的研究,采用了更多参与的多转录程序,将错误率降低至5.1%。这是一个新的行业里程碑,大大超过了去年实现的准确性。”

5.1%是一项了不起的研究成果

需要说明的是,黄学东院士这个“语音识别错误率低于5.1%”的成果是建立在Switchboard这个通用数据集上面的。按照黄学东的介绍,这是一个全球语音研究人员用了20多年的开放数据集,包括了大约2400个自然情形下的对话,甚至是各种年龄阶段、覆盖了美国主要的一些地方口语。因此,很多不同的技术公司与组织都喜欢在上面做语音方面的相关研究。

而根据黄学东的介绍,其带领的微软语音识别团队又为改进语音模型引入了 CNN-BLSTM(convolutional neural network combined with bidirectional long-short-term memory)。另外, 他们在 frame/senone 和词语层面都使用了结合多个声学模型的预测的方法,通过使用整个对话过程来加强识别器的语言模型,以预测接下来可能发生的事情,使得模型有效地适应了对话的话题和语境。

同时,其团队也使用了最可扩展的深度学习软件Microsoft Cognitive Toolkit 2.1(CNTK),用于探索模型架构和优化模型的超参数。

当然,微软对云计算基础设施(特别是Azure GPU)的大量投资,也有助于提高其训练模型并测试新想法的有效性和速度。

不过,虽然5.1%虽然是黄学东口中“前所未有的成果”,但IBM也同样宣布自己测出过差不多的好成绩——5.5%的语音识别错误率(也是Switchboard数据集)。

IBM和微软两家公司在测试人能够达到什么样的错误率存在着一定的差异——IBM是通过4个不同团队不断听一句话讨论后得出的最好结果是5.1%,也就是“4个团队协同工作=5.1%”,而微软在去年测试一个团队人可达到的错误率是5.9%。

“从去年开始,微软机器达到的错误率为5.9%,而今年微软这个水平(5.1%)实际上就是超越了一群人的水平。如果让一个人来翻译,或者把错误率整出来,那绝对达不到5.1%,这是一群人联合攻关才能做到的水平。”

此外,黄学东也谈到,百度前人工智能科学家吴恩达曾提到的百度Deep Speech短语识别错误率降到 3.7%这个数字,其实与微软这个5.1%的对话式语音识别错误率是不一样的:

“你看,像我们这样交谈就是对话识别,因为用的词都比较开放,这个难度比单个的短语测试要难得多。”

尽管它有着全球开发人员多年来的技术积累,其仍然是一个有限数据的集合,主要用途就是用来做研究与测试。换言之,这个研究结果就是一个实验室中的“培养基”。如果将其“移植”到现实环境中,质量必然会遇到硬件设计架构与嘈杂自然环境的多重“降维打击”。

黄学东在演讲现场介绍了微软与哈曼合作的智能音箱,主打音质

譬如以最近被巨头们疯狂爱上的智能音箱为例,其“远场”应用需求与真实环境中存在的混响、多径反射会严重降低这种硬件拾取声音信号的质量,这对于后续的语音识别率而言可见意味着什么。

就像黄学东所说,用于研究发表的文章与现实的产品算法虽然不能完全割裂,但这完全是两个不一样的“系统”,他们仅是通过这种研究的发布,来了解究竟有没有更多新的技术,有没有今后微软的产品可以借鉴的东西。

而从微软现有的语音产品来看,Cortana在语音识别上的表现已经在诸多市面上的“语音助手”中非常拔尖了,而基于微软云Azure提供的与语音识别相关的多种商用认知服务也获得了客户的很多好评。只能说,这些产品应用的算法模型涉及到了黄学东团队的研究成果,但至于怎么用的,如果与产品对接,这些都是黄学东所说的商业机密。

因此,如果是基于这种Switchboard数据集的语音识别测试进行排名,黄学东认为微软完全可以排第一,而IBM也不错,可以排第二。

0.1%,0.2%,0.3%,这种小数点的差距究竟有何意义?

在一个月新智元前采访阿里巴巴AI实验室时,其专家曾对目前的“语音识别竞赛”有过这样一个评价:

现在尤其在语音识别,图象识别的领域,大家的识别率基本上都是那个小数点后一位或者小数点后两位的区别,这个区别可能并不意味着什么。

那么千分之一的差距,究竟有没有价值?大概可以这么说,研究肯定有,而对于“落地”,则是有限的借鉴性。

按照黄学东所说,从研究角度来说,这个意义十分重大,即便是0.1%的差距,无论是运算量还是时间,耗费都是巨大的:

“你知道0.1、0.2、0.3的差距要跑多少时间才会达到,错误率的计算应该按照相对错误率来看,5.9到5.1相对错误率应该是13%左右,相对错误率超过13%,统计上已经有重要意义了。”

但对于消费级产品与商业场景来说,这种准确率和错误率之于前者,黄学东认为完全是两码事儿:“还是我刚才的说法,这种公开性的测试,发表的文章,与产品的最终效果,是不一样的评判标准。”

从目前来看,大公司之间通过“语音识别军备竞赛”带来的差异性优势正在不断缩小,而现有的大多数硬件与智能服务的交互体验仍然有很大缺陷的原因,应该要归于在“语义识别”方面大家还在止步不前。

譬如黄学东在9月7日由中国工程院信息与电子工程学部主办、浪潮集团承办的首届人工智能计算大会(AI Computing Conference,简称AICC)的演讲中,在现场为我们演示了一个PowerPoint内置的实时翻译小工具。尽管黄学东院士的英文发音很标准,吐字清晰,但翻译出的中文还是会存在一些小错误。黄学东表示,其实际的翻译效果与专业的同声传译相比,还是有一定距离的,而这里面就与语义识别有更多关系:

“这个小工具的效果虽然没有达到专业水平,但是,很多时候大家在做PPT演示的时候完全听不懂英文怎么办,基本上你通过它的翻译可以知道80%的意思,即便它的精准性还没有达到很高。”

“而机器翻译肯定不是完全的语音识别,你看‘机器速记’的效果可能更好一些,但翻译就会比较生硬,它需要“读懂”词义才能更加准确,这是我们下一个要面临的巨大挑战。现在机器翻译与人的差距真的很大,是因为自然语言处理还远远没有达到人的水平。”

其实早在今年8月微软宣布这个成果时,黄学东就在文章末尾谈到了目前在机器语音研究领域面对的重大挑战仍然有很多,例如在嘈杂环境下较远的麦克风的语音识别,方言识别,或训练数据有限的特定说话风格或较少人使用的语言的语音识别,这些都仍未达到人类水平。

“我们在教计算机不仅是转录口语,而且要了解话语的意义和意图方面仍有很多工作要做。从识别语音到理解话语,是语音技术的下一个主要挑战。”

本文分享自微信公众号 - 新智元(AI_era),作者:宇多田

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2017-09-13

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 【微软语音识别新突破,错误率降至5.1%】黄学东:新的行业里程碑

    【新智元导读】微软语音识别系统取得最新突破:微软的语音对话研究小组在Switchboard语音识别任务中,将错误率从去年的 5.9% 再一次降低到 5.1%,达...

    新智元
  • 微软首位华人“全球技术院士”黄学东:10个神经网络造就工程奇迹

    【新智元导读】微软语音识别技术24年老将黄学东近日被评为“微软全球技术院士”,成功摘下这一微软技术的“桂冠”。 黄学东于1993年加入微软。1995年,黄学东最...

    新智元
  • 微软对话语音识别再获突破,首次达到人类专业水平

    1 新智元推荐1 来源:微软研究院AI头条 【新智元导读】继 9月13日微软将对话语音识别错误率降至6.3%的记录后,前天再次宣布进一步将错误率降至 5.9%...

    新智元
  • Swift -标签页控制器(UITabBarController)用法

    Simulator Screen Shot 2016年11月8日 19.11.36.png

    Python疯子
  • 034 仿真软件在仓储物流自动化中的应用

    近几年来的智能仓储物流项目越来越多,每个项目的规模也越来越大,与此同时参与自动化仓储项目的公司也越来越多,这些公司各家主打的产品也有所不同。对于同一个项目需求,...

    老King
  • 未来5-10年,NLP将走向成熟

    近日,微软亚洲研究院(MSRA)副院长周明在「自然语言处理前沿技术分享会」上,与大家讲解了自然语言处理(NLP)的最新进展,以及未来的研究方向,以下内容由CSD...

    CSDN技术头条
  • 麻省理工开发出低功耗语音识别技术

    自动语音识别技术在十多年之前还难登大雅之堂,但现在它正成为人们和主要计算设备之间进行交互的主要手段。 据麻省理工学院报道,该院的研究人员已成功开发出了自动语音识...

    人工智能快报
  • 未来5-10年,自然语言处理将走向成熟

    用户1737318
  • spring @Import

    此处,ParentConfig是主配置,JavaConfigA和JavaConfigB都是@Configuration类,各自用@Bean方法定义了自己的Bea...

    平凡的学生族
  • 网信办提出Google和Facebook入华的底线,接受中国法律;北京正式允许无人车上路测试

    0、网信办提出Google和Facebook入华的底线:接受中国法律 中国网络监管机构周一在日内瓦会议上表示,谷歌(Google)和脸书(Facebook)如...

    顶级程序员

扫码关注云+社区

领取腾讯云代金券