深度 | IBM语音识别能力逼近人类水平,获深度学习巨头Yoshua Bengio盛赞

你知道吗?人类每听20个词,其实就有一两个成为“漏网之鱼”。而在一段五分钟的对话中,这一数字达到了80。但对于我们而言,少听一两个词并不会影响我们对语意的理解,然而想象一下,计算机如果要完成这件事有多难?

去年,IBM已经在语音识别领域走到了一个新的里程碑:系统的错误率降低为6.9%;而AI科技评论了解到,近日IBM Watson的语音识别系统将这个数字降到了5.5%。

清华大学的邓志东教授此前在采访中向AI科技评论表示,只有AI技术达到人类水平,它才有商业化的可能性。技术越来越接近人类水平也一直是人工智能的终极目标。而在语音识别领域,要在两人对话的语境中降低错误率,自然也是工业界努力的方向。包括谷歌、百度在内的不少公司也一直在追赶着人类语音识别的错误率,IBM此前的最佳表现水平是5.9%。不过人类的识别错误率一直是难以超越的5.1%,目前还没有任何公司能够达到这一水平。

以国内顶尖的百度人工智能研究院在语音识别的进展为例,AI科技评论整理了近年来的一些研究进展:

  • 在2014年底,吴恩达及团队发布了第一代深度语音识别系统Deep Speech,系统采用了端对端的深度学习技术,当时实现了提高嘈杂环境下的英语识别准确率,实验显示比谷歌、微软及苹果的语音系统的出错率要低10%。
  • 而在2015年8月,百度研究院新增了汉语的识别,准确率高达94%。这也让端到端的深度学习算法成为语音识别提升最重要的手段之一。
  • 2015年9月份的百度世界大会上,吴恩达也在期间展示了新一代的百度语音识别技术,验证在较为嘈杂的情况下,机器识别已经超过人类。
  • 2015年年底,百度研究院又发布了论文推出Deep Speech2,它能够通过深度学习网络识别嘈杂环境下的不同语言,所应用的HPC技术将识别速度提升了7倍。根据研究院的官方消息,HPC技术目前已在今年2月成功应用于深度学习中。

IBM 用于测试系统的样本难度很大,音频内容集中于像“买车”这样的日常话题。而这个被称为“SWITCHBOARD”的语料库,已经沿用了近20年,成为语音识别的“试金石”。

IBM研究院采用深度学习技术进行应用领域的拓展,结合了LSTM及三个WaveNet 音频模型:

  • 前两个模型采用的是六层的双向LSTM模型: 第一个模型有多个特征输入; 第二个模型采用了说话者对抗的多任务学习;
  • 而第三个模型的特别之处在于,它不仅能够从积极的模型中学习,还能借鉴消极模型——这样一来,当相似的语音模式再次出现时,系统的表现会越来越好。

在合作伙伴Appen的协作下,IBM重新对语音识别系统进行重新调整,前者为IBM提供语音及检索的技术服务支持。尽管IBM已经达成了5.5%的巨大突破,但官方表示,人类水平的5.1%才是它们努力前进的终极目标。

MILA的Yoshua Bengio认可了IBM的这一工作,也表示语音识别领域的研究工作依然任重道远:

“尽管像语音识别或物体识别这样的AI任务过去几年取得了巨大的进展,技术也已经接近人类水平,但它们依然存在着科学上的挑战。诚然,标准数据并不总是能揭示真实数据的多样性和复杂度,比如不同的数据集基于不同的任务上会呈现不同的敏感性;而只把人类水平作为系统评估的标准,我觉得也有些苛刻,比如在语音识别领域参与测试的都是经过专业训练的听写员。IBM持续在语音识别领域取得了极大进展,在将声学与语言模型应用于神经网络与深度学习上取得了非常大的飞跃。”

IBM在实验过程中也发现,寻找衡量人类识别水平的标准方法实际上比想象中要复杂许多。除了SWITCHBOARD,另一个名为“CallHome”的语料库提供了一组可被测试的语言数据,内容是基于家庭成员间未经预先定义的、更为口语化的对话。比起前者,CallHome的数据难度更具挑战性。IBM的系统用CallHome测试后呈现的错误率达到10.3%,而Appen提供的人类测试错误率在6.8%。

此外,即使是用SWITCHBOARD进行测试,在测试集中,有部分讲话者的声音也与训练数据是一致的,而CallHome则没有这样的重叠数据,这也一定程度造成了错误率的差异。因为这两个实验的前提条件不同,IBM认为两者并不能相提并论。

IBM认为它们在深度学习上取得的进步,能够最终克服目前存在的困难。哥伦比亚大学计算机科学教授兼主席Julia Hirschberg也对目前的语音识别技术挑战发表了评论:

“要实现达到人类水平的语音识别是一个持续的挑战,(要识别)人类自发的对话尤其困难。人类的表现难以定义,而人类在听懂他人语言的水平也参差不齐。如果我们要将机器识别与人类识别水平进行对比,我认为需要满足以下两个条件:测试者的识别水平,以及在同一演讲中不同人类的表现差异。IBM最近在SWITCHBOARD和CallHome上的表现都非常惊艳,但我也对IBM在理解人类水平方面有了新的认知。这项科研成果与IBM目前的ASR进展同样令人欣喜,不过我们也深知在语音识别的研究上需要更加努力。”

IBM表示,它们的这一最新进展能够与此前的语音识别技术相结合,比如去年12月推出的Watson语音转文字技术。IBM将继续研究出能够适配声音、听觉和大脑交互三者的技术,基于研究进展发表可靠而准确的技术成果。

via IBM

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2017-03-09

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏量子位

普林斯顿和英特尔联手研究“读心术”,看机器学习解读fMRI

李林 | 编译自ScienceDaily 量子位·QbitAI 出品 不就前,普林斯顿大学和英特尔一起举办了一场黑客马拉松,要研究“读心术”:当一个人思考的时候...

3499
来自专栏新智元

中国常春藤联盟院校都参与,腾讯广告算法大赛30万大奖出炉!

【新智元导读】7月30日,2018腾讯广告算法大赛决赛结果出炉:来自吉林大学、哈工大和北邮同学组建的“葛文强”队夺得大赛冠军,赢得30万元奖金!这次大赛赛题是L...

583
来自专栏ATYUN订阅号

MIT将个性化深度学习网络应用于机器人,让AI更有效地评估和治疗自闭症儿童

麻省理工学院媒体实验室的研究人员现在开发了一种个性化的机器学习,帮助机器人使用自闭症儿童独有的数据来评估这些互动过程中,每个孩子的参与度和兴趣。

1305
来自专栏专知

清华 Aminer 发布最新2018人脸识别研究报告

链接 | www.aminer.cn/research_report/facerecognition

833
来自专栏机器人网

真的!人工智能可以预测死亡时间

使用人工智能来预测患者死亡的时间听起来像反乌托邦科幻电视剧“黑镜”中的一幕。但是斯坦福大学的研究人员认为,AI 的这个用途,可以给医生和病人及早地开始必要的临终...

3486
来自专栏新智元

【专访微软黄学东】0.1%,0.2%与0.3%,语音识别军备竞赛中小数点差距有何意义

【新智元导读】 微软语音识别研究团队在黄学东的带领下,去年将语音识别的单词错误率降至5.9%,又在最近降至5.1%。在本次专访中,我们讨论了语音识别错误率百分之...

2797
来自专栏CDA数据分析师

机器学习的商业应用

机器学习的商业应用就是把真实的场景,真实的商业应用的经验凝练成对每个数据分析师都有价值的功能,逐渐放到产品中。 本期精编版嘉宾演讲为IBM中国开发中心技术总监...

1925
来自专栏AI科技评论

创业 | RestB.AI: 我们的计算机识别技术和谷歌的区别在哪?

上个月,Facebook 陷入了一场“道歉门”中:不少人钻 Facebook 刚上线的网络商城缺乏事前审核的空子,而在商场上贩卖枪支、毒品等违禁品。对此,公司已...

3045
来自专栏深度学习之tensorflow实战篇

新媒体指数评价方法:相应计算公式

在对平面媒体的广告价值进行研究的过程中,主要考虑四个方面的因素:一、媒体的受众规模;二、媒体的受众构成;三、媒体对受众影响力;四、广告主对媒体的接受度。...

2273
来自专栏PaddlePaddle

技术|深度学习行业应用及就业方向大猜想

一直以来,大家都在盛传深度学习是工程师的风口,但是对于深度学习和行业的联系却很少被提及。

1021

扫码关注云+社区