深度 | IBM语音识别能力逼近人类水平,获深度学习巨头Yoshua Bengio盛赞

你知道吗?人类每听20个词,其实就有一两个成为“漏网之鱼”。而在一段五分钟的对话中,这一数字达到了80。但对于我们而言,少听一两个词并不会影响我们对语意的理解,然而想象一下,计算机如果要完成这件事有多难?

去年,IBM已经在语音识别领域走到了一个新的里程碑:系统的错误率降低为6.9%;而AI科技评论了解到,近日IBM Watson的语音识别系统将这个数字降到了5.5%。

清华大学的邓志东教授此前在采访中向AI科技评论表示,只有AI技术达到人类水平,它才有商业化的可能性。技术越来越接近人类水平也一直是人工智能的终极目标。而在语音识别领域,要在两人对话的语境中降低错误率,自然也是工业界努力的方向。包括谷歌、百度在内的不少公司也一直在追赶着人类语音识别的错误率,IBM此前的最佳表现水平是5.9%。不过人类的识别错误率一直是难以超越的5.1%,目前还没有任何公司能够达到这一水平。

以国内顶尖的百度人工智能研究院在语音识别的进展为例,AI科技评论整理了近年来的一些研究进展:

  • 在2014年底,吴恩达及团队发布了第一代深度语音识别系统Deep Speech,系统采用了端对端的深度学习技术,当时实现了提高嘈杂环境下的英语识别准确率,实验显示比谷歌、微软及苹果的语音系统的出错率要低10%。
  • 而在2015年8月,百度研究院新增了汉语的识别,准确率高达94%。这也让端到端的深度学习算法成为语音识别提升最重要的手段之一。
  • 2015年9月份的百度世界大会上,吴恩达也在期间展示了新一代的百度语音识别技术,验证在较为嘈杂的情况下,机器识别已经超过人类。
  • 2015年年底,百度研究院又发布了论文推出Deep Speech2,它能够通过深度学习网络识别嘈杂环境下的不同语言,所应用的HPC技术将识别速度提升了7倍。根据研究院的官方消息,HPC技术目前已在今年2月成功应用于深度学习中。

IBM 用于测试系统的样本难度很大,音频内容集中于像“买车”这样的日常话题。而这个被称为“SWITCHBOARD”的语料库,已经沿用了近20年,成为语音识别的“试金石”。

IBM研究院采用深度学习技术进行应用领域的拓展,结合了LSTM及三个WaveNet 音频模型:

  • 前两个模型采用的是六层的双向LSTM模型: 第一个模型有多个特征输入; 第二个模型采用了说话者对抗的多任务学习;
  • 而第三个模型的特别之处在于,它不仅能够从积极的模型中学习,还能借鉴消极模型——这样一来,当相似的语音模式再次出现时,系统的表现会越来越好。

在合作伙伴Appen的协作下,IBM重新对语音识别系统进行重新调整,前者为IBM提供语音及检索的技术服务支持。尽管IBM已经达成了5.5%的巨大突破,但官方表示,人类水平的5.1%才是它们努力前进的终极目标。

MILA的Yoshua Bengio认可了IBM的这一工作,也表示语音识别领域的研究工作依然任重道远:

“尽管像语音识别或物体识别这样的AI任务过去几年取得了巨大的进展,技术也已经接近人类水平,但它们依然存在着科学上的挑战。诚然,标准数据并不总是能揭示真实数据的多样性和复杂度,比如不同的数据集基于不同的任务上会呈现不同的敏感性;而只把人类水平作为系统评估的标准,我觉得也有些苛刻,比如在语音识别领域参与测试的都是经过专业训练的听写员。IBM持续在语音识别领域取得了极大进展,在将声学与语言模型应用于神经网络与深度学习上取得了非常大的飞跃。”

IBM在实验过程中也发现,寻找衡量人类识别水平的标准方法实际上比想象中要复杂许多。除了SWITCHBOARD,另一个名为“CallHome”的语料库提供了一组可被测试的语言数据,内容是基于家庭成员间未经预先定义的、更为口语化的对话。比起前者,CallHome的数据难度更具挑战性。IBM的系统用CallHome测试后呈现的错误率达到10.3%,而Appen提供的人类测试错误率在6.8%。

此外,即使是用SWITCHBOARD进行测试,在测试集中,有部分讲话者的声音也与训练数据是一致的,而CallHome则没有这样的重叠数据,这也一定程度造成了错误率的差异。因为这两个实验的前提条件不同,IBM认为两者并不能相提并论。

IBM认为它们在深度学习上取得的进步,能够最终克服目前存在的困难。哥伦比亚大学计算机科学教授兼主席Julia Hirschberg也对目前的语音识别技术挑战发表了评论:

“要实现达到人类水平的语音识别是一个持续的挑战,(要识别)人类自发的对话尤其困难。人类的表现难以定义,而人类在听懂他人语言的水平也参差不齐。如果我们要将机器识别与人类识别水平进行对比,我认为需要满足以下两个条件:测试者的识别水平,以及在同一演讲中不同人类的表现差异。IBM最近在SWITCHBOARD和CallHome上的表现都非常惊艳,但我也对IBM在理解人类水平方面有了新的认知。这项科研成果与IBM目前的ASR进展同样令人欣喜,不过我们也深知在语音识别的研究上需要更加努力。”

IBM表示,它们的这一最新进展能够与此前的语音识别技术相结合,比如去年12月推出的Watson语音转文字技术。IBM将继续研究出能够适配声音、听觉和大脑交互三者的技术,基于研究进展发表可靠而准确的技术成果。

via IBM

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2017-03-09

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏人工智能快报

迪斯尼利用人工智能实现声音与图片之间的关联

美国迪斯尼研究中心发报告称,其与瑞士苏黎世联邦理工学院合作利用人工智能设计出了能自主匹配图像和声音的系统。 儿童可以根据不同动物的声音从图书中学习关联图像和声音...

3225
来自专栏新智元

腾讯优图杰出科学家贾佳亚:视觉AI的新认识,揭秘“卸妆”算法

【新智元导读】新智元AI WORLD2017 世界人工智能大会上,腾讯优图实验室杰出科学家、计算机视觉专家贾佳亚教授从前端、后端的视觉AI说起,分享了腾讯优图在...

37811
来自专栏ATYUN订阅号

IBM计划提供最大的人脸识别面部数据集,用于人工智能偏见研究

社会比以往更关注人工智能系统中的偏见问题,尤其是那些用于识别和分析人脸图像的问题。IBM正在采取以下行动来确保面部识别技术的构建和负责的训练:

753
来自专栏大数据文摘

败家还是持家?看你懂不懂购物算法!

28510
来自专栏斜述视角

用离散的视角看世界

我先问你一个简单的问题,人类是怎么计算时间的?我们总说时间是一条长河,时间是连续不断的,但是我们没有办法直接去描述连续的时间。

561
来自专栏黄成甲

AI不是魔法:人工智能的能与不能

如果把AI技术分为「前端的交互技术」和「后端的人工智能技术」。前端的交互技术包括语音识别、图像识别和自然语言处理;后端的人工智能技术就是人工智能的核心算法,包括...

593
来自专栏新智元

【破译大脑识别人脸原理】人脸识别判断人贫富程度,准确率53%

【新智元导读】 多伦多大学的一项研究发现人脸能够泄露我们的经济地位,这是因为与生活经历相联系的表情会在脸上留下印记。研究者称:平静的人脸部表情是一个可以用来判断...

2834
来自专栏PPV课数据科学社区

重磅 | Facebook机器学习应用负责人J.Candela:如何将人工智能技术应用于产品

Joaquin Quiñonero Candela是Facebook 机器学习应用团队的负责人。他曾在微软剑桥研究院工作,还是微软Bing团队的一员。Joaq...

3355
来自专栏AI科技评论

Facebook、微软、谷歌三大研究巨头齐聚首,共同探讨人工智能发展现状和趋势

AI 科技评论消息,日前 AAAS 在 reddit 上组织了一场问答,Facebook 人工智能研究院 Yann LeCun,微软研究院院长 Eric Hor...

3255
来自专栏机器之心

业界 | 快手AI技术副总裁郑文:为什么说AI是短视频平台的核心能力

郑文是美国斯坦福计算机系博士,研究方向主要集中在计算机图形学和电影特效方面,毕业之后在美国从事机器学习和计算机视觉相关研究,2016 年回国后加盟快手,现任快手...

803

扫描关注云+社区