深度 | IBM语音识别能力逼近人类水平,获深度学习巨头Yoshua Bengio盛赞

你知道吗?人类每听20个词,其实就有一两个成为“漏网之鱼”。而在一段五分钟的对话中,这一数字达到了80。但对于我们而言,少听一两个词并不会影响我们对语意的理解,然而想象一下,计算机如果要完成这件事有多难?

去年,IBM已经在语音识别领域走到了一个新的里程碑:系统的错误率降低为6.9%;而AI科技评论了解到,近日IBM Watson的语音识别系统将这个数字降到了5.5%。

清华大学的邓志东教授此前在采访中向AI科技评论表示,只有AI技术达到人类水平,它才有商业化的可能性。技术越来越接近人类水平也一直是人工智能的终极目标。而在语音识别领域,要在两人对话的语境中降低错误率,自然也是工业界努力的方向。包括谷歌、百度在内的不少公司也一直在追赶着人类语音识别的错误率,IBM此前的最佳表现水平是5.9%。不过人类的识别错误率一直是难以超越的5.1%,目前还没有任何公司能够达到这一水平。

以国内顶尖的百度人工智能研究院在语音识别的进展为例,AI科技评论整理了近年来的一些研究进展:

  • 在2014年底,吴恩达及团队发布了第一代深度语音识别系统Deep Speech,系统采用了端对端的深度学习技术,当时实现了提高嘈杂环境下的英语识别准确率,实验显示比谷歌、微软及苹果的语音系统的出错率要低10%。
  • 而在2015年8月,百度研究院新增了汉语的识别,准确率高达94%。这也让端到端的深度学习算法成为语音识别提升最重要的手段之一。
  • 2015年9月份的百度世界大会上,吴恩达也在期间展示了新一代的百度语音识别技术,验证在较为嘈杂的情况下,机器识别已经超过人类。
  • 2015年年底,百度研究院又发布了论文推出Deep Speech2,它能够通过深度学习网络识别嘈杂环境下的不同语言,所应用的HPC技术将识别速度提升了7倍。根据研究院的官方消息,HPC技术目前已在今年2月成功应用于深度学习中。

IBM 用于测试系统的样本难度很大,音频内容集中于像“买车”这样的日常话题。而这个被称为“SWITCHBOARD”的语料库,已经沿用了近20年,成为语音识别的“试金石”。

IBM研究院采用深度学习技术进行应用领域的拓展,结合了LSTM及三个WaveNet 音频模型:

  • 前两个模型采用的是六层的双向LSTM模型: 第一个模型有多个特征输入; 第二个模型采用了说话者对抗的多任务学习;
  • 而第三个模型的特别之处在于,它不仅能够从积极的模型中学习,还能借鉴消极模型——这样一来,当相似的语音模式再次出现时,系统的表现会越来越好。

在合作伙伴Appen的协作下,IBM重新对语音识别系统进行重新调整,前者为IBM提供语音及检索的技术服务支持。尽管IBM已经达成了5.5%的巨大突破,但官方表示,人类水平的5.1%才是它们努力前进的终极目标。

MILA的Yoshua Bengio认可了IBM的这一工作,也表示语音识别领域的研究工作依然任重道远:

“尽管像语音识别或物体识别这样的AI任务过去几年取得了巨大的进展,技术也已经接近人类水平,但它们依然存在着科学上的挑战。诚然,标准数据并不总是能揭示真实数据的多样性和复杂度,比如不同的数据集基于不同的任务上会呈现不同的敏感性;而只把人类水平作为系统评估的标准,我觉得也有些苛刻,比如在语音识别领域参与测试的都是经过专业训练的听写员。IBM持续在语音识别领域取得了极大进展,在将声学与语言模型应用于神经网络与深度学习上取得了非常大的飞跃。”

IBM在实验过程中也发现,寻找衡量人类识别水平的标准方法实际上比想象中要复杂许多。除了SWITCHBOARD,另一个名为“CallHome”的语料库提供了一组可被测试的语言数据,内容是基于家庭成员间未经预先定义的、更为口语化的对话。比起前者,CallHome的数据难度更具挑战性。IBM的系统用CallHome测试后呈现的错误率达到10.3%,而Appen提供的人类测试错误率在6.8%。

此外,即使是用SWITCHBOARD进行测试,在测试集中,有部分讲话者的声音也与训练数据是一致的,而CallHome则没有这样的重叠数据,这也一定程度造成了错误率的差异。因为这两个实验的前提条件不同,IBM认为两者并不能相提并论。

IBM认为它们在深度学习上取得的进步,能够最终克服目前存在的困难。哥伦比亚大学计算机科学教授兼主席Julia Hirschberg也对目前的语音识别技术挑战发表了评论:

“要实现达到人类水平的语音识别是一个持续的挑战,(要识别)人类自发的对话尤其困难。人类的表现难以定义,而人类在听懂他人语言的水平也参差不齐。如果我们要将机器识别与人类识别水平进行对比,我认为需要满足以下两个条件:测试者的识别水平,以及在同一演讲中不同人类的表现差异。IBM最近在SWITCHBOARD和CallHome上的表现都非常惊艳,但我也对IBM在理解人类水平方面有了新的认知。这项科研成果与IBM目前的ASR进展同样令人欣喜,不过我们也深知在语音识别的研究上需要更加努力。”

IBM表示,它们的这一最新进展能够与此前的语音识别技术相结合,比如去年12月推出的Watson语音转文字技术。IBM将继续研究出能够适配声音、听觉和大脑交互三者的技术,基于研究进展发表可靠而准确的技术成果。

via IBM

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2017-03-09

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI科技评论

动态 | 新里程碑!微软语音到文字转录已经达到人类水平

AI 科技评论按:语音到文字的转换是语音研究领域的重要课题。自引入神经网络的方法以来,语音识别正确率有了长足的进展,也为苹果 Siri、亚马逊 Echo、科大讯...

3829
来自专栏PPV课数据科学社区

是的,人工智能就是分析

关于人工智能究竟是什么,以及人工智能的学科应该如何分类,似乎存在一些混淆。人工智能是分析学的一种形式,还是一门与分析学不同的全新学科?我坚信人工智能与预测分析和...

2734
来自专栏机器之心

OpenAI联合DeepMind发布全新研究:根据人类反馈进行强化学习

选自DeepMind 作者:Shane Legg等 机器之心编译 参与:吴攀、黄小天、李亚洲 DeepMind 和 OpenAI 是现在人工智能研究界最重要的两...

2738
来自专栏CDA数据分析师

数据科学家:在实际工作后,我深刻认识到的五点

我从事数据科学工作了已经将近半年了,我一路上成长了很多,也犯了很多错误,并在这一过程中从学习了很多。

851
来自专栏专知

机器学习模型在工业界真的创造价值了么?

【导读】看到标题你可能会有疑惑,因为我们可能经常听到的是“你在实际应用中如何使用机器学习模型的”。本文正是数据科学家Venkat Raman关于“机器学习在工业...

3566
来自专栏专知

教你构建机器学习项目:吴恩达新书《Machine Learning Yearning》

【导读】本文主要介绍吴恩达最近正在编写的新书《Machine Learning Yearning》,旨在教你如何构建机器学习项目,它与吴恩达之前机器学习课程有所...

3979
来自专栏人工智能快报

研究人员称量子计算并非深度学习最佳工具

2015年11月11日,互联网产业资讯网站(VenTureBeat)发文指出量子计算机并不适合深度学习。在过去的几年中,谷歌公司一直在努力改善其人工智能服务,谷...

3206
来自专栏AI科技评论

业界 | 想要快速的搭建高性能机器学习系统,企业应该怎么干?

AI科技评论按:本文为「范式大学系列课程」。Web服务器部署在云上已经算是常见的事情了,那么机器学习系统如何呢? ? 亚马逊AWS目前的运维水平成为行业标准,但...

2804
来自专栏PPV课数据科学社区

人工智能的过去、现在和未来

人工智能(Artificial Intelligence,AI)是指计算机像人一样拥有智能能力,是一个融合计算机科学、统计学、脑神经学和社会科学的前沿综合学科,...

1431
来自专栏新智元

【解读2015】自然语言处理:持续探索,稳中前行

2015年,整个IT技术领域发生了许多深刻而又复杂的变化,InfoQ策划了“解读2015”年终技术盘点系列文章,希望能够给读者清晰地梳理出技术领域在这一年的发展...

3385

扫码关注云+社区