深度 | IBM语音识别能力逼近人类水平，获深度学习巨头Yoshua Bengio盛赞

AI科技评论

发布于 2018-03-12 10:54:10

1K0

发布于 2018-03-12 10:54:10

文章被收录于专栏：AI科技评论

你知道吗？人类每听20个词，其实就有一两个成为“漏网之鱼”。而在一段五分钟的对话中，这一数字达到了80。但对于我们而言，少听一两个词并不会影响我们对语意的理解，然而想象一下，计算机如果要完成这件事有多难？

去年，IBM已经在语音识别领域走到了一个新的里程碑：系统的错误率降低为6.9%；而AI科技评论了解到，近日IBM Watson的语音识别系统将这个数字降到了5.5%。

清华大学的邓志东教授此前在采访中向AI科技评论表示，只有AI技术达到人类水平，它才有商业化的可能性。技术越来越接近人类水平也一直是人工智能的终极目标。而在语音识别领域，要在两人对话的语境中降低错误率，自然也是工业界努力的方向。包括谷歌、百度在内的不少公司也一直在追赶着人类语音识别的错误率，IBM此前的最佳表现水平是5.9%。不过人类的识别错误率一直是难以超越的5.1%，目前还没有任何公司能够达到这一水平。

以国内顶尖的百度人工智能研究院在语音识别的进展为例，AI科技评论整理了近年来的一些研究进展：

在2014年底，吴恩达及团队发布了第一代深度语音识别系统Deep Speech，系统采用了端对端的深度学习技术，当时实现了提高嘈杂环境下的英语识别准确率，实验显示比谷歌、微软及苹果的语音系统的出错率要低10%。
而在2015年8月，百度研究院新增了汉语的识别，准确率高达94%。这也让端到端的深度学习算法成为语音识别提升最重要的手段之一。
2015年9月份的百度世界大会上，吴恩达也在期间展示了新一代的百度语音识别技术，验证在较为嘈杂的情况下，机器识别已经超过人类。
2015年年底，百度研究院又发布了论文推出Deep Speech2，它能够通过深度学习网络识别嘈杂环境下的不同语言，所应用的HPC技术将识别速度提升了7倍。根据研究院的官方消息，HPC技术目前已在今年2月成功应用于深度学习中。

IBM 用于测试系统的样本难度很大，音频内容集中于像“买车”这样的日常话题。而这个被称为“SWITCHBOARD”的语料库，已经沿用了近20年，成为语音识别的“试金石”。

IBM研究院采用深度学习技术进行应用领域的拓展，结合了LSTM及三个WaveNet 音频模型：

前两个模型采用的是六层的双向LSTM模型：第一个模型有多个特征输入；第二个模型采用了说话者对抗的多任务学习；
而第三个模型的特别之处在于，它不仅能够从积极的模型中学习，还能借鉴消极模型——这样一来，当相似的语音模式再次出现时，系统的表现会越来越好。

在合作伙伴Appen的协作下，IBM重新对语音识别系统进行重新调整，前者为IBM提供语音及检索的技术服务支持。尽管IBM已经达成了5.5%的巨大突破，但官方表示，人类水平的5.1%才是它们努力前进的终极目标。

MILA的Yoshua Bengio认可了IBM的这一工作，也表示语音识别领域的研究工作依然任重道远：

“尽管像语音识别或物体识别这样的AI任务过去几年取得了巨大的进展，技术也已经接近人类水平，但它们依然存在着科学上的挑战。诚然，标准数据并不总是能揭示真实数据的多样性和复杂度，比如不同的数据集基于不同的任务上会呈现不同的敏感性；而只把人类水平作为系统评估的标准，我觉得也有些苛刻，比如在语音识别领域参与测试的都是经过专业训练的听写员。IBM持续在语音识别领域取得了极大进展，在将声学与语言模型应用于神经网络与深度学习上取得了非常大的飞跃。”

IBM在实验过程中也发现，寻找衡量人类识别水平的标准方法实际上比想象中要复杂许多。除了SWITCHBOARD，另一个名为“CallHome”的语料库提供了一组可被测试的语言数据，内容是基于家庭成员间未经预先定义的、更为口语化的对话。比起前者，CallHome的数据难度更具挑战性。IBM的系统用CallHome测试后呈现的错误率达到10.3%，而Appen提供的人类测试错误率在6.8%。

此外，即使是用SWITCHBOARD进行测试，在测试集中，有部分讲话者的声音也与训练数据是一致的，而CallHome则没有这样的重叠数据，这也一定程度造成了错误率的差异。因为这两个实验的前提条件不同，IBM认为两者并不能相提并论。

IBM认为它们在深度学习上取得的进步，能够最终克服目前存在的困难。哥伦比亚大学计算机科学教授兼主席Julia Hirschberg也对目前的语音识别技术挑战发表了评论：

“要实现达到人类水平的语音识别是一个持续的挑战，（要识别）人类自发的对话尤其困难。人类的表现难以定义，而人类在听懂他人语言的水平也参差不齐。如果我们要将机器识别与人类识别水平进行对比，我认为需要满足以下两个条件：测试者的识别水平，以及在同一演讲中不同人类的表现差异。IBM最近在SWITCHBOARD和CallHome上的表现都非常惊艳，但我也对IBM在理解人类水平方面有了新的认知。这项科研成果与IBM目前的ASR进展同样令人欣喜，不过我们也深知在语音识别的研究上需要更加努力。”

IBM表示，它们的这一最新进展能够与此前的语音识别技术相结合，比如去年12月推出的Watson语音转文字技术。IBM将继续研究出能够适配声音、听觉和大脑交互三者的技术，基于研究进展发表可靠而准确的技术成果。

via IBM

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2017-03-09，如有侵权请联系 cloudcommunity@tencent.com 删除

深度学习