麻省理工人工智能通过“图灵听力测试”

2016年6月13日,麻省理工计算机科学与人工智能实验室(CSAIL)发布消息称,该实验室开发的人工智能程序通过了“图灵听力测试”。

该实验室的研究人员展示了一个能够有效预测声音的算法:在面对一个敲击物体的无声视频剪辑时,该算法可以针对敲击动作制造一个声音,其真实度足以骗过所有观众。

这个“图灵听力测试”代表的不仅仅是一款高明的计算机游戏。据研究人员设想,未来版本的类似算法将被用于为电影和电视节目自动产生声音效果,也可以帮助机器人更好地了解对象的属性。

即将以第一作者发表相关论文的CSAIL实验室博士生Andrew Owens表示:“当你在酒杯前摇晃手指的时候,酒杯发出的声音能够反映它里面有多少液体。模拟这种声音的算法可以揭示与对象的形状和材料类型等相关的关键信息,以及它们与世界的相互作用和运动。”

该小组使用了“深度学习”领域的技术。这种技术需要训练计算机通过筛选大量的数据来寻找合适的工作模式。深度学习的方法是特别有用的,因为它们能够将计算机科学家们从手工设计算法的工作中解放出来,并能够监督这些算法的执行过程。

训练一个声音生成算法的第一步是让它研究已有的声音。在几个月的时间里,研究人员记录了大约1000个视频中的4.6万多段声音。这些声音来自于用一个鼓锤敲打、剐蹭和戳刺不同对象的过程。使用鼓锤的原因是它能够用一致的方式产生声音。

接下来,研究小组使用深度学习算法研究这些视频,以重构这些声音并分析其音调、响度和其他特点。“为了接下来能够预测一个新视频中的声音,该算法考察每个视频帧的声音属性,并从数据库中找到与该视频帧最匹配的声音,”Owens说:“如果系统中有这些音频,就将它们联系在一起,以创建一个连贯的声音。”

最终得到的结果是,该算法能够准确地模拟不同场景的细微之处,如不连续敲击岩石的声音和沙沙作响的常春藤的声音等。音高也不是问题,因为该算法能够合成低沉的敲击“柔软沙发”的声音,也可以合成高亢的敲击“硬木”的声音。

卡耐基梅隆大学的机器人专业助理教授Abhinav Gupta表示:目前人工智能只关注五种感知方式,如视觉研究者利用图像、语音研究者使用音频等。他并没有参与这项研究,但他认为这篇论文是向通过整合声音与视觉来模仿学习人类行为的方向迈出了正确一步。

这项工作的一个额外成果是,该团队声音库中的4.6万段声音可供其他研究人员免费使用。其数据集的名称是“最伟大的敲击”(Greatest Hits)

为了验证这些虚假声音的真实程度,研究小组进行了一项在线调查,参与调查者观看了两个碰撞视频—一个配有真实的声音,另一个配有算法合成的声音—他们要判断哪一个是真实的声音。

测试结果是:假声音被选中的频率是真实声音的两倍。他们特别容易被像树叶和泥土这样的材料愚弄,因为这些材料发出“干净”声音的机会比木头或金属少。重要的是,该小组发现,材料发出的声音能够揭示它们的一些关键物理属性:他们开发的一个算法可以在67%的时间内区分硬材料和软材料之间的差异。

这个研究小组的工作与最近CSAIL在音频和视频放大方面的研究工作是相辅相成的。研究人员已经开发了能够放大视频的算法,可以用来放大肉眼看不见的运动视频。

研究人员表示,系统还有进一步改善的空间。例如,如果在某段视频中鼓锤的运动非常不规律,算法就有可能错过敲击或者产生含混的敲击声,因此它的适应范围也是有限的。它只能用来模拟“在视觉上可分辨的声音”,即由视频中出现的物理相互作用直接产生的声音。

Owens说:“从柔和的风吹声到笔记本电脑的嗡嗡声,在任何时刻,我们周围都会有很多我们没有注意到的声音。真正令人兴奋的事情是以某种方式模拟那些与视觉效果不直接相关的声音。”

该团队相信,这一领域未来的工作可以提高机器人与其所处环境进行交互的能力。Owens表示,走在人行道上,机器人可以本能地看出水泥是硬的,而草是软的,从而知道如果踩到上面会发生什么事情。预测声音是预测真实世界物理作用结果的重要一步。

原文发布于微信公众号 - 人工智能快报(AI_News)

原文发表时间:2016-07-12

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

扫码关注云+社区