麻省理工人工智能通过“图灵听力测试”

2016年6月13日,麻省理工计算机科学与人工智能实验室(CSAIL)发布消息称,该实验室开发的人工智能程序通过了“图灵听力测试”。

该实验室的研究人员展示了一个能够有效预测声音的算法:在面对一个敲击物体的无声视频剪辑时,该算法可以针对敲击动作制造一个声音,其真实度足以骗过所有观众。

这个“图灵听力测试”代表的不仅仅是一款高明的计算机游戏。据研究人员设想,未来版本的类似算法将被用于为电影和电视节目自动产生声音效果,也可以帮助机器人更好地了解对象的属性。

即将以第一作者发表相关论文的CSAIL实验室博士生Andrew Owens表示:“当你在酒杯前摇晃手指的时候,酒杯发出的声音能够反映它里面有多少液体。模拟这种声音的算法可以揭示与对象的形状和材料类型等相关的关键信息,以及它们与世界的相互作用和运动。”

该小组使用了“深度学习”领域的技术。这种技术需要训练计算机通过筛选大量的数据来寻找合适的工作模式。深度学习的方法是特别有用的,因为它们能够将计算机科学家们从手工设计算法的工作中解放出来,并能够监督这些算法的执行过程。

训练一个声音生成算法的第一步是让它研究已有的声音。在几个月的时间里,研究人员记录了大约1000个视频中的4.6万多段声音。这些声音来自于用一个鼓锤敲打、剐蹭和戳刺不同对象的过程。使用鼓锤的原因是它能够用一致的方式产生声音。

接下来,研究小组使用深度学习算法研究这些视频,以重构这些声音并分析其音调、响度和其他特点。“为了接下来能够预测一个新视频中的声音,该算法考察每个视频帧的声音属性,并从数据库中找到与该视频帧最匹配的声音,”Owens说:“如果系统中有这些音频,就将它们联系在一起,以创建一个连贯的声音。”

最终得到的结果是,该算法能够准确地模拟不同场景的细微之处,如不连续敲击岩石的声音和沙沙作响的常春藤的声音等。音高也不是问题,因为该算法能够合成低沉的敲击“柔软沙发”的声音,也可以合成高亢的敲击“硬木”的声音。

卡耐基梅隆大学的机器人专业助理教授Abhinav Gupta表示:目前人工智能只关注五种感知方式,如视觉研究者利用图像、语音研究者使用音频等。他并没有参与这项研究,但他认为这篇论文是向通过整合声音与视觉来模仿学习人类行为的方向迈出了正确一步。

这项工作的一个额外成果是,该团队声音库中的4.6万段声音可供其他研究人员免费使用。其数据集的名称是“最伟大的敲击”(Greatest Hits)

为了验证这些虚假声音的真实程度,研究小组进行了一项在线调查,参与调查者观看了两个碰撞视频—一个配有真实的声音,另一个配有算法合成的声音—他们要判断哪一个是真实的声音。

测试结果是:假声音被选中的频率是真实声音的两倍。他们特别容易被像树叶和泥土这样的材料愚弄,因为这些材料发出“干净”声音的机会比木头或金属少。重要的是,该小组发现,材料发出的声音能够揭示它们的一些关键物理属性:他们开发的一个算法可以在67%的时间内区分硬材料和软材料之间的差异。

这个研究小组的工作与最近CSAIL在音频和视频放大方面的研究工作是相辅相成的。研究人员已经开发了能够放大视频的算法,可以用来放大肉眼看不见的运动视频。

研究人员表示,系统还有进一步改善的空间。例如,如果在某段视频中鼓锤的运动非常不规律,算法就有可能错过敲击或者产生含混的敲击声,因此它的适应范围也是有限的。它只能用来模拟“在视觉上可分辨的声音”,即由视频中出现的物理相互作用直接产生的声音。

Owens说:“从柔和的风吹声到笔记本电脑的嗡嗡声,在任何时刻,我们周围都会有很多我们没有注意到的声音。真正令人兴奋的事情是以某种方式模拟那些与视觉效果不直接相关的声音。”

该团队相信,这一领域未来的工作可以提高机器人与其所处环境进行交互的能力。Owens表示,走在人行道上,机器人可以本能地看出水泥是硬的,而草是软的,从而知道如果踩到上面会发生什么事情。预测声音是预测真实世界物理作用结果的重要一步。

原文发布于微信公众号 - 人工智能快报(AI_News)

原文发表时间:2016-07-12

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏ThoughtWorks

你真的懂反馈吗?|洞见

敏捷开发当中有一个经典实践叫做“回顾会议”,在这个会议上,项目团队成员会对上个开发迭代的各个方面进行回顾,并对需要改善的点提出建议,以便持续改进。第一次尝试这种...

3475
来自专栏竹清助手

关于用户成长体系,一份不能错过的笔记

产品经理对于有关积分、成长值、等级等一整套的系统,有人叫用户成长体系,有人叫用户激励系统。笔者的理解是,他们都是一样的,不用纠结于字眼,关键还在于内涵的研究。

692
来自专栏大数据文摘

[译]综合2000个招聘经理的建议后,给出33个面试关键提示

1162
来自专栏量子位

哪些游戏可以让人工智能无法开挂?老外们绞尽脑汁想到这些

△ 用AI打《星际争霸》,可以说是人工智能领域一项历史悠久的运动 从AlphaGo横扫围棋界,到百度大脑在《最强大脑》中保持不败。面对来势汹汹、优势明显的人工智...

1866
来自专栏华章科技

22岁大学生获谷歌天价offer,年薪百万!

导读:在印度各地的顶级工程学院中,通过院校的安排获得一个高薪的工作是十分常见的,但如果你能一个世界顶级科技企业的offer,而且年薪千万,你会有怎样的心情呢?

622
来自专栏新智元

【AI VS 人类新高峰】冷扑大师发明人:用于策略推理的超人AI

【新智元导读】 “冷扑大师”libratus发明人之一的Tuomas Sandholm在新智元AI WORLD207世界人工智能大会上进行分享。他介绍了libr...

2918
来自专栏凌帅的阅读思考与实践

《如何成为有效学习的高手》书摘|成年人真正能用的高效学习方法

听了许岑老师在《得到》的精品课《如何成为有效学习的高手》,制作精良,干货满满,受益良多,为深入学习,特书摘如下。

582
来自专栏黑白安全

论个人/企业信息隐私保护的重要性

前段时间一直在研究社会工程学,发现所谓的黑客们你社工我,我曝光你,个人隐私毫无秘密可言

682
来自专栏vue学习

读《学习之道》— 放松点,有时候太勤奋也是一种病

自21世纪以来,神经学家就已经对大脑中两种思维模式网络模式间的相互切换取得了研究上的长足进步,即注意力高度集中的状态和更加放松的休息状态;这两种思考状态基于不同...

1033
来自专栏BestSDK

为何苹果、Google、Facebook力推3D AR,看完这个你就知道了

苹果大中华区董事总经理葛越在乌镇世界互联网大会上发表演讲,再次推介了苹果努力打造的 AR 体验,并以天天 P 图为例介绍了 AR 的好玩之处。“腾讯打造的这款天...

35015

扫码关注云+社区