麻省理工人工智能通过“图灵听力测试”

2016年6月13日,麻省理工计算机科学与人工智能实验室(CSAIL)发布消息称,该实验室开发的人工智能程序通过了“图灵听力测试”。

该实验室的研究人员展示了一个能够有效预测声音的算法:在面对一个敲击物体的无声视频剪辑时,该算法可以针对敲击动作制造一个声音,其真实度足以骗过所有观众。

这个“图灵听力测试”代表的不仅仅是一款高明的计算机游戏。据研究人员设想,未来版本的类似算法将被用于为电影和电视节目自动产生声音效果,也可以帮助机器人更好地了解对象的属性。

即将以第一作者发表相关论文的CSAIL实验室博士生Andrew Owens表示:“当你在酒杯前摇晃手指的时候,酒杯发出的声音能够反映它里面有多少液体。模拟这种声音的算法可以揭示与对象的形状和材料类型等相关的关键信息,以及它们与世界的相互作用和运动。”

该小组使用了“深度学习”领域的技术。这种技术需要训练计算机通过筛选大量的数据来寻找合适的工作模式。深度学习的方法是特别有用的,因为它们能够将计算机科学家们从手工设计算法的工作中解放出来,并能够监督这些算法的执行过程。

训练一个声音生成算法的第一步是让它研究已有的声音。在几个月的时间里,研究人员记录了大约1000个视频中的4.6万多段声音。这些声音来自于用一个鼓锤敲打、剐蹭和戳刺不同对象的过程。使用鼓锤的原因是它能够用一致的方式产生声音。

接下来,研究小组使用深度学习算法研究这些视频,以重构这些声音并分析其音调、响度和其他特点。“为了接下来能够预测一个新视频中的声音,该算法考察每个视频帧的声音属性,并从数据库中找到与该视频帧最匹配的声音,”Owens说:“如果系统中有这些音频,就将它们联系在一起,以创建一个连贯的声音。”

最终得到的结果是,该算法能够准确地模拟不同场景的细微之处,如不连续敲击岩石的声音和沙沙作响的常春藤的声音等。音高也不是问题,因为该算法能够合成低沉的敲击“柔软沙发”的声音,也可以合成高亢的敲击“硬木”的声音。

卡耐基梅隆大学的机器人专业助理教授Abhinav Gupta表示:目前人工智能只关注五种感知方式,如视觉研究者利用图像、语音研究者使用音频等。他并没有参与这项研究,但他认为这篇论文是向通过整合声音与视觉来模仿学习人类行为的方向迈出了正确一步。

这项工作的一个额外成果是,该团队声音库中的4.6万段声音可供其他研究人员免费使用。其数据集的名称是“最伟大的敲击”(Greatest Hits)

为了验证这些虚假声音的真实程度,研究小组进行了一项在线调查,参与调查者观看了两个碰撞视频—一个配有真实的声音,另一个配有算法合成的声音—他们要判断哪一个是真实的声音。

测试结果是:假声音被选中的频率是真实声音的两倍。他们特别容易被像树叶和泥土这样的材料愚弄,因为这些材料发出“干净”声音的机会比木头或金属少。重要的是,该小组发现,材料发出的声音能够揭示它们的一些关键物理属性:他们开发的一个算法可以在67%的时间内区分硬材料和软材料之间的差异。

这个研究小组的工作与最近CSAIL在音频和视频放大方面的研究工作是相辅相成的。研究人员已经开发了能够放大视频的算法,可以用来放大肉眼看不见的运动视频。

研究人员表示,系统还有进一步改善的空间。例如,如果在某段视频中鼓锤的运动非常不规律,算法就有可能错过敲击或者产生含混的敲击声,因此它的适应范围也是有限的。它只能用来模拟“在视觉上可分辨的声音”,即由视频中出现的物理相互作用直接产生的声音。

Owens说:“从柔和的风吹声到笔记本电脑的嗡嗡声,在任何时刻,我们周围都会有很多我们没有注意到的声音。真正令人兴奋的事情是以某种方式模拟那些与视觉效果不直接相关的声音。”

该团队相信,这一领域未来的工作可以提高机器人与其所处环境进行交互的能力。Owens表示,走在人行道上,机器人可以本能地看出水泥是硬的,而草是软的,从而知道如果踩到上面会发生什么事情。预测声音是预测真实世界物理作用结果的重要一步。

原文发布于微信公众号 - 人工智能快报(AI_News)

原文发表时间:2016-07-12

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏程序员互动联盟

【答疑解惑】做程序员需要天赋嘛?

疑惑一 程序员的压力有哪些? 压力一是找不到对象。面向对象的程序猿也找不到对象。今天突然市场说一项目一个星期搞定要招标,妈蛋。管我毛事。哎不说了加班。又出bug...

2624
来自专栏新智元

【CVPR智慧城市挑战赛】无监督交通异常检测,冠军团队技术分享

【新智元导读】“智能交通视频分析界的ImageNet竞赛”——英伟达城市挑战赛落下帷幕。新加坡松下研究院联合中科院自动化所,提出了一种双模态动静联合检测方案,在...

760
来自专栏FreeBuf

爬取QQ空间3000万用户,玩玩大数据分析

这是我近期使用C#写的一个QQ空间蜘蛛网爬虫程序。程序断断续续的运行了两周,目前总共爬了3000万QQ数据,其中有300万包含用户(QQ号,昵称,空间名称,头像...

1826
来自专栏大数据文摘

自动分析法的崛起

1768
来自专栏人工智能LeadAI

使用 R 语言从拉勾网看数据挖掘岗位现状

因为毕业后想从事数据挖掘相关的职业,但对该行业的需求不太了解,网上资料太多查看花时间且抓不住重点,所以爬取了拉勾网上 900 多条相关的岗位共计 30 万字的职...

2777
来自专栏悦思悦读

IT行业技术人员的核心竞争力

本文作者从一个IT老兵的角度,讲讲自己对于IT行业的技术人员核心竞争力的看法。此处说的IT技术人员就是engineer(以开发为例)。立意在于普通员工。是作者从...

34710
来自专栏专知

伯克利发布史上最大规模自动驾驶视频数据集BDD100K

1644
来自专栏AI科技大本营的专栏

CCAI 2017 | 人工智能进展惊人,但怎么解决关乎生死的医学疾病?

第三届中国人工智能大会(CCAI 2017)大会开幕在即,CSDN独家采访到南加州大学副教授、Zohrab A. Kaprielian工程院士Fei Sha博士...

3479
来自专栏机器人网

工业机器人的编程语言和种类

机器人的开发语言一般为C、C++、C++ Builder、VB、VC等语言,主要取决于执行机构(伺服系统)的开发语言;而机器人编程分为示教、动作级机器人编程语...

3294
来自专栏目标检测和深度学习

Kaggle :第二届 YouTube-8M 视频理解挑战赛

902

扫描关注云+社区