专栏首页人工智能快报麻省理工人工智能通过“图灵听力测试”

麻省理工人工智能通过“图灵听力测试”

2016年6月13日,麻省理工计算机科学与人工智能实验室(CSAIL)发布消息称,该实验室开发的人工智能程序通过了“图灵听力测试”。

该实验室的研究人员展示了一个能够有效预测声音的算法:在面对一个敲击物体的无声视频剪辑时,该算法可以针对敲击动作制造一个声音,其真实度足以骗过所有观众。

这个“图灵听力测试”代表的不仅仅是一款高明的计算机游戏。据研究人员设想,未来版本的类似算法将被用于为电影和电视节目自动产生声音效果,也可以帮助机器人更好地了解对象的属性。

即将以第一作者发表相关论文的CSAIL实验室博士生Andrew Owens表示:“当你在酒杯前摇晃手指的时候,酒杯发出的声音能够反映它里面有多少液体。模拟这种声音的算法可以揭示与对象的形状和材料类型等相关的关键信息,以及它们与世界的相互作用和运动。”

该小组使用了“深度学习”领域的技术。这种技术需要训练计算机通过筛选大量的数据来寻找合适的工作模式。深度学习的方法是特别有用的,因为它们能够将计算机科学家们从手工设计算法的工作中解放出来,并能够监督这些算法的执行过程。

训练一个声音生成算法的第一步是让它研究已有的声音。在几个月的时间里,研究人员记录了大约1000个视频中的4.6万多段声音。这些声音来自于用一个鼓锤敲打、剐蹭和戳刺不同对象的过程。使用鼓锤的原因是它能够用一致的方式产生声音。

接下来,研究小组使用深度学习算法研究这些视频,以重构这些声音并分析其音调、响度和其他特点。“为了接下来能够预测一个新视频中的声音,该算法考察每个视频帧的声音属性,并从数据库中找到与该视频帧最匹配的声音,”Owens说:“如果系统中有这些音频,就将它们联系在一起,以创建一个连贯的声音。”

最终得到的结果是,该算法能够准确地模拟不同场景的细微之处,如不连续敲击岩石的声音和沙沙作响的常春藤的声音等。音高也不是问题,因为该算法能够合成低沉的敲击“柔软沙发”的声音,也可以合成高亢的敲击“硬木”的声音。

卡耐基梅隆大学的机器人专业助理教授Abhinav Gupta表示:目前人工智能只关注五种感知方式,如视觉研究者利用图像、语音研究者使用音频等。他并没有参与这项研究,但他认为这篇论文是向通过整合声音与视觉来模仿学习人类行为的方向迈出了正确一步。

这项工作的一个额外成果是,该团队声音库中的4.6万段声音可供其他研究人员免费使用。其数据集的名称是“最伟大的敲击”(Greatest Hits)

为了验证这些虚假声音的真实程度,研究小组进行了一项在线调查,参与调查者观看了两个碰撞视频—一个配有真实的声音,另一个配有算法合成的声音—他们要判断哪一个是真实的声音。

测试结果是:假声音被选中的频率是真实声音的两倍。他们特别容易被像树叶和泥土这样的材料愚弄,因为这些材料发出“干净”声音的机会比木头或金属少。重要的是,该小组发现,材料发出的声音能够揭示它们的一些关键物理属性:他们开发的一个算法可以在67%的时间内区分硬材料和软材料之间的差异。

这个研究小组的工作与最近CSAIL在音频和视频放大方面的研究工作是相辅相成的。研究人员已经开发了能够放大视频的算法,可以用来放大肉眼看不见的运动视频。

研究人员表示,系统还有进一步改善的空间。例如,如果在某段视频中鼓锤的运动非常不规律,算法就有可能错过敲击或者产生含混的敲击声,因此它的适应范围也是有限的。它只能用来模拟“在视觉上可分辨的声音”,即由视频中出现的物理相互作用直接产生的声音。

Owens说:“从柔和的风吹声到笔记本电脑的嗡嗡声,在任何时刻,我们周围都会有很多我们没有注意到的声音。真正令人兴奋的事情是以某种方式模拟那些与视觉效果不直接相关的声音。”

该团队相信,这一领域未来的工作可以提高机器人与其所处环境进行交互的能力。Owens表示,走在人行道上,机器人可以本能地看出水泥是硬的,而草是软的,从而知道如果踩到上面会发生什么事情。预测声音是预测真实世界物理作用结果的重要一步。

本文分享自微信公众号 - 人工智能快报(AI_News)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2016-07-12

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 迪斯尼利用人工智能实现声音与图片之间的关联

    美国迪斯尼研究中心发报告称,其与瑞士苏黎世联邦理工学院合作利用人工智能设计出了能自主匹配图像和声音的系统。 儿童可以根据不同动物的声音从图书中学习关联图像和声音...

    人工智能快报
  • 北京肯德基利用面部识别技术提供个性化菜单

    据《卫报》报告,肯德基正在北京的一家“智能餐厅”试用面部生物识别技术。该餐厅装有一个如同平板电脑的一体机,利用面部生物识别技术分析客户的人口统计特征,然后基于这...

    人工智能快报
  • 新型神经网络可从单张照片识别人脸

    借助于深度神经网络,俄罗斯国立高等经济大学的人研究人员已经提出了一种新方法,能够从视频中识别出人的身份。该方法不需要大量的照片,并且与现有方法相比具有明显更高的...

    人工智能快报
  • MIT教你创造让人“雌雄难辨”的图灵机器,秘密全在这篇论文里

    GAIR 今年夏天,雷锋网将在深圳举办一场盛况空前的“全球人工智能与机器人创新大会”(简称GAIR)。大会现场,谷歌,DeepMind,Uber,微软等巨头的人...

    AI科技评论
  • 【干货】这5种最难编程语言,是程序员的噩梦

    每个程序员都熟悉许多编程语言。许多编程语言都是高级的,它们的语法是人类可读的。然而,也有一些低级语言,对于一个人来说,读起来很困难,但是可以理解。您是否遇到过一...

    钱塘数据
  • 程序员的噩梦:世界上最难的5种编程语言

    导读:每个程序员都熟悉许多编程语言。许多编程语言都是高级的,它们的语法是人类可读的。然而,也有一些低级语言,对于一个人来说,读起来很困难,但是可以理解。您是否遇...

    华章科技
  • 你见过的最难的编程语言是什么?

    每个程序员都熟悉许多编程语言。许多编程语言都是高级的,它们的语法是人类可读的。然而,也有一些低级语言,对于一个人来说,读起来很困难,但是可以理解。然而,您是否遇...

    用户6543014
  • 你见过的最难的编程语言是什么?

    每个程序员都熟悉许多编程语言。许多编程语言都是高级的,它们的语法是人类可读的。然而,也有一些低级语言,对于一个人来说,读起来很困难,但是可以理解。然而,您是否遇...

    巴法
  • 技术 | 你知道HSRP-VRRP的区别吗?这篇文章可谓解释的清清楚楚

    3、HSRP不能使用实际接口地址作为虚拟路由器IP地址,VRRP可以使用实际接口地址作为虚拟路由器IP地址。

    网络技术联盟站
  • 最小生产树Prim和Kruskal

    温安适

扫码关注云+社区

领取腾讯云代金券