麻省理工人工智能通过“图灵听力测试”

2016年6月13日,麻省理工计算机科学与人工智能实验室(CSAIL)发布消息称,该实验室开发的人工智能程序通过了“图灵听力测试”。

该实验室的研究人员展示了一个能够有效预测声音的算法:在面对一个敲击物体的无声视频剪辑时,该算法可以针对敲击动作制造一个声音,其真实度足以骗过所有观众。

这个“图灵听力测试”代表的不仅仅是一款高明的计算机游戏。据研究人员设想,未来版本的类似算法将被用于为电影和电视节目自动产生声音效果,也可以帮助机器人更好地了解对象的属性。

即将以第一作者发表相关论文的CSAIL实验室博士生Andrew Owens表示:“当你在酒杯前摇晃手指的时候,酒杯发出的声音能够反映它里面有多少液体。模拟这种声音的算法可以揭示与对象的形状和材料类型等相关的关键信息,以及它们与世界的相互作用和运动。”

该小组使用了“深度学习”领域的技术。这种技术需要训练计算机通过筛选大量的数据来寻找合适的工作模式。深度学习的方法是特别有用的,因为它们能够将计算机科学家们从手工设计算法的工作中解放出来,并能够监督这些算法的执行过程。

训练一个声音生成算法的第一步是让它研究已有的声音。在几个月的时间里,研究人员记录了大约1000个视频中的4.6万多段声音。这些声音来自于用一个鼓锤敲打、剐蹭和戳刺不同对象的过程。使用鼓锤的原因是它能够用一致的方式产生声音。

接下来,研究小组使用深度学习算法研究这些视频,以重构这些声音并分析其音调、响度和其他特点。“为了接下来能够预测一个新视频中的声音,该算法考察每个视频帧的声音属性,并从数据库中找到与该视频帧最匹配的声音,”Owens说:“如果系统中有这些音频,就将它们联系在一起,以创建一个连贯的声音。”

最终得到的结果是,该算法能够准确地模拟不同场景的细微之处,如不连续敲击岩石的声音和沙沙作响的常春藤的声音等。音高也不是问题,因为该算法能够合成低沉的敲击“柔软沙发”的声音,也可以合成高亢的敲击“硬木”的声音。

卡耐基梅隆大学的机器人专业助理教授Abhinav Gupta表示:目前人工智能只关注五种感知方式,如视觉研究者利用图像、语音研究者使用音频等。他并没有参与这项研究,但他认为这篇论文是向通过整合声音与视觉来模仿学习人类行为的方向迈出了正确一步。

这项工作的一个额外成果是,该团队声音库中的4.6万段声音可供其他研究人员免费使用。其数据集的名称是“最伟大的敲击”(Greatest Hits)

为了验证这些虚假声音的真实程度,研究小组进行了一项在线调查,参与调查者观看了两个碰撞视频—一个配有真实的声音,另一个配有算法合成的声音—他们要判断哪一个是真实的声音。

测试结果是:假声音被选中的频率是真实声音的两倍。他们特别容易被像树叶和泥土这样的材料愚弄,因为这些材料发出“干净”声音的机会比木头或金属少。重要的是,该小组发现,材料发出的声音能够揭示它们的一些关键物理属性:他们开发的一个算法可以在67%的时间内区分硬材料和软材料之间的差异。

这个研究小组的工作与最近CSAIL在音频和视频放大方面的研究工作是相辅相成的。研究人员已经开发了能够放大视频的算法,可以用来放大肉眼看不见的运动视频。

研究人员表示,系统还有进一步改善的空间。例如,如果在某段视频中鼓锤的运动非常不规律,算法就有可能错过敲击或者产生含混的敲击声,因此它的适应范围也是有限的。它只能用来模拟“在视觉上可分辨的声音”,即由视频中出现的物理相互作用直接产生的声音。

Owens说:“从柔和的风吹声到笔记本电脑的嗡嗡声,在任何时刻,我们周围都会有很多我们没有注意到的声音。真正令人兴奋的事情是以某种方式模拟那些与视觉效果不直接相关的声音。”

该团队相信,这一领域未来的工作可以提高机器人与其所处环境进行交互的能力。Owens表示,走在人行道上,机器人可以本能地看出水泥是硬的,而草是软的,从而知道如果踩到上面会发生什么事情。预测声音是预测真实世界物理作用结果的重要一步。

原文发布于微信公众号 - 人工智能快报(AI_News)

原文发表时间:2016-07-12

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI科技评论

重磅 | 从SwiftScribe说起,回顾百度在语音技术的七年积累

人与机器的自然交互一直是人类孜孜不倦的奋斗目标。随着移动互联网时代的发展,声音与图片成为了人机交互更为自然的表达方式。作为最核心的入口,语音技术就成为了科技巨头...

36813
来自专栏新智元

谷歌大脑背后的大脑Jeff Dean:最快15年实现通用人工智能

【新智元导读】《福布斯》网站今日刊文,专访“谷歌大脑背后的大脑”Jeff Dean。Dean回顾了他自1999年加入至今在公司的不同角色,重点介绍了谷歌大脑的项...

3656
来自专栏人工智能快报

谷歌开放人工智能语言处理技术

据投资资讯网VentureBeat (http://venturebeat.com/)报道,谷歌从2016年5月12日起开放SyntaxNet的源代码,作为谷歌...

3619
来自专栏新智元

华为李航:NLP 有 5 个基本问题,深度学习有4个做得很好 (PPT)| 北大AI公开课

【新智元导读】 在北大 AI 公开课第8讲上,华为诺亚方舟实验室主任李航老师综述性地为大家介绍了 NLP 的任务、特点、最新技术以及发展趋势。李航老师精辟地总结...

5906
来自专栏黄成甲

AI不是魔法:人工智能的能与不能

如果把AI技术分为「前端的交互技术」和「后端的人工智能技术」。前端的交互技术包括语音识别、图像识别和自然语言处理;后端的人工智能技术就是人工智能的核心算法,包括...

973
来自专栏AI科技评论

深度 | 华为诺亚方舟实验室主任李航:神经符号处理开启自然语言处理新篇章

AI 科技评论按:深度学习给自然语言处理带来了革命性的进步,基于深度学习的机器翻译等任务的性能有了大幅度的提升。面向未来,自然语言处理技术将如何发展和演进?在哪...

2918
来自专栏大数据文摘

一名数据科学家的新年计划

1212
来自专栏人工智能

CCCF 微软沈向洋:理解自然语言:表述、对话和意境

来源:《中国计算机学会通讯》2017年第12期《CNCC2017特邀报告》 微软全球执行副总裁沈向洋博士在2017年10月25日在福州举行的中国计算机大会(CN...

2355
来自专栏新智元

Facebook AI 背后的神秘组织:FAIR + AML + Product Groups

Yann LeCun 是 Facebook 人工智能实验室负责人,卷积神经网络发明者。面对 Google 的 AlphaGo,他最近谈到了 Faceboo...

3516
来自专栏量子位

我们离真正的量子霸权还有多远?不能只看硬件

? 在量子计算领域,存在一个流行的误区:认为量子计算的潜力和局限性一定来自于硬件。 在数字时代,我们已经习惯于用时钟频率和存储器来标记进步的幅度。因而,英特尔...

3358

扫码关注云+社区