学界 | MIT和Google让AI获得多种感官协调能力

AI科技评论消息 根据MIT和Google研究人员近期发表的论文,他们正在训练AI将图像、声音和文字等多方面信息匹配起来。

在语音识别、图像识别以及下围棋等单项能力方面,AI已经足够出色,甚至超越了人类。但是如果AI一次只能使用一种感知能力,无法将看到和听到的内容进行匹配的话,就无法彻底理解周围的世界。这正是MIT和Google的研究人员进行这项研究原因。

研究人员并没有教给算法任何新东西,只是建立了一种方式让算法能够将多种感官获得的知识进行连接和协调。这一点至关重要。

论文的联合作者之一——MIT的AI博士后Yusuf Aytar以无人车为例:比如无人车的声音传感器先听到了救护车的声音,然后激光雷达才看到救护车的样子。有关救护车的鸣叫声、样子以及职能的知识可以让无人车放慢速度,切换车道,为救护车让路。

他说道:“你是先看到汽车还是先听见引擎声并没有关系,你马上能识别出这是同一个概念。因为你大脑中的信息已经自然地把它们协调统一起来了。”

为了训练这套系统,MIT的研究小组首先向神经网络展示了与音频相关的视频帧。在神经网络发现视频中的对象并且识别出特别的音频之后,AI就会尝试预测哪一个对象跟声音关联。比方说,招手会不会发出声音呢?

接下来,研究人员又以相同的形式为算法提供了带标题的图片,让它将文字和图片进行匹配。网络首先需要单独识别出图中所有的对象以及相关问题,然后才能进行匹配。

由于AI独立识别声音、图像、文字的能力已经十分出色,这种网络乍看之下并没有什么了不起。但研究人员表示,当他们对AI进行声音/图像、图像/文字的配对训练时,系统就能在未经训练指导哪个单词与不同声音匹配的情况下将声音与文字关联起来。这表明神经网络对于所看到的、听到的或者读到的东西已经形成了更加客观的看法,而且这种看法的形成并不完全依赖于它用来了解这一信息的媒介。

统筹对象的观感、听觉以及文字后,算法就能自动将听到的东西转化为视觉图像,从而强化对于世界的理解。

据悉,Google也进行了类似的研究,不过Google更加强调一点:新算法还能将文字转化成其他的媒体形式,虽然从准确率上来说,它暂时还比不上单用途的算法。

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2017-06-27

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器之心

通向未来人工智能的三条赛道:高性能计算、神经形态计算和量子计算

选自datasciencecentral 作者:William Vorhies 机器之心编译 参与:黄小天、蒋思源 有三种技术,可以带来更快、更简单、更廉...

36211
来自专栏AI科技评论

关于gcForest这篇论文 我们请教了周志华教授以下几个问题

文章由宗仁,谷磊联合采访,AI科技评论团队整理。 AI科技评论按:3月3日下午,AI科技评论参加了由中国人工智能学会(CAAI)主办的【人工智能前沿讲习班】,本...

2394
来自专栏AI科技评论

学界|汤晓鸥:深度学习有哪三个要素,以及在中国创业是怎样一种感受?

雷锋网按:5月20日,由中国计算机学会(CCF)主办,Xtecher协办的2017 CCF青年精英大会在北京国家会议中心举行。中国工程院院士赵沁平、香港中文大学...

3695
来自专栏新智元

【重磅】谷歌大脑官方年度报告:TensorFlow、机器学习、自然语言处理(27 篇顶会论文)

【新智元导读】谷歌大脑负责人 Jeff Dean 今天在谷歌博客刊文,从论文发表、TensorFlow 到推广机器学习,全面总结团队 2016 年的工作,并分享...

29210
来自专栏AI科技评论

UC 伯克利优化理论教授谈深度学习:为了可解释性,我们可能需要牺牲一些模型表现

AI 科技评论按:在人工智能的浪潮之下,以深度学习为首的机器学习方法迅速席卷了各个领域,给许多问题带来了全新的解决方案(当然同时也带来了新的问题等待解决)。 除...

35415
来自专栏AI科技评论

观点 | UC伯克利教授迈克尔·乔丹采访:人类对机器学习期待过高,机器学习的发展还应当更广阔

AI 科技评论按:2017年6月21日至22日,腾讯·云+未来峰会在深圳举行。在主题为“机器学习:创新视角,直面挑战”的演讲 - AI 科技评论后,AI 科技评...

3136
来自专栏智能算法

“忘掉大数据”之“建模术”:数据挖掘还原用户的生活场景

建模无疑是大数据里面最艺术的部分,也是最令大数据从业者痴迷、得意的领域,一个好的模型就是一篇作品,是一首诗,令人心旷神怡。建模、模型并不是什么新鲜事...

3496
来自专栏量子位

远离神经网络这个黑盒,人工智能不止这一条路可走

来源 |《连线》 编译整理 | 量子位 若朴 神经网络横扫硅谷如卷席,各式各样的人工智能(AI)已经潜入各式各样的互联网服务之中。不过就算神经网络已经能轻松的认...

2567
来自专栏数据科学与人工智能

【数据挖掘】大数据知识之数据挖掘

从市场需求及应用的角度来看,通过对大数据的存储、挖掘和分析,大数据在管理、营销、数据标准化等领域大有可为,促使管理/服务水平提升、营销方式改进等。下面我们就来讲...

2439
来自专栏机器之心

Science组织了一场尖锐的Reddit问答,Yann LeCun的回答还是那么耿直

35713

扫码关注云+社区

领取腾讯云代金券