学界 | MIT和Google让AI获得多种感官协调能力

AI科技评论消息 根据MIT和Google研究人员近期发表的论文,他们正在训练AI将图像、声音和文字等多方面信息匹配起来。

在语音识别、图像识别以及下围棋等单项能力方面,AI已经足够出色,甚至超越了人类。但是如果AI一次只能使用一种感知能力,无法将看到和听到的内容进行匹配的话,就无法彻底理解周围的世界。这正是MIT和Google的研究人员进行这项研究原因。

研究人员并没有教给算法任何新东西,只是建立了一种方式让算法能够将多种感官获得的知识进行连接和协调。这一点至关重要。

论文的联合作者之一——MIT的AI博士后Yusuf Aytar以无人车为例:比如无人车的声音传感器先听到了救护车的声音,然后激光雷达才看到救护车的样子。有关救护车的鸣叫声、样子以及职能的知识可以让无人车放慢速度,切换车道,为救护车让路。

他说道:“你是先看到汽车还是先听见引擎声并没有关系,你马上能识别出这是同一个概念。因为你大脑中的信息已经自然地把它们协调统一起来了。”

为了训练这套系统,MIT的研究小组首先向神经网络展示了与音频相关的视频帧。在神经网络发现视频中的对象并且识别出特别的音频之后,AI就会尝试预测哪一个对象跟声音关联。比方说,招手会不会发出声音呢?

接下来,研究人员又以相同的形式为算法提供了带标题的图片,让它将文字和图片进行匹配。网络首先需要单独识别出图中所有的对象以及相关问题,然后才能进行匹配。

由于AI独立识别声音、图像、文字的能力已经十分出色,这种网络乍看之下并没有什么了不起。但研究人员表示,当他们对AI进行声音/图像、图像/文字的配对训练时,系统就能在未经训练指导哪个单词与不同声音匹配的情况下将声音与文字关联起来。这表明神经网络对于所看到的、听到的或者读到的东西已经形成了更加客观的看法,而且这种看法的形成并不完全依赖于它用来了解这一信息的媒介。

统筹对象的观感、听觉以及文字后,算法就能自动将听到的东西转化为视觉图像,从而强化对于世界的理解。

据悉,Google也进行了类似的研究,不过Google更加强调一点:新算法还能将文字转化成其他的媒体形式,虽然从准确率上来说,它暂时还比不上单用途的算法。

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2017-06-27

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器之心

地平线机器人杨铭:深度神经网络在图像识别应用中的演化

机器之心整理 编辑:杜雪 4 月 15 日,杨铭博士在机器之心线下活动 Interface 上做了一次题为「深度神经网络在图像识别应用中的演化」的演讲。这篇文章...

3536
来自专栏机器之心

从FPS到RTS,一文概述游戏人工智能中的深度学习算法

选自arXiv 机器之心编译 参与:路雪、李泽南、李亚洲 本文综述了用于打电子游戏的深度学习算法,分析了不同类型的电子游戏对深度学习系统的要求,同时也列举了一些...

3159
来自专栏机器之心

前沿 | 当 AI 掌握「读心术」:DeepMind AI 已经学会相互理解

有时候,我们会觉得 Siri 或 Alexa 等数字助理非常令人失望,因为它们根本不懂我们人类。它们需要懂点被心理学家称为「心智理论」(theory of mi...

631
来自专栏机器之心

百度NLP | Familia:开源的中文主题模型应用工具包

3046
来自专栏AI科技评论

周志华KDD China技术峰会现场演讲:深度学习并不是在“模拟人脑”

编者按:12月18日,KDD China技术峰会在深圳举行,AI科技评论根据周志华教授当天会上所做报告《关于机器学习研究的讨论》,摘取其中亮点内容整理成本文,由...

3157
来自专栏量子位

取代MNIST?德国时尚圈的科学家们推出基准数据集,全是衣裤鞋包

李林 编译整理 量子位 报道 | 公众号 QbitAI MNIST,是一个手写数字数据集,除了用在机器学习入门的教学中,它还是对机器学习算法进行基准测试的常用数...

3387
来自专栏量子位

DeepMind大突破!AI模拟大脑导航功能,学会像动物一样“抄近路”| Nature论文

这次他们又训练出了一个AI智能体,学会了类似哺乳动物一样的“抄近路”能力,这次研究的目的,就是设法模仿人类大脑,用复杂的方式在周围空间里导航。这是一个前所未有的...

926
来自专栏AI科技大本营的专栏

一文了解卷积神经网络在股票中应用

? 译者 | 阿尔法计算生(个人微信:ixci001) 摘要 卷积神经网络使计算机视觉领域发生了革命性的变化。本文探讨了CNNs的一个典型应用:利用卷积网络来...

3115
来自专栏AI科技评论

智能体的白日梦,谷歌大脑又出来PR文了?

智能体能否在梦中学习?Yes! 白日梦是人类的专属?No! 这是谷歌大脑的又一篇 PR 文章吗?难说~ AI 科技评论按:继前段时间在 arxiv 上贴出《on...

2676
来自专栏人工智能快报

麻省理工人工智能通过“图灵听力测试”

2016年6月13日,麻省理工计算机科学与人工智能实验室(CSAIL)发布消息称,该实验室开发的人工智能程序通过了“图灵听力测试”。 该实验室的研究人员展示了一...

3084

扫描关注云+社区