学界 | 让机器耳濡目染:MIT提出跨模态机器学习模型

选自arXiv

机器之心编译

作者:Yusuf Aytar等人

参与:李泽南

不变性表示(invariant representation)是视觉、听觉和语言模型的核心,它们是数据的抽象结果。人们一直希望在视觉、有噪音的音频、有同义词的自然语言中获取观点和大量不变性表示。具有识别能力的不变性表示可以让机器从大量数据中学习特征,从而获得近似于人类的识别效果。但在机器学习领域,目前这一方面的研究进展有限。

对此,麻省理工学院(MIT)的 Yusuf Aytar 等人最近在一项研究中提出了全新的方法:研究人员通过多种关联信息的输入让机器学习了跨模态数据的通用表达方式。在文字语句「她跳入了泳池」中,同样的概念不仅出现在视觉上,也出现在了听觉上,如泳池的图像和水花飞溅的声音。如果这些跨模态的表示存在关联,那么它们的共同表示就具有鲁棒性。上文中的句子、泳池的图像和水声应当具有相同的内在表示。

论文:See, Hear, and Read: Deep Aligned Representations

链接:https://arxiv.org/abs/1706.00932

摘要

我们利用大量易于获得的同步数据,让机器学习系统学会了三种主要感官(视觉、声音和语言)之间共有的深度描述。通过利用时长超过一年的视频配音和百万条配和图片匹配的句子,我们成功训练了一个深度卷积神经网络对不同信息生成共同的表示。我们的实验证明,这种表示对于一些任务是有效的,如跨模式检索或在形态之间的传递分类。此外,尽管我们的神经网络只经过了图片+文字和图片+声音的配对训练,但它也在文本和声音之间建立了联系——这在训练中未曾接触。我们的模型的可视化效果揭示了大量自动生成,用于识别概念,并独立于模态的隐藏单元。

图 1. 共同表示:研究人员提出了深度跨模态卷积神经网络,它可以学习三种表征方式:视觉、听觉和文字阅读。在此之上,研究人员展示了输入信息可以激活网络中的隐藏单元,其中被激发的概念位置独立于模态。

图 2. 数据集:研究人员使用了大量未加工、无约束的数据对概念表达进行训练。

图 3. 学习通用表示方法:研究人员设计了一种能够同时接收图像、声音和文字输入的神经网络。该模型从模态专属表示(灰色)中产生一种通用表示,同时适用于不同模态(蓝色)。研究人员同时使用模型转换损失和配比排名损失来训练这个模型。模态专有层是卷积的,不同模态的共享层则是全连接的。

图 4. 跨模式反演示例:MIT 的研究人员展示了使用深度表示,跨声音、图像和文字三种模态的顶层反演

图 5. 隐藏单元的可视化:研究人员通过模型的可视化发现了一些隐藏单元。注意:频谱图(红/黄色的热区显示)之外,还有原始视频和与之对应的描述声音,后者仅用于可视化目的。

不变性表示可以让计算机视觉系统可以在不受约束的、现实世界环境中高效运行。在实验中,研究人员发现了一些联结表达方式具有更高的分类和检索性能,可以应对未遇到过的新情况。麻省理工学院的学者们相信,对于下一代机器感知而言,跨模态的表示具有重要意义。

本文为机器之心编译,转载请联系本公众号获得授权。

原文发布于微信公众号 - 机器之心(almosthuman2014)

原文发表时间:2017-06-11

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏企鹅号快讯

What-人脸识别?

说到指纹识别,用过它的都知道,只要在指定区域用手指一轻轻碰,就能解开锁屏。但是说到不常见的人脸识别,相信大家对此就很陌生了。不过没关系,现在就由小编帮你了解一下...

58160
来自专栏AI科技评论

视频 | 10分钟带你认识强化学习

AI 科技评论按:喜欢机器学习和人工智能,却发现埋头苦练枯燥乏味还杀时间?油管频道 Arxiv Insights 每周精选,从技术视角出发,带你轻松深度学习。

13950
来自专栏机器之心

学界 | 腾讯提出并行贝叶斯在线深度学习框架PBODL:预测广告系统的点击率

选自arXiv 机器之心编译 参与:蒋思源 近日,腾讯发表了一篇介绍并行贝叶斯在线深度学习(PBODL)框架的论文,该论文表示这一框架已经用于腾讯广告系统的点击...

36740
来自专栏CSDN技术头条

一文带你理解深度学习的局限性

深度学习:几何视图 深度学习最令人惊讶的特点便是极易上手。十年以前,没有人可以猜得到经过梯度下降法训练过的简单参数模型可以在机器感知问题上实现如此惊人的结果。现...

22480
来自专栏数据科学与人工智能

统计建模和机器学习的区别之我见

最近我多次被问到统计(尤其是统计建模)、机器学习和人工智能之间有何区别。其实这三者之间在目标、技术和算法方面有很多重叠的部分。引起困惑的原因不仅仅是因为这些重叠...

27650
来自专栏机器学习算法与Python学习

推荐 | 一文读懂深度学习与机器学习的差异

关键字全网搜索最新排名 【机器学习算法】:排名第一 【机器学习】:排名第一 【Python】:排名第三 【算法】:排名第四 转自:小象 源 | dzone.co...

40670
来自专栏人工智能头条

一文带你理解深度学习的局限性

11320
来自专栏QQ空间开发团队的专栏

有关照片聚类算法的思考

本文作者主要从聚类的规则、聚类效果、聚类的算法八个方面探讨有关照片聚类算法的思考。

65500
来自专栏机器之心

学习世界模型,通向AI的下一步:Yann LeCun在IJCAI 2018上的演讲

Yann LeCun 开场介绍说,当前几乎所有的机器学习从业者在实践中使用的都是监督式学习:向机器展示大量的样本,然后告诉机器正确的答案与内部参数,然后就能做图...

13620
来自专栏机器之心

初学者必读:IBM长文解读人工智能、机器学习和认知计算

选自IBM 机器之心编译 参与:吴攀、黄小天、Nurhachu Null 人工智能的发展曾经经历过几次起起伏伏,近来在深度学习技术的推动下又迎来了一波新的前所...

46170

扫码关注云+社区

领取腾讯云代金券