学界 | 让机器耳濡目染：MIT提出跨模态机器学习模型

机器之心

发布于 2018-05-08 14:24:02

1.1K0

发布于 2018-05-08 14:24:02

文章被收录于专栏：机器之心

选自arXiv

机器之心编译

作者：Yusuf Aytar等人

参与：李泽南

不变性表示（invariant representation）是视觉、听觉和语言模型的核心，它们是数据的抽象结果。人们一直希望在视觉、有噪音的音频、有同义词的自然语言中获取观点和大量不变性表示。具有识别能力的不变性表示可以让机器从大量数据中学习特征，从而获得近似于人类的识别效果。但在机器学习领域，目前这一方面的研究进展有限。

对此，麻省理工学院（MIT）的 Yusuf Aytar 等人最近在一项研究中提出了全新的方法：研究人员通过多种关联信息的输入让机器学习了跨模态数据的通用表达方式。在文字语句「她跳入了泳池」中，同样的概念不仅出现在视觉上，也出现在了听觉上，如泳池的图像和水花飞溅的声音。如果这些跨模态的表示存在关联，那么它们的共同表示就具有鲁棒性。上文中的句子、泳池的图像和水声应当具有相同的内在表示。

论文：See, Hear, and Read: Deep Aligned Representations

链接：https://arxiv.org/abs/1706.00932

摘要

我们利用大量易于获得的同步数据，让机器学习系统学会了三种主要感官（视觉、声音和语言）之间共有的深度描述。通过利用时长超过一年的视频配音和百万条配和图片匹配的句子，我们成功训练了一个深度卷积神经网络对不同信息生成共同的表示。我们的实验证明，这种表示对于一些任务是有效的，如跨模式检索或在形态之间的传递分类。此外，尽管我们的神经网络只经过了图片+文字和图片+声音的配对训练，但它也在文本和声音之间建立了联系——这在训练中未曾接触。我们的模型的可视化效果揭示了大量自动生成，用于识别概念，并独立于模态的隐藏单元。