\b【AAAI2018】通过动态融合方式学习多模态词表示,中科院自动化所宗成庆老师团队最新工作

【导读】基于文本来学习词的语义表示, 特别是基于共现的工作, 如Word2Vec能够很好的处理大多数任务, 然而, 这些语义表示和人的语义表示系统有很大出入. 比如: 马, 计算机, 这一类有具体对象的词, 明显更偏向感知信息(视觉, 听觉, 触觉)一些, 而另一些抽象词, 比如爱, 希望, 之类得更偏心理学一些. 只基于单一模态, 如文本,虽然能得到一些效果, 但是并不符合人类的认知, 而考虑多种模态, 但是等同对待不同模态的信息, 显然也不能很好的刻画词的语义, 本文尝试在基于词对的弱监督的情况下, 动态的融合多模态信息, 根据词的不同,赋予这个词的不同模态信息以不同权重, 取得了很好的效果。

论文链接:https://arxiv.org/abs/1801.00532

▌摘要:



很多工作已经证明, 在学习词的语义表示这一任务上, 多模态模型是优于仅仅基于文本的模型的. 然而, 目前能见到的多模态模型, 总是等同的对待所有模态的信息, 这显然是有问题的, 来自不同模态的信息对词的语义所起的的贡献不尽相同. 本文致力于建立一个多模式模型,它可以根据不同类型的单词动态融合来自不同模态的语义表示. 本文提出了三种动态融合多模态信息的算法, 用来为每种模态分配权重. 这些权重是在词对之间的弱监督之下学来的. 最终的实验结果表示, 这些模型比单模态的模型要好, 且比多模态的state-of-art要好。

▌介绍:



准确的表示单词的语义是解决许多自然语言问题的先决条件,比如计算不同单词之间的语义关系,查找给定单词的最相关的图像等等。近年来,根据语料库中的词汇贡献来学习词的语义表示的工作得到的蓬勃发展, 比如Word2Vec. 然而,与人类的语义表示相比,这些纯粹基于文本的模型严重缺乏与物理世界相关的感知信息。这一观察导致了利用语言(例如文本)和感知信息(例如图像,音频)的多模态词表示模型的发展。大量的文章表明,这样的模型能比基于文本的模型学到更好的词语义表示.

学习到好的基于多模态的词的语义表示, 不仅仅需要高质量的文本语料和感知信息, 还要很好的将这些信息组合起来. 然而, 当前的多模态模型, 通常同等的对待每个模态. 这显然是不符合实际情况的, 比如: 马, 计算机, 这一类有具体对象的词, 明显更偏向感知信息(视觉, 听觉, 触觉)一些, 而另一些抽象词, 比如爱, 希望, 之类得更偏心理学一些. 所有的这些因素都激励着本文构建出一个基于词的类型来动态融合多模态信息的模型.

本文提出了三种新颖的动态融合方法, 来提升多模态的词表示. 分别是基于模态, 基于类别, 基于样本的方法, 来分别融合每个词的语言和感知信息. 它们对应于不同的模态输入, 不同的类别场景, 不同的样本情况. 本文的主要贡献有两个:

提出了一种新的多模态表示的动态融合方法,它利用一小组语义关联的单词对来学习不同模态不同权重下的语义词表示。 核心思想是引入弱监督来学习一个通用的融合规则。

定量分析表明,本文所提出的模型可以成功地为语言和感知表示赋予不同的权重,并且具体词和抽象词之间的差异也能通过权重明显表示出来。 这为人们对具体词和抽象词进行不同编码提供了初步支持,并且所提出的模型可以帮助大家探索人类语义表征。

▌模型简介



模型的结构如下:

模型主要分4步, 分别对应: 1. 文本的Glove词向量学习,2. 文本信息和感知信息之间的映射的学习, 3. 基于文本和感知信息进行多模态融合, 各个模态的权重有Gate控制, 4. 优化模型. 其中, 是一对相关词pair, 是它们的词向量, 是它们的感知信息.

本文使用岭回归来学习文本和感知信息的映射:

其中, 是词语的CNN表示结果, 是词语的文本表示结果, 是映射关系, 是学习权重.

对于各个模态之间的权重控制, 文章设置入下:

三种Gate 分别对应三种融合方式.每一种融合方式都会计算出权重, 其中文本信息的权重为

, 感知信息的权重为

总的优化式如下:

即, 给定一个语义相关词语对w1,w2, 为了在给定不同的Gate下学习模型的参数, 可以优化上式.其中Mi是wi的多模态表示:

n1,n2是负采样随机选出的词

▌实验分析



表1:六个评价数据集的结果

图是训练数据集比例对模型的影响性能

▌结论



本文提出了三种简单而有效的学习多模态词表示的融合方法(M-gate, C-gate, S-gate)。 实验评估表明,我们提出的模型在所有六个测试中的准确度都有显着提高。 定性分析进一步证明,所提出的方法可以根据不同类型的单词动态地融合来自不同模态的表示信息。

原文链接:

https://arxiv.org/abs/1801.00532

原文发布于微信公众号 - 专知(Quan_Zhuanzhi)

原文发表时间:2018-02-19

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏null的专栏

机器学习的应用——关于正确应用机器学习

引言     前阵子看到一篇文章,学习了一段时间的机器学习算法后,再回头看机器学习问题,发现要想利用机器学习去很好的求解一个问题,其实并不是一件容易办到的事情,...

3607
来自专栏新智元

【Bengio vs 谷歌】深度学习兄弟对决,神经网络泛化本质之争

【新智元导读】一场或许有关深度学习本质的争论正在火热进行中。去年底,MIT、DeepMind 和谷歌大脑合著的论文《理解深度学习需要重新思考泛化》引发热论。论文...

39312
来自专栏数据科学与人工智能

【机器学习】机器学习的几种主要学习方法

根据数据类型的不同,对一个问题的建模有不同的方式。在机器学习或者人工智能领域,人们首先会考虑算法的学习方法。爱吧机器人网认为,将算法按照学习方法分类是一个不错的...

2695
来自专栏专知

【论文读书笔记】无监督视频物体分割新思路:实例嵌入迁移

【导读】 近日,针对视频物体分割中缺乏训练样本和准确率较低的问题,来自美国南加州大学、谷歌公司的学者发表论文提出基于实例嵌入迁移的无监督视频物体分割方法。其通过...

5524
来自专栏机器之心

前沿 | CNN取代RNN?当序列建模不再需要循环网络

在这篇博文中,我们来探讨循环网络模型和前馈模型之间的取舍。前馈模型可以提高训练稳定性和速度,而循环模型表达能力更胜一筹。有趣的是,额外的表现力似乎并没有提高循环...

1431
来自专栏专知

【ICLR2018 最高分论文】利用分布鲁棒优化方法应对对抗样本干扰

【导读】近日,深度学习顶会ICLR2018评审结果出炉,得分最高的论文是 《Certifiable Distributional Robustness with...

5635
来自专栏AI派

BAT机器学习/深度学习面试300题

机器学习这么火,BAT等一线互联网大厂当然是最大的需求方,想要成为 BAT 的机器学习工程师吗,快来看看这些面试题吧。

6009
来自专栏计算机视觉战队

哇~这么Deep且又轻量的Network,实时目标检测

最近挺对不住关注“计算机视觉战队”平台的小伙伴,有段时间没有给大家分享比较硬比较充实的“干货”了,在此向大家表示抱歉,今天抽空之余,想和大家说说目标的实时检测。

962
来自专栏AI研习社

干货:图像比赛的通用套路有哪些?Kaggle比赛金牌团队为你解答

AI研习社按: Kaggle 是全世界首屈一指的数据科学、机器学习开发者社区和竞赛平台。日前,中山大学CIS实验室的研二学生刘思聪为我们带来了一场精彩的分享。他...

4066
来自专栏计算机视觉战队

哇~这么Deep且又轻量的Network,实时目标检测

最近挺对不住关注“计算机视觉战队”平台的小伙伴,有段时间没有给大家分享比较硬比较充实的“干货”了,在此向大家表示抱歉,今天抽空之余,想和大家说说目标的实时检测。

5773

扫码关注云+社区

领取腾讯云代金券