前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >\b【AAAI2018】通过动态融合方式学习多模态词表示,中科院自动化所宗成庆老师团队最新工作

\b【AAAI2018】通过动态融合方式学习多模态词表示,中科院自动化所宗成庆老师团队最新工作

作者头像
WZEARW
发布2018-04-16 11:44:10
1.4K0
发布2018-04-16 11:44:10
举报
文章被收录于专栏:专知专知

【导读】基于文本来学习词的语义表示, 特别是基于共现的工作, 如Word2Vec能够很好的处理大多数任务, 然而, 这些语义表示和人的语义表示系统有很大出入. 比如: 马, 计算机, 这一类有具体对象的词, 明显更偏向感知信息(视觉, 听觉, 触觉)一些, 而另一些抽象词, 比如爱, 希望, 之类得更偏心理学一些. 只基于单一模态, 如文本,虽然能得到一些效果, 但是并不符合人类的认知, 而考虑多种模态, 但是等同对待不同模态的信息, 显然也不能很好的刻画词的语义, 本文尝试在基于词对的弱监督的情况下, 动态的融合多模态信息, 根据词的不同,赋予这个词的不同模态信息以不同权重, 取得了很好的效果。

论文链接:https://arxiv.org/abs/1801.00532

▌摘要:



很多工作已经证明, 在学习词的语义表示这一任务上, 多模态模型是优于仅仅基于文本的模型的. 然而, 目前能见到的多模态模型, 总是等同的对待所有模态的信息, 这显然是有问题的, 来自不同模态的信息对词的语义所起的的贡献不尽相同. 本文致力于建立一个多模式模型,它可以根据不同类型的单词动态融合来自不同模态的语义表示. 本文提出了三种动态融合多模态信息的算法, 用来为每种模态分配权重. 这些权重是在词对之间的弱监督之下学来的. 最终的实验结果表示, 这些模型比单模态的模型要好, 且比多模态的state-of-art要好。

▌介绍:



准确的表示单词的语义是解决许多自然语言问题的先决条件,比如计算不同单词之间的语义关系,查找给定单词的最相关的图像等等。近年来,根据语料库中的词汇贡献来学习词的语义表示的工作得到的蓬勃发展, 比如Word2Vec. 然而,与人类的语义表示相比,这些纯粹基于文本的模型严重缺乏与物理世界相关的感知信息。这一观察导致了利用语言(例如文本)和感知信息(例如图像,音频)的多模态词表示模型的发展。大量的文章表明,这样的模型能比基于文本的模型学到更好的词语义表示.

学习到好的基于多模态的词的语义表示, 不仅仅需要高质量的文本语料和感知信息, 还要很好的将这些信息组合起来. 然而, 当前的多模态模型, 通常同等的对待每个模态. 这显然是不符合实际情况的, 比如: 马, 计算机, 这一类有具体对象的词, 明显更偏向感知信息(视觉, 听觉, 触觉)一些, 而另一些抽象词, 比如爱, 希望, 之类得更偏心理学一些. 所有的这些因素都激励着本文构建出一个基于词的类型来动态融合多模态信息的模型.

本文提出了三种新颖的动态融合方法, 来提升多模态的词表示. 分别是基于模态, 基于类别, 基于样本的方法, 来分别融合每个词的语言和感知信息. 它们对应于不同的模态输入, 不同的类别场景, 不同的样本情况. 本文的主要贡献有两个:

提出了一种新的多模态表示的动态融合方法,它利用一小组语义关联的单词对来学习不同模态不同权重下的语义词表示。 核心思想是引入弱监督来学习一个通用的融合规则。

定量分析表明,本文所提出的模型可以成功地为语言和感知表示赋予不同的权重,并且具体词和抽象词之间的差异也能通过权重明显表示出来。 这为人们对具体词和抽象词进行不同编码提供了初步支持,并且所提出的模型可以帮助大家探索人类语义表征。

▌模型简介



模型的结构如下:

模型主要分4步, 分别对应: 1. 文本的Glove词向量学习,2. 文本信息和感知信息之间的映射的学习, 3. 基于文本和感知信息进行多模态融合, 各个模态的权重有Gate控制, 4. 优化模型. 其中, 是一对相关词pair, 是它们的词向量, 是它们的感知信息.

本文使用岭回归来学习文本和感知信息的映射:

其中, 是词语的CNN表示结果, 是词语的文本表示结果, 是映射关系, 是学习权重.

对于各个模态之间的权重控制, 文章设置入下:

三种Gate 分别对应三种融合方式.每一种融合方式都会计算出权重, 其中文本信息的权重为

, 感知信息的权重为

总的优化式如下:

即, 给定一个语义相关词语对w1,w2, 为了在给定不同的Gate下学习模型的参数, 可以优化上式.其中Mi是wi的多模态表示:

n1,n2是负采样随机选出的词

▌实验分析



表1:六个评价数据集的结果

图是训练数据集比例对模型的影响性能

▌结论



本文提出了三种简单而有效的学习多模态词表示的融合方法(M-gate, C-gate, S-gate)。 实验评估表明,我们提出的模型在所有六个测试中的准确度都有显着提高。 定性分析进一步证明,所提出的方法可以根据不同类型的单词动态地融合来自不同模态的表示信息。

原文链接:

https://arxiv.org/abs/1801.00532

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2018-02-19,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 专知 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档