NAACL2016年度论文:无监督神经网络理解虚构人物关系

【新智元导读】非监督式学习如何确定小说中动态的人物角色关系?本论文提出了一种新的神经网络架构的RMN,通过结合词典学习来对关系描述符进行学习,是深度循环自编码器的一种新的变体。与马尔可夫(HTMM)模型相比,RMN能够学习多种人际关系状态。

论文作者包括马里兰大学计算机科学系和高级计算机研究所Mohit Iyyer,Anupam Guha,SnigdhaChaturvedi,Hal Daume III;科纳罗拉大学计算机科学系Jordan Boyd-Graber。

摘要

理解两个角色之间不断变化的虚构关系(例如,从最好的伙伴到不共戴天的敌人)是数字化人文学术研究的一个关键难题。我们为这项任务提出的是一个全新的无监督神经网络,通过结合词典学习来产生可解释的、准确的关系轨迹。

尽管之前对文学中角色关系进行分类的工作依赖的是情节的概述,这些概述都是由预先定义的标签进行过注释的。我们的模型就来自小说纯文字数据集内的每一组关系,同时对整套关系描述符及关系描述符上的轨迹进行学习。

我们发现,我们的模型可以学习事件(例如:结婚或谋杀)以及人与人之间的状态(例如:爱,悲伤)相关的描述符。我们的模型在两个众包任务方面(crowdsourced tasks)的表现比主题模型基线(topic model baselines)要好很多。同时,我们也发现了在现有数据集注解之间有意思的相关性。

论文亮点

论文提出了非监督关系建模,该模型同时对一组文学人物的关系描述符及关系轨迹进行学习。不同于对一个特定关系分配一个独立的描述符,经过模型学习后的轨迹是描述符序列,如图1所示。

图1: 描述《吸血惊情四百年》中露西(Lucy)与亚瑟(Arthur )的动态关系的一个轨迹例子,该关系从两人相爱开始到亚瑟杀死吸血鬼露西结束。每一列描述了在特定时间内关系状态在一组描述符中的权重(权重越大则方框越大)。我们的目的是在没有监督情况下,从小说文字原始数据中同时学习描述符及轨迹。

实验结果表明,通过HTMM学习到的描述符并不是始终一致的,它更专注于事件或环境(例如:膳食,户外),而不是与人之间的状态,例如快乐与悲伤

本论文提出的关系建模网络(简称RMN), 通过结合词典学习来对关系描述符进行学习,是深度循环自编码器的一种新的变体。如第4部分所述,论文展示了RMN与HTMM以及其他主题模型基准线作比较,在两项众包评估中达到了更好的描述符一致性及轨道准确性。在第5部分,论文展示了定性结果并与现有的文学研究进行了对照。

论文的数据集包括了来自 Gutenberg项目及其他互联网资源中抽取出的小说作品

方法

为了识别所提到的人物,论文运行了Bamman等人(2014年)的“图书-NLP”渠道,,我们把一个间距定义为陈述前100个以及陈述后100个语言符号。研究并不使用句子或段落作为边界,因为它们根据作者的不同会有相当大的差异(例如,威廉·福克纳通常写的单句比海明威写的要长)。研究的数据集的所有间距包括了对恰好两个人物陈述。这是迫使数据大小减少的一个相当严格的条件,但是对于超过两个人物的间距,则通常会产生干扰。

一旦识别了数据集中可用的间距,就可以运用第二个过滤步奏来去除少于五个间距的关系。没有这个过滤器,数据集被将会被配角之间短暂的交流所主导。介于关注点是在长久的,可变的关系,这是不符合要求的。最后,通过删除500个最常出现的单词以及所有出现频率低于100本书的单词,筛选出的词汇表。后面这个步骤有助于对周期及流派(例如:“thou”和“thy”都表示你的意思,但是他们常在一些较早的作品中出现,例如《坎特伯雷故事集》)的差异进行校正。最终的数据集包括了20,013个关系情况及380,408个间距,与此同时,词汇表涵盖了16,223个单词。

论文图表

图2:单一时间步奏的RMN计算的例子。该模型估算了输入间距(vst )的向量平均值是来自R的描述符的线性组合。该描述值的权重dt定义了每个时间步奏的关系状态以及当以序列来看时所形成的关系轨迹。

图3:从文字干扰任务中得到的模型精准结果。RMN与其它三个主题模型基准线相比,可以学习到更多的可以解释描述符。

图4:来自Crowdflower总结的匹配任务例子。学者被告知需要从所提供的描述悉达多与戈文达(黑塞所写的《悉达多》)关系总结中,挑选出最匹配的轨迹。(这里,“A”是经RMN生成的,“B” 是经HTMM生成的。)

图5:左图:与图1中手动创建的版本相比,RMN可以很好的模拟亚瑟与路西的合理轨迹。中间图:两个模型都确定了以事件为基础的描述符,例如食物及性别等。右图:RMN的一个失败案例,RMN无法对露西·曼内特和查尔斯·代尔相爱进行学习。

图6:RMN学习过的书籍(左图)及插入的人物(右图)的可视化主成分分析聚类。可以看到关于战争和暴力的书籍聚类(其中很多书籍是汤姆·克兰西所著)以及主要是来自爱情小说的女主角聚类。这些可视化结果展示了RMN除了可以复原动态关系轨迹,也能够复原有用的静态人物及书籍代表。

相关分析表格

表1:RMN及HTMM的三个高精准度(顶部)和三个低精准度(底部)描述符,以及外部评价标签与通过文字干扰实验计算出的模型精准度(MP)。RMN能够学习多种人际关系状态(例如:喜爱,悲伤),但是HTMM最具连贯性的主题是与具体对象或事件相关的。

表2:使用现有注解计算出的描述符最具特点的正相关及负相关关系。与RMN相比,HTMM试图对负相关关系进行一致性的分类。有意义的是,两个模型对政治关系都展现了负相关倾向,这可能是由于流派偏见或阶级差别所导致的。

结论:

本研究规范化了无监督学习关系建模任务,这涉及到对一套关系描述符以及对输入数据集中每一个关系的描述符中的轨迹进行的学习。研究展示了一项崭新的神经网络架构的RMN,与主题模型基线相比,可以产出更多可解释的描述符及轨迹。最后,文章展示了模型的输出物在与现有数据集注解结合之后,可以为我们提供有意义的见解。

原文发布于微信公众号 - 新智元(AI_era)

原文发表时间:2016-04-18

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI科技大本营的专栏

NLP通用模型诞生?一个模型搞定十大自然语言常见任务

AI科技大本营按:目前的NLP领域有一个问题:即使是再厉害的算法也只能针对特定的任务,比如适用于机器翻译的模型不一定可以拿来做情感分析或摘要。

12620
来自专栏小小挖掘机

探秘多智能体强化学习-MADDPG算法原理及简单实现

之前接触的强化学习算法都是单个智能体的强化学习算法,但是也有很多重要的应用场景牵涉到多个智能体之间的交互,比如说,多个机器人的控制,语言的交流,多玩家的游戏等等...

78440
来自专栏崔庆才的专栏

NLP通用模型诞生?一个模型搞定十大自然语言常见任务

翻译:于之涵 编辑:Leo 出品:AI科技大本营 (公众号ID:rgznai100)

23950
来自专栏AI研习社

通过高效信息传播来提升深度神经网络的学习效率

目前,前馈神经网络 (FFN) 已经得到了广泛的应用,尤其是在图像和语音识别上功能突出。尽管取得了这些经验上的成功,但对底层设计理论的理解仍然有限。在 FFN ...

10330
来自专栏人工智能LeadAI

基于Tensorflow实现FFM

github:https://github.com/sladesha/deep_learning

28530
来自专栏AI科技评论

业界 | 如期而至!谷歌开源 BERT 模型源代码

AI 科技评论按:自上个月谷歌公开 BERT 模型以来,BERT 模型以其双向、深层等特点,成功在 11 项 NLP 任务中取得 state of the ar...

17440
来自专栏Petrichor的专栏

深度学习: pooling (池化 / 降采样)

对于网络结构而言,上面的层看下面的层经过pooling后传上来的特征图,就好像在太空上俯瞰地球,看到的只有山脊和雪峰。这即是对特征进行宏观上的进一步抽象。

85120
来自专栏AI研习社

博客 | 如期而至!谷歌开源 BERT 模型源代码

雷锋网 AI 科技评论按:自上个月谷歌公开 BERT 模型以来,BERT 模型以其双向、深层等特点,成功在 11 项 NLP 任务中取得 state of th...

15530
来自专栏AI科技评论

循环神经网络的增强方法:注意力机制以及更多

AI 科技评论按:一提起 RNN,我们最容易想到的实现就是 LSTM + attention。LSTM 作为经典的网络结构可谓是老当益壮,而另一方面注意力机制过...

20810
来自专栏达观数据

达观数据搜索引擎排序实践(下篇)

机器学习排序 机器学习排序(Machine Learning to rank, 简称MLR) 机器学习排序系统框架 机器学习排序系统一般分为离线学习系统和在线预...

542100

扫码关注云+社区

领取腾讯云代金券