NAACL2016年度论文：无监督神经网络理解虚构人物关系

新智元

发布于 2018-03-21 18:12:27

8920

发布于 2018-03-21 18:12:27

文章被收录于专栏：新智元新智元

【新智元导读】非监督式学习如何确定小说中动态的人物角色关系？本论文提出了一种新的神经网络架构的RMN，通过结合词典学习来对关系描述符进行学习，是深度循环自编码器的一种新的变体。与马尔可夫（HTMM）模型相比，RMN能够学习多种人际关系状态。

论文作者包括马里兰大学计算机科学系和高级计算机研究所Mohit Iyyer，Anupam Guha，SnigdhaChaturvedi，Hal Daume III；科纳罗拉大学计算机科学系Jordan Boyd-Graber。

摘要

理解两个角色之间不断变化的虚构关系（例如，从最好的伙伴到不共戴天的敌人）是数字化人文学术研究的一个关键难题。我们为这项任务提出的是一个全新的无监督神经网络，通过结合词典学习来产生可解释的、准确的关系轨迹。

尽管之前对文学中角色关系进行分类的工作依赖的是情节的概述，这些概述都是由预先定义的标签进行过注释的。我们的模型就来自小说纯文字数据集内的每一组关系，同时对整套关系描述符及关系描述符上的轨迹进行学习。

我们发现，我们的模型可以学习事件（例如：结婚或谋杀）以及人与人之间的状态（例如：爱，悲伤）相关的描述符。我们的模型在两个众包任务方面（crowdsourced tasks）的表现比主题模型基线（topic model baselines）要好很多。同时，我们也发现了在现有数据集注解之间有意思的相关性。

论文亮点

论文提出了非监督关系建模，该模型同时对一组文学人物的关系描述符及关系轨迹进行学习。不同于对一个特定关系分配一个独立的描述符，经过模型学习后的轨迹是描述符序列，如图1所示。

图1: 描述《吸血惊情四百年》中露西（Lucy)与亚瑟（Arthur )的动态关系的一个轨迹例子，该关系从两人相爱开始到亚瑟杀死吸血鬼露西结束。每一列描述了在特定时间内关系状态在一组描述符中的权重（权重越大则方框越大）。我们的目的是在没有监督情况下，从小说文字原始数据中同时学习描述符及轨迹。

实验结果表明，通过HTMM学习到的描述符并不是始终一致的，它更专注于事件或环境（例如：膳食，户外），而不是与人之间的状态，例如快乐与悲伤。

本论文提出的关系建模网络（简称RMN), 通过结合词典学习来对关系描述符进行学习，是深度循环自编码器的一种新的变体。如第4部分所述，论文展示了RMN与HTMM以及其他主题模型基准线作比较，在两项众包评估中达到了更好的描述符一致性及轨道准确性。在第5部分，论文展示了定性结果并与现有的文学研究进行了对照。

论文的数据集包括了来自 Gutenberg项目及其他互联网资源中抽取出的小说作品。

方法

为了识别所提到的人物，论文运行了Bamman等人（2014年）的“图书－NLP”渠道,,我们把一个间距定义为陈述前100个以及陈述后100个语言符号。研究并不使用句子或段落作为边界，因为它们根据作者的不同会有相当大的差异（例如，威廉·福克纳通常写的单句比海明威写的要长）。研究的数据集的所有间距包括了对恰好两个人物陈述。这是迫使数据大小减少的一个相当严格的条件，但是对于超过两个人物的间距，则通常会产生干扰。

一旦识别了数据集中可用的间距，就可以运用第二个过滤步奏来去除少于五个间距的关系。没有这个过滤器，数据集被将会被配角之间短暂的交流所主导。介于关注点是在长久的，可变的关系，这是不符合要求的。最后，通过删除500个最常出现的单词以及所有出现频率低于100本书的单词，筛选出的词汇表。后面这个步骤有助于对周期及流派（例如：“thou”和“thy”都表示你的意思，但是他们常在一些较早的作品中出现，例如《坎特伯雷故事集》）的差异进行校正。最终的数据集包括了20,013个关系情况及380,408个间距，与此同时，词汇表涵盖了16,223个单词。

论文图表

图2：单一时间步奏的RMN计算的例子。该模型估算了输入间距(vst )的向量平均值是来自R的描述符的线性组合。该描述值的权重dt定义了每个时间步奏的关系状态以及当以序列来看时所形成的关系轨迹。

图3：从文字干扰任务中得到的模型精准结果。RMN与其它三个主题模型基准线相比，可以学习到更多的可以解释描述符。

图4：来自Crowdflower总结的匹配任务例子。学者被告知需要从所提供的描述悉达多与戈文达（黑塞所写的《悉达多》）关系总结中，挑选出最匹配的轨迹。（这里，“A”是经RMN生成的，“B” 是经HTMM生成的。）

图5：左图：与图1中手动创建的版本相比，RMN可以很好的模拟亚瑟与路西的合理轨迹。中间图：两个模型都确定了以事件为基础的描述符，例如食物及性别等。右图:RMN的一个失败案例，RMN无法对露西·曼内特和查尔斯·代尔相爱进行学习。

图6：RMN学习过的书籍（左图）及插入的人物（右图）的可视化主成分分析聚类。可以看到关于战争和暴力的书籍聚类（其中很多书籍是汤姆·克兰西所著）以及主要是来自爱情小说的女主角聚类。这些可视化结果展示了RMN除了可以复原动态关系轨迹，也能够复原有用的静态人物及书籍代表。

相关分析表格

表1：RMN及HTMM的三个高精准度（顶部）和三个低精准度（底部）描述符，以及外部评价标签与通过文字干扰实验计算出的模型精准度（MP）。RMN能够学习多种人际关系状态（例如：喜爱，悲伤），但是HTMM最具连贯性的主题是与具体对象或事件相关的。

表2：使用现有注解计算出的描述符最具特点的正相关及负相关关系。与RMN相比，HTMM试图对负相关关系进行一致性的分类。有意义的是，两个模型对政治关系都展现了负相关倾向，这可能是由于流派偏见或阶级差别所导致的。

结论：

本研究规范化了无监督学习关系建模任务，这涉及到对一套关系描述符以及对输入数据集中每一个关系的描述符中的轨迹进行的学习。研究展示了一项崭新的神经网络架构的RMN，与主题模型基线相比，可以产出更多可解释的描述符及轨迹。最后，文章展示了模型的输出物在与现有数据集注解结合之后，可以为我们提供有意义的见解。

本文参与腾讯云自媒体分享计划，分享自微信公众号。

原始发表：2016-04-18，如有侵权请联系 cloudcommunity@tencent.com 删除

神经网络

监督学习

本文分享自新智元微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体分享计划，欢迎热爱写作的你一起参与！

神经网络

监督学习

登录后参与评论

0 条评论

热度

NAACL2016年度论文：无监督神经网络理解虚构人物关系

NAACL2016年度论文：无监督神经网络理解虚构人物关系

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐