中科院软件所:用于信息抽取中检测任务的自适应缩放

你和“懂AI”之间,只差了一篇论文

号外!又一拨顶会论文干货来袭!

2018年6月9-10日,代表学术界和工业界的顶级交流盛会——由中国中文信息学会青年工作委员会和百度公司联合举办的【“AIS2018(ACL、IJCAI、SIGIR)论文预讲会”】在北京盛大举行。两天时间内,来自“情感分析”“推荐系统”“机器问答”“对话系统”等不同主题的顶级会议论文报告汇聚一堂,英雄相惜,华山论剑。

据芯君了解,本次预讲会在学术圈的火爆程度完全超出了主办方的想象,开放报名的短短几天就全面满额了,以至于主办方不得不设定条件筛选参会者。

读芯君作为本次预讲会的活动媒体,将全程跟随大会,为大家全程纪录活动中最前沿的观点,最有价值的成果,并特邀预讲会论文报告者联合为读者朋友们推出预讲会系列组文,向你展示顶会最新论文成果。

这是读芯术解读的第44篇论文

作者:林鸿宇,陆垚杰,韩先培,孙乐

ACL 2018

用于信息抽取中检测任务的自适应缩放

Adaptive Scaling for Sparse Detection in Information Extraction

中国科学院软件所

Institute of Software, Chinese Academy of Sciences

【摘要】本文关注于信息抽取中的检测任务。在这类任务中,正例样本通常非常稀疏并且模型通常使用F-Measure进行评价。这些特性使得传统的神经网络在检测任务上无法得到最优的结果。在本文中,我们提出了自适应缩放(adaptive scaling),该算法可以处理正例样本的稀疏问题并且直接针对F-Measure进行优化。为此,我们借鉴了经济学中的边际效用的概念,提出了一个用于衡量实例重要性的框架并且没有引入任何额外的超参数。实验结果表明我们的算法能够得到更有效并且更稳定神经网络检测模型。

1 引言

检测任务的目的是识别某些类别(例如实体、关系或者事件)信息在文档当中的出现,该问题在信息抽取中广泛存在。例如一个事件检测系统应当能够从句子“He was shot”中识别出一个“Attack”事件的触发词“shot”。

近年来,随着基于神经网络方法的发展,人们常常将事件检测转化为一个词级别的分类问题来对待。例如,在句子中“亨利受伤 了”中,一个事件检测系统通过将上述句子中的三个词分别分类为“空”,“伤害事件”以及“空”,从而完成事件检测任务。这类的模型对先验信息的依赖较小,并且已经在事件检测领域取得了较大的进展。

表1:分类问题与检测问题对比

然而,与传统分类问题不同的是,事件检测任务有着显著的类别不平等问题。这种类别不平等主要表现在数据分布以及使用的评价指标上,如表1所示。在数据分布上,被标记为“空”的样本数量要显著性地多于被标记为特定类别事件样本的样本数量。在评价指标上,我们通常使用在正类别上的F值作为评价标准,而在“空”类别上的正确预测结果常常被忽略。由于上述类别不平等的问题的存在,直接使用传统的分类模型进行事件检测常常得不到好的结果。尽管基于采样的启发式方法可以缓解这一问题,但是这些方法通常会丢失掉负例类内部的信息,或者是使得模型过拟合在整理样本上,因此导致了训练结果的不稳定。

由此,先前也有一些方法尝试直接优化F指。Parambath等人证明了F值的优化可以通过代价敏感学习(cost-senstive learning)来完成。在这一学习过程当中,每个类别的样本被赋予了一个重要性的权重。然而最优的权重(超参)通常是未知的,因此需要在开发集上使用各种各样的搜索算法得到,这对于神经网络来说代价非常大。

为了解决类别不平等问题,本文提出了一个用于度量样本在训练过程中的重要性的理论框架。我们引入了经济学中的边际效用的概念,并且讲优化目标(通常是F值)视为效用函数。基于此,一个样本的重要性取决于正确预测它所带来的效用函数的边际增量。对于使用正确率评估的传统分类问题,我们证明了正负例样本有着相同的边际效用,因此所有样本的权重是相同的。但是对于使用正类别上的F值作为评价标准的检测问题,我们证明了正负例样本有着不同的边际效用,并且这一边际效用随着模型的拟合过程不断地变化。这表明了样本的重要性不仅仅取决于数据分布,还取决于当前模型对于样本的拟合程度。

基于上述框架,我们提出了自适应缩放,一个动态的代价敏感学习算法。该算法通过动态缩放不同类别样本在训练中的权重来使得模型的拟合过程与评价指标相一致。同时,我们提出了该算法的一种基于批处理的版本,使得我们的方法可以直接作为批处理神经网络优化算法的一部分。同先前的方法相比,自适应缩放算法没有引入任何额外的超参数,这使得我们的方法可以快速地在不同的模型和数据集之间迁移。

2 背景

2.1 正确率与交叉熵之间的联系

近年来的神经网络分类模型大多数使用交叉熵作为损失函数。如果样本个数趋向无穷,我们有

这表明了最小化交叉熵损失函数本质上是在最大化训练数据上的分类器。

2.2 F-Measure同交叉熵之间的背离

然而,检测任务通常使用正类上的F值进行评价,这使得它并不适合使用交叉熵作为目标函数。一个很简单的例子就是将所有样本均分为负类,这时候模型的准确率很高但是F值确是0.

为了更好地分析这一差异来自哪里,我们观察F值和准确率的公式

显而易见的是,在准确率中,正确预测正例和负例(TP和TN)之间是对称的,这意味着正例和负例有着一样的重要程度。但是在F值里,这种对称性不复存在,这意味着正例和负例对于F值的影响是不同的。由此,要使得模型的训练更加符合F值的标准,将这种不同纳入考虑是必要的。

3 用于稀疏检测的自适应缩放

3.1 基于边际效用的重要性度量

边际效用是一个经济学中的概念,代表的是每增加消费一单位的某种商品或者服务能够给总体效用带来的增加量。我们借用这一概念来计算模型每预测对一个正例类别样本以及负例类别样本给最终评价准则带来的提升。具体地,考虑事件检测中常用到的微平均F值评价准则,我们使用它对正确预测正例样本数量TP以及正确预测的负例样本数量TN的偏导数来分别计算其对正负例样本的边际效用:

其中P与N代表训练数据中正例样本以及负例样本的总的数量,PE表示正例与正例之间的预测错误。上述边际效用即可以被视为是正例样本以及负例样本的相对重要性。

3.2 自适应缩放算法

基于上述重要性计算机制,我们将负例样本的重要性与正例样本的重要性的比值作为负例样本在模型训练中的权重,即

在此基础上,在模型最优化的每一轮迭代当中,我们将使得模型的参数动态地朝着使用上述权重缩放后的交叉熵损失函数的梯度方向前进一步,即局部损失函数为:

3.3 自适应缩放算法的性质

性质1: 正例与负例的相对重要性与每个类的实例数量的比率以及当前模型如何适合每个类相关。这与先前类别不平衡问题以及F值最优化问题上的实证研究结果是一致的。

性质2:对于微平均的F值,所有的正例有着一样的重要性无论其样本数量的大小。这与微平均F值的定义是一致的。

性质3:负例的重要性随着正类别准确性的提高而增加。这是一个非常直观的结论因为如果模型对正例有很好的拟合结果了,那么它应该把拟合的重点专项负例。

性质4:负例的重要性随着负类别准确性的提高而增加。这可以使得整个训练过程更加关注于较难的负例,这同Focal Loss是中的结论是一致的。

性质5:负例的重要性随着对Precision的关注度上升而上升。这与我们实证研究中的结果是一致的。即如果模型更加关注于Precision而不是Recall,那应该通过增大负例的权重来保证召回的都是高置信度的正例。

3.4 批处理自适应缩放算法

为了使得动态重要性缩放方法能适用于基于批处理的神经网络梯度优化算法,我们提出了一种基于梯度的方法来近似上述的动态重要性缩放方法。该方法使用如下的统计量来近似计算TP与TN

然后我们使用下述方法来近似计算:

其中PB与NB为该批处理数据中正例样本与负例样本的个数。

4 实验

4.1 实验设置

我们在TAC KBP 2017事件检测数据集上验证了我们的方法。我们的实验中包含有两种模型(DMCNN和LSTM)以及两个不同的数据集(中英文)。我们的基线系统包括有:

1) 原始模型,即不对类别不平等问题进行任何额外处理。

2) 下采样,即通过采样的方式仅保留一部分负例样本。

3) 静态缩放,即给负例样本设置一个静态权重。

4) Focal Loss,即根据样本拟合的难易程度来动态调节样本权重。

5) Softmax-Margin Loss,为不同类别的分类错误设置了不同的额外误分类代价。

4.2 实验结果

表2:实验结果

表2给出了总体的实验结果。我们可以看到:

1) 类别不平等问题对于检测任务来说非常关键,需要特别的对待。我们可以看到,对比于原始模型,所有对该问题进行特殊处理的方法都得到了实验结果的增长。

2) 正负例样本需要被分别考虑。即使Focal Loss调低了易学习样本的权重,它仍然难以得到很好的实验结果,这是因为它没有区分正负例样本在训练中的不同作用。

3) 基于边际效用的框架为衡量实例重要性提供了坚实的基础,从而使我们的自适应缩放算法稳步超越所有启发式基线。

4) 我们的自适应缩放算法不需要额外的超参数,并且可以动态估计实例的重要性。这是的我们的方法成为了一个更稳定且可迁移的检测模型训练方法。

5 总结

在本文中,我们提出了自适应缩放(adaptive scaling),该算法可以处理正例样本的稀疏问题并且直接针对F-Measure进行优化。为此,我们借鉴了经济学中的边际效用的概念,提出了一个用于衡量实例重要性的框架并且没有引入任何额外的超参数。实验结果表明我们的算法能够得到更有效并且更稳定神经网络检测模型。

训练目标和评价指标的差异广泛存在于各类NLP以及机器学习任务当中。在未来,我们希望将我们基于边际效用的框架应用到更多的评价指标上,例如MAP。

留言 点赞 发个朋友圈

我们一起探讨AI落地的最后一公里

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180609G044PV00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券