作者 | 钱忱
编辑 | Camel
本文是对清华大学完成,被 AAAI2020 录用的论文《Solving SequentialText Classification as Board-Game Playing》进行解读。
论文简介:
序列文本分类旨在对一条序列文本片段进行标签化。除各个片段内的文本内容以外,考虑文本片段间的上下文依赖依然是影响分类性能的关键因素。先前的文本序列标注技术自左向右地预测对应的文本标签。然而,在决策过程中,不同的文本片段所需上下文依赖不同并且该些依赖并不一定严格按照自左向右地顺序排放。
因此,本文提出一种新的跳跃标注模式,先打标那些需要更少上下文信息的文本片段再考虑那些需要更多上下文的部分。技术上,我们设计了一个辅助的棋盘游戏作为序列文本分类的问题映射。通过将序列文本特征注入到所定义的游戏规则和状态评估策略之中,能有效地推动游戏玩家在每一步中最优化各自的招法,该博弈过程对应到跳跃地产生一段序列标签,此外该棋盘游戏的终局状态对应到最优的预测序列。在多个数据集上的实验结果体现出提出方法的有效性。
(或者到AI研习社官网观看更多AAAI 2020 论文解读视频:http://www.mooc.ai/open?from=meeting)
作者简介:
钱忱,清华大学2016级直博生(导师闻立杰副教授),新加坡国立大学交换生(导师蔡达成教授和冯福利博士后)。主要研究方向为自然语言处理中的文本分类和文本表示。博士期间在人工智能、信息管理、软件工程等相关的国际学术会议AAAI、CIKM、CAISE上以第一作者身份发表论文数篇。