【比赛】CCL“中国法研杯”相似案例匹配评测竞赛 - TOP队伍攻略分享

zenRRan

发布于 2019-11-01 00:27:02

9590

发布于 2019-11-01 00:27:02

上周末参加了在云南昆明举办的“第十八届中国计算语言学大会”（The Eighteenth China National Conference on Computational Linguistics, CCL 2019）。CCL作为国内最好的NLP会议之一，笔者收获满满，感触颇深。于是写下这篇文章，和大家分享之所见所闻。

中国计算语言学大会作为国内自然语言处理领域权威性最高、规模和影响最大的学术会，聚焦于中国境内各类语言的智能计算和信息处理，为研讨和传播计算语言学最新学术和技术成果提供了最广泛的高层次交流平台。

笔者主要参加了CCL会议中的评测研讨会，我们队伍（何从庆、朱翔宇(DOTA)、乐雨泉）在CCL“中国法研杯”相似案例匹配评测竞赛取得了三等奖。

作者：何从庆、朱翔宇(DOTA)、乐雨泉

来自：AI算法之心（关注后，后台回复CAIL2019即可获得比赛数据）

知乎链接：

https://zhuanlan.zhihu.com/p/88207736

代码链接：

https://github.com/hecongqing/CAIL2019

比赛简介

CCL“中国法研杯”相似案例匹配评测竞赛主要是针对多篇法律文本进行相似度的计算和判断。具体地，对于每份文书提供文本的标题以及事实描述，需要从两篇候选集文书中找到与询问文书更为相似的一篇文书。

一般地，三元组相似任务：三元组相似任务是输入一个三元组<a, p ,n >，a表示anchor sample；p表示positive sample，与a是同一类样本；n表示negative sample，与a是不同类别的样本。代表网络有Triplet Network。

二元组相似任务：二元组相似任务是输入一个二元组<X,Y>,判断X与Y是否为同一类样本。代表网络有Siamese network，ESIM，InferSent。

数据集介绍

本任务使用的数据集是来自“中国裁判文书网”公开的法律文本，其中每份数据由三篇法律文本组成。数据总共涉及一万组文书三元对，所有的文书三元组对都一定属于民间借贷案由。对于每篇法律文本，提供该文书的事实描述部分。具体地，文件的每一行对应一组数据，且每行的格式都为一个json数据。

对于每份数据，用(A,B,C)来代表改组数据，其中(A,B,C)均对应某一篇文书。在训练数据中，文书数据A与B的相似度是大于A与C的相似度，即sim(A,B)>sim(A,C)。

任务转化

很明显，这是一个三元组相似任务，即A表示anchor sample, B表示positive sample，C表示negative sample。因此直接可以使用Triplet Network的结构去尝试。但是，在任务中，训练集仅有5000样本，训练集很少；同时，句子长度很长。因此，我们将其转化为二元组相似任务。即假设sim(A,B)>sim(A,C)，A与B相似度的标签为1，A与C相似度的标签为0。

难点痛点

1) 法律文本本身在一定程度上具有结构相似性，且事实描述部分存在很多通用词语，如何对法律文本进行预处理是非常重要，这里我没有详细说明如何对法律文本进行预测。

2) 法律文本长度很长，使得任务变得更难处理。机器很难解析一篇很长的事实描述，语义表征也是很复杂。这是法律文本不同于传统的NLP任务之一。

模型方案

本次比赛，各个队伍大放光彩，使用的方法也是各有千秋。常用的优化方法主要分为以下几种方法：

一种是在encoder部分对于案件文档进行编码优化，如BERT，CNN，attention等，前几名基本都是使用了这几种方法。还有的是，对于案件之间的交互进行优化，如对pair案件计算余弦相似度(Ref [1]);计算句子之间的向量差，点集等(Ref [2])。

还有的是对损失函数进行优化，如使用triplet loss，margin loss等。同时，还有队伍针对三元组相似问题，进行数据增强。由于训练集sim(A,B)>sim(A,C)，即(A,B,C)=1，可以这样数据增强，如(C,C,A)=0，(B,A,C)=0等，这样变换进行数据增强。最有创新的当属于第一名，他们采用了要素提取方法，由于案件均为民间借贷，引入民间借贷纠纷中重要的法律构成要件信息，帮助模型判断。

二元组相似任务现有的方案很多，如Siamese network，ESIM，InferSent。我们队伍主要结合最新的BERT模型来改进encoder部分，然后用Siamese network以及InferSent来计算向量的相似度。

1) Siamese network

简单来说，Siamese network就是“连体的神经网络”，神经网络的“连体”是通过共享权值来实现的。如下图所示，通过两层的双向LSTM作为encoder，左右两边的encoder通过共享权值，然后通过余弦相似度衡量两个Sentence的相似情况。

在本次任务中，训练集较少，很难训练出一个泛化能力强的模型，那么是否可以结合BERT、XLNET等网络作为encoder，来fine tune网络呢？因此我们尝试了BERT作为encoder,然后余弦相似度计算相似性。线上分数可以达到63.93左右的acc。效果不是很理想，我们觉得法律文本很长，且存在着很多通用相似词语，直接通过余弦相似度计算是否相似，并不是很有效的评估两篇文书的相似度。

2) InferSent

Facebook提出了一种InferSent相似度模型，论文中通过不同的encoder得到句子的表征，然后通过两个句子的向量差值，以及两个向量点乘，得到交互向量，最后区分两者的不同。同样地，这里我们也使用BERT作为encoder，然后通过pooling，然后计算Sent A和Sent B的|u-v|以及u*v，得到两者的交互向量，线上分数可以达到64.5左右的acc。这个比计算余弦相似度的效果好，这说明长度文本利用InferSent模型可以更好的计算两者的向量相似程度。

这里和Digsci比赛的思路也是比较相似，大家也可以看看这篇文章：

DigSci科学数据挖掘大赛-亚军方案分享

https://zhuanlan.zhihu.com/p/88257675