【顶会论文解析】罪行预测

作者 bamtercelboo

原文地址

https://bamtercelboo.github.io/2018/07/19/Learning-to-Predict-Charges-for-Criminal-Cases-with-Legal-Basis/

导读

2017年EMNLP(Conference on Empirical Methods in Natural Language)收录了论文《Learning to Predict Charges for Criminal Cases with Legal Basis》,作者是北京大学—罗炳峰。最近看了这篇论文,对其做一个简单的概述。

背景知识

近些年来,Legal Jugement Prediction 任务越来越引起大家的关注,这个任务的目的是通过给定的事实描述,预测出罪名,法条以及刑期等相关信息,charge prediction 任务就是这样的一个任务,这对一些法律助手是很有帮助的,对法官判决也有很大的帮助,不仅如此,对那些法律知识知之甚少的人也会有一定的积极作用。

目前,这类任务的主流做法是基于文本分类的框架,像流行的SVM,CNN,LSTM等这些深度学习框架,然而,作者认为,仅仅通过给定的事实描述来做,不能够很好的解决问题,他认为,法条信息在这个任务上有很重要的作用,所以,作者通过加入法条特征,使用attention机制,提出了这个任务新的方法,通过他的实验结果也确实表明法条起着至关重要的作用。

数据处理

数据来源于中国裁判文书网,收集了50000个文本用作训练,5000个文本用于开发,5000个文本用于测试,50000个训练文本中,把罪名的频度低于80的看做消极数据,不作处理,仅仅处理频度高于80的数据。

对于法条部分,考虑刑事法律,结果数据集中包含50个不同的罪名,321条不同的相关法条,每个事实描述平均383个词,根据下图,高亮的部分,能够很容易通过正则表达式抽取相关特征。

由于目前很难匹配多个罪名,所以这篇论文仅仅考虑了一个罪名的情况,并没有做多个罪名的情况。

论文模型

模型整体架构

论文的整体的模型图如下图Figure 1:

过程:

  1. 事实描述(fact)通过document encoder生成fact向量表示d_f。
  2. fact也通过Article Extractor抽取其中的匹配度较高的k个法条。
  3. 抽取出来的k个法条通过document encoder生成向量表示s。然后通过article Aggregator生成法条的最终向量表示d_a。
  4. 把 d_f 和 d_a concat在一起,做分类。

Document Encoder

一个句子由多个词组成,一个文本由多个句子组成,可以先过句子级别的encoder,再过文本级别的encoder。如下图可以得到文本的embedding。论文中对这两个encoder都采用了Bi-GRU作为编码端,为了能够获取到更多的信息,论文还采用了attention机制。

Attention Sequence Encoder

为了能够获取更多的有用信息,采用了Hierarchical Attention(16年的一篇文本分类的论文),模型结构图如下图

计算的公式是:

这样就能够明白Figure 1 中的 U_fw 和 U_fs是这里Attention机制的u。

Law Articles

用法条特征来更准确的预测是这篇论文的重点。如何准确的抽取出法条特征也是一个难点,论文中采用了两个步骤来获取特征向量。

  1. 首先采用一个快速且容易的SVM分类器,做多个二分类,过滤掉大部分不匹配的法条,得到k的最为匹配的相关法条,分类器还加入了TF-IDF特征、chi-square,更为准确的获取相关法条。
  2. 抽取出k个相关法条之后,再通过Article Encoder(和Document Encoder一样)获取法条的向量表示,这里不同的是attention中的u不在是随机的,而是通过fact embedding动态产生的,通过下面的公式。
  1. 最后在通过Attentive Sequence Encoder从k个法条中获取到支持预测的法条,这里的u也是通过fact embedding动态产生的。

Output

最终的把fact embedding(d_f) 和 article embedding(d_a) concat 在一起,做最后的预测,这里还设置了一个threshold

Supervised Article Attention

在训练的过程中,利用金标的法条监督法条attention的分布,就是想要法条attention的分布于目标法条的分布相似, loss的计算公式如下:

实验部分

实验的参数设置没有什么特别的,实验部分,论文做了很多的对比实验,从结果来看(下图)法条特征对预测确实起着很大的作用。

总结

法条特征对这个任务确实起着很重要的作用,虽然论文仅仅做了单一罪名的预测,没有尝试多罪名预测中法条特征的影响,但是论文的思路已经给我们提供了新的方向。

IELTS a bit

inadequate adj. 不充分的,不适当的

essence n. 本质,实质;精华;香精

transcend vt. 胜过,超越

conversely adv. 相反地

alleviate vt. 减轻,缓和

原文发布于微信公众号 - 深度学习自然语言处理(zenRRan)

原文发表时间:2018-07-30

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器之心

入门 | 从结构到性能,一文概述XGBoost、Light GBM和CatBoost的同与不同

选自Medium 机器之心编译 参与:刘天赐、黄小天 尽管近年来神经网络复兴并大为流行,但是 boosting 算法在训练样本量有限、所需训练时间较短、缺乏调参...

54050
来自专栏人工智能

评分卡系列(二):特征工程

文章很长,理论和实现都讲的很细,大家可以先收藏,有时间再看。 在上一篇文章中,我们对LendingClub的数据有了一个大致的了解,这次我将带大家把10万多条、...

88870
来自专栏机器之心

机器学习和深度学习引用量最高的20篇论文(2014-2017)

选自Kdnuggets 作者:Thuy T. Pham 机器之心编译 参与:邵明、黄小天 机器学习和深度学习的研究进展正深刻变革着人类的技术,本文列出了自 20...

397110
来自专栏新智元

【CVPR演讲】LeCun 谈深度学习技术局限及发展(157PPT)

【新智元导读】Facebook AI 实验室负责人Yann LeCun 在 CVPR2015 演讲,提到了深度学习在计算机视觉领域的应用及局限,比如缺乏理论、缺...

45270
来自专栏企鹅号快讯

掌握机器学习数学基础之线代(二)

标量、向量、矩阵和张量 矩阵向量的运算 单位矩阵和逆矩阵 行列式 方差,标准差,协方差矩阵-------(第一部分) 范数 特殊类型的矩阵和向量 特征分解以及其...

20580
来自专栏人工智能LeadAI

透析 | 卷积神经网络CNN究竟是怎样一步一步工作的?

视频地址:https://www.youtube.com/embed/FmpDIaiMIeA; 文档参阅:<a href="https://github.com...

43060
来自专栏数据派THU

基于多篇经典论文综述Attention模型方法(附源码)

先简单谈一谈 attention 模型的引入。以基于 seq2seq 模型的机器翻译为例,如果 decoder 只用 encoder 最后一个时刻输出的 hid...

31250
来自专栏目标检测和深度学习

推荐|深度学习领域引用量最多的前20篇论文简介

摘要: 本文根据微软学术(academic.microsoft.com)的引用量作为评价指标,从中选取了关于深度学习和神经网络引用量排前20的论文,应用领域广,...

30550
来自专栏Jayden的专栏

机器学习的一些术语

卷积神经网络最初是用来处理多维数组数据,比如,一张由三个2D数组组成、包含三个彩色通道像素强度的彩色图像。大量的数据模式都是多个数组形式:1D用来表示信号和序列...

16500
来自专栏专知

【SIGGRAPH Asia 2017 论文选读】基于图片风格特征的画家代表作选取

【导读】第十届ACM SIGGRAPH Asia亚洲电脑图形及互动技术展览会将于今年11月27日至30日,在泰国的首都-曼谷隆重举行。本篇选取文章来自我们课题组...

31840

扫码关注云+社区

领取腾讯云代金券