利用Python实现摘要自动提取，完美瘦身只需一行代码

文章来源：企鹅号 - python热爱者

今天给大家推荐一个也可以用于关键字提取的算法TextRank，但主要实现的功能是快速从长篇新闻中抽取精准摘要。

前言介绍

TextRank是一个基于图排序的、用于文本处理的算法，通常使用PageRank作为其底层的图排序模型，当然其他的图排序模型也可以与其结合。

使用TextRank算法，不需要有深入的语言学和专业领域知识，因为它是一个无监督的算法。在文本中使用基于图的排序算法需要构建一张关系图来表达文本、词语以及其他实体。

在中文里面，词语、短语、整个句子等都可以作为图中的顶点，在这些顶点之间建立联系，如：词序关系、语义关系、内容相似度等，就能够构建一张合适的关系图。

目前，TextRank在中文文本中的应用主要有三个方向，分别是：

1）关键词提取；

2）关键短语提取；

3）自动摘要。

Python中有一个名为 textrank4zh 的包实现了这三个功能，其源码地址为:

https://github.com/letiantian/TextRank4ZH , 实现了不错的文本处理效果。

效果预览

最近，Tushare Pro 发布了近10年的CCTV新闻联播数据，对数据进行了清洗和规范。

但是，每天的新闻联播内容共有上万字，完全的读下来也是比较费劲。如果使用自动摘要技术把这上万字的内容浓缩成10个句子，阅读负担一下子就减轻了不少。而自动摘要正是 TextRank 的用武之地。

在实现功能之前，我们先来看看从新闻中提取的摘要效果。

得益于Tushare提供的新闻联播规范文本，TextRank自动摘要效果看起来非常不错。

为什么TextRank能有这么好的效果呢？这主要是因为图排序模型是基于全局信息来计算每个顶点的重要性，而不是仅仅使用局部信息。下面简单介绍一下TextRank应用于自动摘要的基本原理。

基本原理

前面已经说到，使用TextRank分析文本，首先需要在文本上构建一张图。

对于文本自动摘要任务，我们使用句子作为图的顶点，句子与句子之间的相互关系作为图的边。这里不能简单的用句子在文本中的前后关系来构建图的边，我们需要评估句子与句子之间的相似度，每个句子仅与它最相似的几个句子之间构成连接，并使用相似度作为边的权重。

事实上，两个句子相似，可以认为这两个句子之间存在一种“推荐”关系，即：读者读完这个句子后，这个句子推荐读者去读跟它相似的句子。

评估两个句子相似度的方法有很多，比如：余弦相似度、编辑距离等，在TextRank算法中使用的是最基本方法，通过计算两个句子中相同词语的数量来计算相似度，此外，可以加语法过滤器对词语进行过滤。

确定了图的顶点和边是什么，以及边的权重，一张加权图（weighted graph）就已经得到了，这个加权图的形状如图1所示。接下来就可以使用PageRank去迭代计算每个顶点（句子）的重要性。最后，将最重要的N个句子作为整个文本的摘要，这就是TextRank的自动摘要结果。

代码实现

由于textrank4zh已经实现了TextRank的功能，我们拿过来直接使用就可以，而且用法极其简单。

相关快讯