Loading [MathJax]/jax/element/mml/optable/BasicLatin.js
前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >用 Python 从单个文本中提取关键字的四种超棒的方法

用 Python 从单个文本中提取关键字的四种超棒的方法

作者头像
数据STUDIO
发布于 2022-05-24 06:15:37
发布于 2022-05-24 06:15:37
6.5K00
代码可运行
举报
文章被收录于专栏:数据STUDIO数据STUDIO
运行总次数:0
代码可运行

自然语言处理分析的最基本和初始步骤是关键词提取,在NLP中,我们有许多算法可以帮助我们提取文本数据的关键字。本文中,云朵君将和大家一起学习四种即简单又有效的方法,它们分别是 Rake、Yake、Keybert 和 Textrank。并将简单概述下每个方法的使用场景,然后使用附加示例将其应用于提取关键字。

本文关键字:关键字提取、关键短语提取、Python、NLP、TextRank、Rake、BERT

在我之前的文章中,我介绍了使用 Python 和 TFIDF 从文本中提取关键词,TFIDF 方法依赖于语料库统计来对提取的关键字进行加权,因此它的缺点之一是不能应用于单个文本。

为了说明每种关键字提取方法(Rake、Yake、Keybert 和 Textrank)的实现原理,将使用已发表的文章[1]的摘要以及主题指定的关键字,并通过检查哪些方法的提取的关键词与作者设置的关键词更接近,来检验每种方法。在关键词提取任务中,有显式关键词,即显式地出现在文本中;也有隐式关键词,即作者提到的关键词没有显式地出现在文本中,而是与文章的领域相关。

在上图展示的示例中,有文本标题和文章摘要,标准关键字(由作者在原始文章中定义)被标记为黄色。注意machine learning这个词并不明确,也没有在摘要中找到。虽然可以在文章的全文中提取,但这里为了简单起见,语料数据仅限于摘要。

文本准备

标题通常与提供的文本相结合,因为标题包含有价值的信息,并且高度概括了文章的内容。因此,我们将文本和标题两个变量之间通过加上一个加号而简单地拼接。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
title = "VECTORIZATION OF TEXT USING DATA MINING METHODS"
text = "In the text mining tasks, textual representation should be not only efficient but also interpretable, as this enables an understanding of the operational logic underlying the data mining models. Traditional text vectorization methods such as TF-IDF and bag-of-words are effective and characterized by intuitive interpretability, but suffer from the «curse of dimensionality», and they are unable to capture the meanings of words. On the other hand, modern distributed methods effectively capture the hidden semantics, but they are computationally intensive, time-consuming, and uninterpretable. This article proposes a new text vectorization method called Bag of weighted Concepts BoWC that presents a document according to the concepts’ information it contains. The proposed method creates concepts by clustering word vectors (i.e. word embedding) then uses the frequencies of these concept clusters to represent document vectors. To enrich the resulted document representation, a new modified weighting function is proposed for weighting concepts based on statistics extracted from word embedding information. The generated vectors are characterized by interpretability, low dimensionality, high accuracy, and low computational costs when used in data mining tasks. The proposed method has been tested on five different benchmark datasets in two data mining tasks; document clustering and classification, and compared with several baselines, including Bag-of-words, TF-IDF, Averaged GloVe, Bag-of-Concepts, and VLAC. The results indicate that BoWC outperforms most baselines and gives 7% better accuracy on average"
full_text = title +", "+ text 
print("The whole text to be usedn", full_text)

现在开始使用今天的四个主角来提取关键字!

Yake

它是一种轻量级、无监督的自动关键词提取方法,它依赖于从单个文档中提取的统计文本特征来识别文本中最相关的关键词。该方法不需要针对特定的文档集进行训练,也不依赖于字典、文本大小、领域或语言。Yake 定义了一组五个特征来捕捉关键词特征,这些特征被启发式地组合起来,为每个关键词分配一个分数。分数越低,关键字越重要。你可以阅读原始论文[2],以及yake 的Python 包[3]关于它的信息。

特征提取主要考虑五个因素(去除停用词后)

大写term

(Casing) 大写字母的term(除了每句话的开头单词)的重要程度比那些小写字母的term重要程度要大。

其中, 表示该词的大写次数, 表示该词的缩写次数。

词的位置

(Word Position) 文本越开头的部分句子的重要程度比后面的句子重要程度要大。

其中 表示包含该词的所有句子在文档中的位置中位数。

词频

(Term Frequency) 一个词在文本中出现的频率越大,相对来说越重要,同时为了避免长文本词频越高的问题,会进行归一化操作。

其中,MeanTF是整个词的词频均值, 是标准差。

上下文关系

(Term Related to Context) 一个词与越多不相同的词共现,该词的重要程度越低。

其中 表示窗口size为 从左边滑动, 表示从右边滑动。 表示出现在固定窗口大小为 下,出现不同的词的个数。

表示所有词频的最大值。

词在句子中出现的频率

(Term Different Sentence) 一个词在越多句子中出现,相对更重要

其中 SF(t) 是包含词t tt的句子频率, 表示所有句子数量。 最后计算每个term的分值公式如下:

表示的是单词 的分值情况,其中 分值越小,表示的单词 越重要。

安装和使用

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
pip install git+https://github.com/LIAAD/yake 
import yake

首先从 Yake 实例中调用 KeywordExtractor 构造函数,它接受多个参数,其中重要的是:要检索的单词数top,此处设置为 10。参数 lan:此处使用默认值en。可以传递停用词列表给参数 stopwords。然后将文本传递给 extract_keywords 函数,该函数将返回一个元组列表 (keyword: score)。关键字的长度范围为 1 到 3。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
kw_extractor = yake.KeywordExtractor(top=10, stopwords=None)
keywords = kw_extractor.extract_keywords(full_text)
for kw, v in keywords:
   print("Keyphrase: ",kw, ": score", v)

从结果看有三个关键词与作者提供的词相同,分别是text mining, data miningtext vectorization methods。注意到Yake会区分大写字母,并对以大写字母开头的单词赋予更大的权重。

Rake

Rake 是 Rapid Automatic Keyword Extraction 的缩写,它是一种从单个文档中提取关键字的方法。实际上提取的是关键的短语(phrase),并且倾向于较长的短语,在英文中,关键词通常包括多个单词,但很少包含标点符号和停用词,例如and,the,of等,以及其他不包含语义信息的单词。

Rake算法首先使用标点符号(如半角的句号、问号、感叹号、逗号等)将一篇文档分成若干分句,然后对于每一个分句,使用停用词作为分隔符将分句分为若干短语,这些短语作为最终提取出的关键词的候选词。

每个短语可以再通过空格分为若干个单词,可以通过给每个单词赋予一个得分,通过累加得到每个短语的得分。Rake 通过分析单词的出现及其与文本中其他单词的兼容性(共现)来识别文本中的关键短语。最终定义的公式是:

即单词 的得分是该单词的度(是一个网络中的概念,每与一个单词共现在一个短语中,度就加1,考虑该单词本身)除以该单词的词频(该单词在该文档中出现的总次数)。

然后对于每个候选的关键短语,将其中每个单词的得分累加,并进行排序,RAKE将候选短语总数的前三分之一的认为是抽取出的关键词。

安装和使用

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
# $ git clone https://github.com/zelandiya/RAKE-tutorial
# 要在python代码中导入rake:
import rake 
import operator

# 加载文本并对其应用rake:
filepath = "keyword_extraction.txt"
rake_object = rake.Rake(filepath)
text = "Compatibility of systems of linear constraints over the set of natural numbers. Criteria of compatibility of a system of linear Diophantine equations, strict inequations, and nonstrict inequations are considered.Upper bounds for components of a minimal set of solutions and algorithms of construction of minimal generatingsets of solutions for all types of systems are given. These criteria and the corresponding algorithms for constructing a minimal supporting set of solutions can be used in solving all the considered types of systems and systems of mixed types."
sample_file = open(“data/docs/fao_test/w2167e.txt”, ‘r’)
text = sample_file.read()
keywords = rake_object.run(text) print “Keywords:, keywords

候选关键字

如上所述,我们知道RAKE通过使用停用词和短语分隔符解析文档,将包含主要内容的单词分类为候选关键字。这基本上是通过以下一些步骤来完成的,首先,文档文本被特定的单词分隔符分割成一个单词数组,其次,该数组再次被分割成一个在短语分隔符和停用单词位置的连续单词序列。最后,位于相同序列中的单词被分配到文本中的相同位置,并一起被视为候选关键字。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
stopwordpattern = rake.build_stop_word_regex(filepath)
phraseList = rake.generate_candidate_keywords(sentenceList, stopwordpattern)

关键词得分

从文本数据中识别出所有候选关键字后,将生成单词共现图,该图计算每个候选关键字的分数,并定义为成员单词分数。借助该图,我们根据图中顶点的程度和频率评估了计算单词分数的几个指标。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
keywordcandidates = rake.generate_candidate_keyword_scores(phraseList, wordscores)

提取关键词

计算候选关键字得分后,将从文档中选择前T个候选关键字。T值是图中字数的三分之一。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
totalKeywords = len(sortedKeywords)
for keyword in sortedKeywords[0:(totalKeywords / 3)]: 
      print “Keyword:, keyword[0],, score:, keyword[1]

另一个库

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
# pip install multi_rake
from multi_rake import Rake
rake = Rake()
keywords = rake.apply(full_text)
print(keywords[:10])

TextRank

TextRank 是一种用于提取关键字和句子的无监督方法。它一个基于图的排序算法。其中每个节点都是一个单词,边表示单词之间的关系,这些关系是通过定义单词在预定大小的移动窗口内的共现而形成的。

该算法的灵感来自于 Google 用来对网站进行排名的 PageRank。它首先使用词性 (PoS) 对文本进行标记和注释。它只考虑单个单词。没有使用 n-gram,多词是后期重构的。

TextRank算法是利用局部词汇之间关系(共现窗口)对后续关键词进行排序,直接从文本本身抽取。其主要步骤如下:

  1. 把给定的文本T按照完整句子进行分割,即T=[S1,S2,...,Sm]
  2. 对于每个句子,进行分词和词性标注处理,并过滤掉停用词,只保留指定词性的单词,如名词、动词、形容词,即 si=[ti,1,ti,2,,ti,m] ,其中是保留后的候选关键词。
  3. 构建候选关键词图 G=(V,E) ,其中V为节点集,由(2)生成的候选关键词组成,然后采用共现关系co-occurrence构造任两点之间的边,两个节点之间存在边仅当它们对应的词汇在长度为K的窗口中共现,K表示窗口大小,即最多共现K个单词。
  4. 根据上面公式,迭代传播各节点的权重,直至收敛。
  5. 对节点权重进行倒序排序,从而得到最重要的T个单词,作为候选关键词。
  6. 由(5)得到最重要的T个单词,在原始文本中进行标记,若形成相邻词组,则组合成多词关键词。例如,文本中有句子“Matlab code for plotting ambiguity function”,如果“Matlab”和“code”均属于候选关键词,则组合成“Matlab code”加入关键词序列。

安装及使用

要使用Textrank生成关键字,必须首先安装 summa 包,然后必须导入模块 keywords

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
pip install summa 
from summa import keywords

之后,只需调用 keywords 函数并将要处理的文本传递给它。我们还将 scores 设置为 True 以打印出每个结果关键字的相关性。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
TR_keywords = keywords.keywords(full_text, scores=True) 
print(TR_keywords[0:10])

KeyBERT

KeyBERT[4]是一种简单易用的关键字提取算法,它利用 SBERT 嵌入从文档中生成与文档更相似的关键字和关键短语。首先,使用 sentences-BERT 模型生成文档embedding。然后为 N-gram 短语提取词的embedding。然后使用余弦相似度测量每个关键短语与文档的相似度。最后将最相似的词识别为最能描述整个文档并被视为关键字的词。

安装和使用

要使用 keybert 生成关键字,必须先安装 keybert 包,然后才能导入模块 keyBERT。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
pip install keybert
from keybert import KeyBERT

然后创建一个接受一个参数的 keyBERT 实例,即 Sentences-Bert 模型。可以从以下来源[5]中选择想要的任何embedding模型。根据作者的说法,all-mpnet-base-v2模型是最好的。

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
kw_model = KeyBERT(model='all-mpnet-base-v2')
代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
它将像这样开始下载:

下载 BERT 预训练模型

代码语言:javascript
代码运行次数:0
运行
AI代码解释
复制
keywords = kw_model.extract_keywords(full_text, 
                                     keyphrase_ngram_range=(1, 3), 
                                     stop_words='english', 
                                     highlight=False, 
                                     top_n=10) 

keywords_list= list(dict(keywords).keys()) 
print(keywords_list)

考虑到大多数关键短语的长度在 1 到 2 之间,可以将 keyphrase_ngram_range 更改为 (1,2)。这次我们将 highlight 设置为 true。

写在最后

到这里我们已经一起学习了在提取关键字/关键短语领域使用的四种最棒的技术,并提供了简单代码实现。这四种方法各有千秋。并且每个都成功地提取了与作者指定的关键字相同或接近并与该领域相关的关键字。

若你有学到一点什么,记得 点赞 收藏 加关注 哦!

参考资料

[1]

文章: https://www.researchgate.net/publication/353592446_TEXT_VECTORIZATION_USING_DATA_MINING_METHODS

[2]

论文: https://www.sciencedirect.com/science/article/abs/pii/S0020025519308588

[3]

yake包: https://github.com/LIAAD/yake

[4]

KeyBERT: https://github.com/MaartenGr/KeyBERT

[5]

pretrained_models: https://www.sbert.net/docs/pretrained_models.html

[6]

https://links.jianshu.com/go?to=https%3A%2F%2Fmedium.datadriveninvestor.com%2Frake-rapid-automatic-keyword-extraction-algorithm-f4ec17b2886c

[7]

https://blog.csdn.net/chinwuforwork/article/details/77993277

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-04-14,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 数据STUDIO 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
MySQL和Oracle对比之存储过程(r5笔记第7天)
昨天晚上帮一个朋友处理了一个关于存储过程的问题,他需要迁移一些Oracle中的存储过程到MySQL中来,但是改了一部分的程序,发现MySQL中没法编译了,报了很多的错误。 这个问题也比较典型,自己就趁热打铁总结了一下。 因为隐私的关系还有代码长度的关系,我就不罗列代码了。 假设Oracle中的存储过程如下,我们需要改写为MySQL代码: set serveroutput on CREATE or replace PROCEDURE test_proc( in_value IN varchar2) as
jeanron100
2018/03/15
7620
Oracle PL/SQL入门语法点
PL_SQL:带有分支和循环,面向过程 匿名块: declare(可选,声明各种变量和游标的地方) begin(必要的,从此开始执行) exception(抓取到异常后执行的) end; [sql] view plaincopy set serveroutput on;(默认是关闭) --最简单的PL/SQL语句块 begin dbms_output.put_line('HelloWorld!'); end; --最简单的语句块 declare v_name varchar2(20); be
java干货
2021/02/19
4900
Oracle带输入输出参数存储过程(包括sql分页功能)
记录一下Oracle带输入输出参数存储过程(包括sql分页功能),免得以后忘记了又要到处去找。
星哥玩云
2022/08/17
7920
一个关于Definer和Invoker的权限问题
1. 用户user1定义的存储过程,即使用sys用户执行,需要参考user1权限?
bisal
2019/01/29
9080
【DB笔试面试466】存储过程或函数如何返回集合类型?
TABLE()函数可接受查询语句或游标作为输入参数,并可输出多行数据,称为表函数。所以,存储过程或函数返回集合类型主要采用的是表函数和PIPELINED函数(管道化表函数)及数组结合的方式。当然,也可以采用存储过程返回系统游标SYS_REFCURSOR或自定义游标的方式。
AiDBA宝典
2019/09/30
1.3K0
ORA-31623: a job is not attached to this session via the specified handle
    在使用Oracel Datapump API时碰到ORA-31623(a job is not attached to this session via the specified handle)错误,从故障描述来 看提示 job并没有成功附加到当前session指定的handle。该package的导入导出一直正常运行究竟是什么原因导致的呢?我们拭目以待......
Leshami
2018/08/14
9420
使用DBMS_SHARED_POOL包将对象固定到共享池
--******************************************
Leshami
2018/08/14
1.1K0
oracle存储过程语法与使用
行1: CREATE OR REPLACE PROCEDURE 是一个SQL语句通知Oracle数据库去创建一个叫做skeleton存储过程, 如果存在就覆盖它; 行2:   IS关键词表明后面将跟随一个PL/SQL体。 行3:   BEGIN关键词表明PL/SQL体的开始。 行4:   NULL PL/SQL语句表明什么事都不做,这句不能删去,因为PL/SQL体中至少需要有一句; 行5:   END关键词表明PL/SQL体的结束 2.SELECT INTO STATEMENT 将select查询的结果存入到变量中,可以同时将多个列存储多个变量中,必须有一条 记录,否则抛出异常(如果没有记录抛出NO_DATA_FOUND) 例子: BEGIN SELECT col1,col2 into 变量1,变量2 FROM typestruct where xxx; EXCEPTION WHEN NO_DATA_FOUND THEN xxxx; END; …
全栈程序员站长
2022/09/13
9310
Oracle PL/SQL中异常高级特性
  在OraclePL/SQL语句块中exception的异常处理部分是非常重要的组成部分,它决定了在PL/SQL语句块内部可执行部分在发生异常错误时,程序是友好地提示:程序遇到某些错误而无法执行,还是抛出一堆难以理解的Oracle内部错误码。
星哥玩云
2022/08/17
6970
Java程序员的日常——存储过程知识普及
存储过程是保存可以接受或返回用户提供参数的SQL语句集合。在日常的使用中,经常会遇到复杂的业务逻辑和对数据库的操作,使用存储过程可以进行封装。可以在数据库中定义子程序,然后把子程序存储在数据库服务器,之后通过名称调用。 特点 1 提高性能 存储过程是预先编译过,进行优化后,存储在SQL的内存中,使用的时候不需要重新编译,提高工作效率。 2 减少网络流量 存储过程的代码直接存储在数据库中,用户通过名称进行调用,减小网络流量,加快执行速度。如:百万以上的数据查询,存储过程分页要比其他方式的分页快得多 3
用户1154259
2018/01/17
1.6K0
day44_Oracle学习笔记_03
先去Oracle官网去下载最新版本的sqldeveloper,下载地址:https://www.oracle.com/technetwork/developer-tools/sql-developer/downloads/index.html 得到2个zip压缩包,如下图所示:
黑泽君
2018/10/11
1.8K0
day44_Oracle学习笔记_03
Oracle存储过程基本语法介绍
Oracle存储过程基本语法 存储过程    1 CREATE OR REPLACE PROCEDURE 存储过程名    2 IS    3 BEGIN    4 NULL;    5 END;  行1:    CREATE OR REPLACE PROCEDURE 是一个SQL语句通知Oracle数据库去创建一个叫做skeleton存储过程, 如果存在就覆盖它;  行2:    IS关键词表明后面将跟随一个PL/SQL体。  行3:    BEGIN关键词表明PL/SQL体的开
用户1220053
2018/02/09
3.8K0
oracle存储过程相关整理
存储过程是 SQL, PL/SQL, Java 语句的组合, 它使你能将执行商业规则的代码从你的应用程序中移动到数据库。这样的结果就是,代码存储一次但是能够被多个程序使用。是存放在数据库服务器上的SQL语句块,其效率高于同等SQL语句6-10倍
全栈程序员站长
2022/09/07
8420
oracle存储过程相关整理
PL/SQL 编程(二)游标、存储过程、函数
游标--数据的缓存区 游标:类似集合,可以让用户像操作数组一样操作查询出来的数据集,实质上,它提供了一种从集合性质的结果中提取单条记录的手段。 可以将游标形象的看成一个变动的光标,他实质上是一个指针,在一段Oracle存放数据查询结果集或者数据操作结果集的内存中,这个指针可以指向结果集任何一条记录。 游标分静态游标和REF游标两类,静态游标包含显式游标和隐式游标。 显式游标: 在使用之前必须有明确的游标声明和定义,这样的游标定义会关联数据查询语句,通常会返回一行或多行。打开游标后,用户可以利用游标的位置对结
二十三年蝉
2018/02/28
3.8K0
Oracle存储过程(while循环、for循环、if判断、sql拼接、游标)
用户10358987
2024/04/23
7420
Oracle存储过程(while循环、for循环、if判断、sql拼接、游标)
DM达梦数据库存储过程
存储过程是数据库中一种重要的编程组件,它允许开发者编写可重复使用的SQL代码块,从而提高应用程序的性能和安全性。达梦数据库提供了强大且灵活的存储过程支持,使得开发者能够以更高效的方式管理和操作数据库资源。本文将深入探讨达梦数据库存储过程的结构、参数传递机制、变量声明与使用、异常处理策略,以及如何创建和调用存储过程,旨在为读者提供全面的理解和实战指导。
用户11147438
2024/07/02
1.1K0
PL/SQL --> 存储过程
存储过程子程序的一种类型,能够完成一些任务,作为schema对象存储于数据库。是一个有名字的PL/SQL代码块,支持接收或不接受参数
Leshami
2018/08/07
1.4K0
PL/SQL学习笔记_03_存储函数与存储过程
ORACLE 提供可以把 PL/SQL 程序存储在数据库中,并可以在任何地方来运行它。这样就叫存储过程或函数。
shirayner
2018/08/10
3940
存储过程常见语法
1、存储过程Procedure是一组为了完成特定功能的SQL语句集合,经编译后存储在数据库中,用户通过指定存储过程的名称并给出参数来执行
全栈程序员站长
2022/09/13
1.6K0
存储过程常见语法
Oracle 存储过程包(Package、Package Body)
在Oracle中使用存储过程可以声明单个存储过程,也可以使用包的方式一个存储过程包(PACKAGE)包含许多存储过程。
陈树义
2022/04/29
2.3K0
推荐阅读
相关推荐
MySQL和Oracle对比之存储过程(r5笔记第7天)
更多 >
LV.1
这个人很懒,什么都没有留下~
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
查看详情【社区公告】 技术创作特训营有奖征文