首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Python文本挖掘:基于共现提取《釜山行》人物关系

《釜山行》是一部丧尸灾难片,其人物少、关系简单,非常适合我们学习文本处理。...这个项目将介绍共现在关系提取,使用python编写代码实现对《釜山行》文本的人物关系提取,最终利用Gephi软件对提取的人物关系绘制人物关系图。实体间的共现是一种基于统计的信息提取。...关系紧密的人物往往会在文本多段内同时出现,可以通过识别文本已确定的实体(人名),计算不同实体共同出现的次数和比率。当比率大于某一阈值,我们认为两个实体间存在某种联系。...glb.clouddn.com/Train%20to%20Busan.txt 字典 http://labfile.oss.aliyuncs.com/courses/677/dict.txt gephi Python2...提取该行中出现的人物集存入lineNames。之后对出现的人物,更新他们在names的出现次数。

2.6K70
您找到你想要的搜索结果了吗?
是的
没有找到

基于 Python 的自动文本提取:抽象法和生成法的比较

它描述了我们(一个RaRe 孵化计划由三名学生组成的团队)是如何在该领域中对现有算法和Python工具进行了实验。...提取文本摘要 首先,简单描述当前已经存在的一些流行的文本摘要算法和实现: Gensim文本摘要 gensim.summarization模块实现了TextRank,这是一种Mihalcea等人的论文中基于加权图的无监督算法...PyTeaser PyTeaser是Scala项目TextTeaser的Python实现,它是一种用于提取文本摘要的启发式方法。 TextTeaser将分数与每个句子相关联。...PyTextRank PyTextRank是原始TextRank算法的python实现,具有一些增强功能,例如使用词形结构而不是词干,结合词性标注和命名实体解析,从文章中提取关键短语并基于它们提取摘要句子...数据集 使用51篇文章的Opinosis数据集(Opinosis指一种基于图形的方法,针对高度冗余的意见进行抽象总结)进行比较。 每篇文章都是与产品的功能相关,iPod的电池寿命等。

1.9K20

何在 Python 搜索和替换文件文本

在本文中,我将给大家演示如何在 python 中使用四种方法替换文件文本。 方法一:不使用任何外部模块搜索和替换文本 让我们看看如何在文本文件搜索和替换文本。...首先,我们创建一个文本文件,我们要在其中搜索和替换文本。将此文件设为 Haiyong.txt,内容如下: 要替换文件文本,我们将使用 open() 函数以只读方式打开文件。...然后我们将 t=read 并使用 read() 和 replace() 函数替换文本文件的内容。...语法:路径(文件) 参数: file:要打开的文件的位置 在下面的代码,我们将文本文件的“获取更多学习资料”替换为“找群主领取一本实体书”。使用 pathlib2 模块。...# 返回“文本已替换”字符串 return "文本已替换" # 创建一个变量并存储我们要搜索的文本 search_text = "Python" # 创建一个变量并存储我们要更新的文本 replace_text

15.3K42

Python如何提取文本的所有数字,原来这问题这么难

前言 你可能会遇到过各种文本处理,从文本其他所有数值,初看起来没有啥特别难度。 但是,数据经常让你"喜出望外"。...今天我们使用各种方式从文本提取有效的数值: 普通方式 正则表达式 ---- Python内置方法 为了方便对比各种实现方式,我们把待验证的文本与正确结果写入 excel 表格: 为了简化调用,我封装了一系列流程...所以就是匹配多个连续数字 但是,效果上与上一个方式一样 我们注意到测试表,有些内容数值前有正负号,还有科学计数法 ·不妨在数字前面加上可能出现的正负号: 为了让正则表达式更容易看,我喜欢分开定义每个区域...整个的意思是 "加号或减号可能没有,也可能有一个" 没有多大改进,只是多通过了一行 看了第二行大概就能知道,我们没有考虑小数: 行4:因为正则表达式的 "."...本文源码请发送 "python 正则" 获取 ---- 你学会了没有? 记得点赞,转发!谢谢支持! 推荐阅读: pandas输出的表格竟然可以动起来?教你华而不实的python

4.6K30

Python实用秘技15」pandas基于范围条件进行表连接

作为系列第15期,我们即将学习的是:在pandas基于范围条件进行表连接。   ...表连接是我们日常开展数据分析过程很常见的操作,在pandas基于join()、merge()等方法,可以根据左右表连接依赖字段之间对应值是否相等,来实现常规的表连接。   ...但在有些情况下,我们可能需要基于一些“特殊”的条件匹配,来完成左右表之间的表连接操作,譬如对于下面的示例数据框demo_left和demo_right:   假如我们需要基于demo_left的left_id...进行连接,再在初步连接的结果表基于left_id或right_id进行分组筛选运算,过滤掉时间差大于7天的记录:   而除了上面的方式以外,我们还可以基于之前的文章给大家介绍过的pandas的功能拓展库...pyjanitor条件连接方法,直接基于范围比较进行连接,且该方式还支持numba加速运算:

20310

pythonpython指南(三):使用正则表达式re提取文本的http链接

至于python,从日常用hive做数据策略用python写udf,到基于tensorflow深度学习框架写python版的模型网络,再到现在实用pytorch做大模型。...眼看着在语言纷争python的应用越来越广,开一个单独的专栏用于记录python中常用到的技巧,算是做笔记,没事翻出来看看。...本文重点介绍如何使用python正则表达式re提取一段内容的链接。...二、参数解析器(ArgumentParser) 2.1 概述 我们日常处理的文本,有很多内容和链接混合在一起的情况,有时需要我们提取链接,获取链接内的内容,有时希望把链接去掉,今天看一段分离内容和链接的代码...三、总结 本文以一个简单的python脚本演示如何通过正则表达式re库分离内容文本和链接,希望可以帮助到您。

6710

文本分析----基于python的TF-IDF特征词标签自动化提取

绪论 最近做课题,需要分析短文本的标签,在短时间内学习了自然语言处理,社会标签推荐等非常时髦的技术。我们的需求非常类似于从大量短文本获取关键词(融合社会标签和时间属性)进行用户画像。...这一切的基础就是特征词提取技术了,本文主要围绕关键词提取这个主题进行介绍(英文)。...插播一个广告,想修改pycharmpython注释的颜色找了半天居然得这么搞: ?...当大家搜索如何在系统混合使用python2和python3,国内网站经常会让大家把其中一个python.exe改个名字,这样区分开两个可执行文件的名字,但是这样做有一个重大的隐患,就是修改了名字的那个...TF-IDF原理概述 如何衡量一个特征词在文本的代表性呢?以往就是通过词出现的频率,简单统计一下,从高到低,结果发现了一堆的地得,和英文的介词in of with等等,于是TF-IDF应运而生。

2.3K20

Python实现jieba对文本分词并写入新的文本文件,然后提取文本的关键词

本文链接:https://blog.csdn.net/github_39655029/article/details/90346045 Python实现jieba对文本分词并写入新的文本文件,然后提取文本的关键词...思想 先对文本进行读写操作,利用jieba分词对待分词的文本进行分词,然后将分开的词之间用空格隔断;然后调用extract_tags()函数提取文本关键词; 代码 #!.../usr/bin/env python # -*- coding: utf-8 -*- # @Time : 2019/5/19 19:10 # @Author : cunyu # @Site...# 提取关键词 with open(targetTxt, 'r', encoding = 'utf-8') as file: text = file.readlines() """...几个参数解释: * text : 待提取的字符串类型文本 * topK : 返回TF-IDF权重最大的关键词的个数,默认为20个 * withWeight

4.9K21

Python使用标准库zipfile+re提取docx文档超链接文本和链接地址

例如,使用WPS创建的文档如果包含超链接,可以使用“Python提取Word文档中所有超链接地址和文本”一文中介绍的技术和代码提取,但是同样的代码对于Office Word创建的docx文档无效。...本文使用Python配合正则表达式来提取docx文档的超链接文本和链接地址。 技术原理: 假设有文件“带超链接的文档(Word版).docx”,内容如下, ?...双击文件document.xml,内容如下,方框内和箭头处是需要提取的内容,其中箭头处为资源ID, ? 进入_rels文件夹,有如下文件, ?...双击打开文件“document.xml.rels,内容如下,红线处类似的地方是需要提取的信息, ? 参考代码: ? 运行结果: ?

1.7K20

70个NumPy练习:在Python下一举搞定机器学习矩阵运算

答案: 4.如何从1维数组中提取满足给定条件的元素? 难度:1 问题:从arr数组中提取所有奇数元素。 输入: 输出: 答案: 5.在numpy数组,如何用另一个值替换满足条件的元素?...难度:1 问题:将python numpy数组a打印的元素数量限制为最多6个。 输入: 输出: 答案: 24.如何在不截断的情况下打印完整的numpy数组?...输入: 输出: 答案: 25.如何在python numpy中导入含有数字和文本的数据集,并保持的文本完整性? 难度:2 问题:导入iris数据集并保持文本不变。...答案: 由于我们想保留物种,一个文本字段,我已经把dtype设置为object。设置dtype = None,则会返回一维元组数组。 26.如何从一维元组数组中提取特定的列?...难度:2 问题:从上一个问题中导入的一维iris数组中提取species文本列。 输入: 答案: 27.如何将一维元组数组转换为二维numpy数组?

20.6K42

【干货】主题模型如何帮助法律部门提取PDF摘要及可视化(附代码)

文章,作者分析了律师在浏览大量的法律文件的时候可以通过文档摘要进行快速了解。基于此需求,作者提出一系列步骤:将从PDF文档中提取文本、清洗文本、对文本进行主题建模、主题摘要及可视化。...这种方法包括:从文档的pdf副本中提取文本,清洗提取文本,对文档的主题进行建模并对摘要进行可视化。 请注意,这里采用的方法可以扩展到任何以pdf格式的文档。...▌从PDF文档中提取文本 ---- ---- 双方之间的法律协议是作为pdf文件提供的(也就是我们必须首先从PDF文档中提取文本)。 首先使用下面的函数提取pdf文档文本。...该函数简单地取得主目录pdf文档的名称,从中提取所有字符,并将提取文本作为python字符串列表输出。 ? 上图显示从pdf文档中提取文本的函数。...CountVectorizer显示停用词被删除后单词出现在列表的次数。 ? 上图显示了CountVectorizer是如何在文档上使用的。

2.9K70

NumPy能力大评估:这里有70道测试题

如何从 1 维数组中提取满足给定条件的项? 难度:L1 问题:从 arr 中提取所有奇数。...如何在 Python NumPy 数组仅输出小数点后三位的数字? 难度:L1 问题:输出或显示 NumPy 数组 rand_arr 中小数点后三位的数字。...如何向 Python NumPy 导入包含数字和文本的数据集,同时保持文本不变? 难度:L2 问题:导入 iris 数据集,保持文本不变。 26. 如何从 1 维元组数组中提取特定的列?...难度:L2 问题:从前一个问题导入的 1 维 iris 中提取文本列 species。...如何基于两个或以上条件过滤 NumPy 数组? 难度:L3 问题:过滤 iris_2d 满足 petallength(第三列)> 1.5 和 sepallength(第一列)< 5.0 的行。

5.7K10
领券