前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
社区首页 >专栏 >2017,那些出现在日记中的人:简单的文本挖掘

2017,那些出现在日记中的人:简单的文本挖掘

作者头像
古柳_DesertsX
发布于 2018-08-21 06:52:25
发布于 2018-08-21 06:52:25
4210
举报
文章被收录于专栏:Data Analysis & VizData Analysis & Viz

一、前言

终于做出这张图时,我突然有点感慨,这就是2017年我的日记中提到过或记录过的一个个人名,当然为避免引起不必要的麻烦,隐去了许多亲人朋友的名字。想到一辈子说长也长,说短的话,几十张词云图也就概括了那些人与事。曾经朝夕相处、相识相知的人,或许早已渐行渐远了,二三老友谈起故人往事才发现死活想不起某某同学姓甚名谁,遗忘总是发生在不知不觉间,有时候连自己都不知道究竟忘记了什么。

童年、少年、青年时期的人与事,忘却了总是难免,然而眼下的一载春秋里又何尝不是“事如春梦了无痕”呢?2018年已经过去了一周,很多人该总结、该回顾2017年的想来也都总结回顾了,没有总结习惯的就继续过自己新的一年。往常也没有写年末小结的我,或许是听许飞《父亲写的散文诗》听得“热泪盈眶”,“这是我父亲 / 日记里的文字 / 这是他的生命 留下 / 留下来的散文诗”,这几句歌词让我想到多年之后要是我的孩子去了解我的过去,虽然没有什么散文诗可言,但也希望借着回顾之际能总结和留下点什么......

胡言乱语了许多,其实打算研究日记里出现的人名,也是因为想学习和应用一些文本分析和挖掘的方法,根据看过的文章来实践操作下,而日记是现成的语料库,也是最熟悉不过的文本,因此有了这样一篇文章。

二、提取人名

首先为了获取文本中出现的人名,根据这篇文章《从天龙八部小说衍生出的google语义分析与gephi社交网络》里提供的思路,用jieba中文分词Python库尝试从日记文本中提取出TF/IDF权重最大的、TOP5000名词。

由输出结果可知,在庄子、贾宝玉、王小波等人名准确提取出来的同时,夹杂着许多其他事物的名词,需要剔除。由于还不知道有什么便捷高效的方法可以实现提取人名,本次先根据文本中人名出现的次数,划定一个下限,再手动筛选出符合要求的姓名,接着将TF/IDF权重同时增大100或1000倍,以便用HTML5 Word Cloud实现漂亮的词云图。

上图便是我的日记里最具代表性的人物画像了。有大师大家鲁迅、叶嘉莹等,有知乎用户张佳玮、路人甲,有喜欢的歌手山口百惠、安溥,有AI大佬吴恩达、李飞飞,也有一些热门综艺、热点事件里的人物等等。每个人因其不同的缘故而被记录,并得以拼凑出这一年度印记。

三、提取人物关系

除了从文本中提取人名,本次还基于共现提取出日记中人物的网络关系,并运用gephi进行可视化。

引用一段对共现网络基本原理的介绍:“实体间的共现是一种基于统计的信息提取。关系紧密的人物往往会在文本中多段内同时出现,可以通过识别文本中已确定的实体(人名),计算不同实体共同出现的次数和比率。当比率大于某一阈值,我们认为两个实体间存在某种联系。”

实现的代码可参考提取《釜山行》人物关系的代码,可根据自己的需求进行更改。

运用到自己的文本上,并生成后续用于gephi可视化的“节点”和“边”文件,同样需要剔除非人名的数据。节点格式如下:

边格式如下:

将数据导入gephi软件中:

调整节点的大小和颜色,并运行布局算法:

加上标签,比词云图能看到更多人物的姓名:

一顿瞎操作,聚焦到文本中人物关系比较接近与频繁的部分,主要的节点有鲁迅、叶嘉莹、黛玉等等:

整个网络中最重要的一条脉络如下图所示:

在大部分较常规的联系之中,存在着“贺龙”与“贺知章”这一蛮奇特的关联,思索了几秒后,才想起曾有人询问取名、赐名的一桩旧事,倒也有趣,不过说来至今不知道贺姓名人还有哪些,大看到的小伙伴可以说说,并试着为贺姓小男孩取个你觉得不错的名字呗?

人物关系网络的背后是2017年一点一滴的记忆,有许多不足为外人道尔却自得其乐的地方,有许多自己都记不得却借此想起的人和事。

我是个记性很差的人,平日里就记不得几天前乃至昨天的许多事,日记也写了两三年,每每回过头看当初的人与事,就倍感庆幸曾经的勤奋下笔,而遇上空白的时期,或一笔带过的岁月,也会很惘然,仿佛人生被抽离了一部分,只剩下白茫茫的一片。借用沈复在《浮生六记》开篇的话:“东坡云:‘事如春梦了无痕’,苟不记之笔墨,未免有辜彼苍之厚。”我虽没有得天独厚的一些大事可记述,但那种“事如春梦了无痕”的遗憾和惘然却感同身受。

本文虽然只是简单的文本挖掘,没有深入的研究,但对自己来说,还是蛮新颖的探索过程,也借此粗浅的回顾下自己2017的一些人与事,最后再留个谜语,按下图打一个综艺节目吧,欢迎评论猜谜。

四、相关阅读

jieba中文分词库-github网址

从天龙八部小说衍生出的google语义分析与gephi社交网络

Text Cooccurrence Example(文本共现网络提取示例)

Python基于共现提取《釜山行》人物关系

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2018.01.08 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
暂无评论
推荐阅读
编辑精选文章
换一批
2万字用Python探索金庸小说世界
本文从传统匹配逻辑分析过渡到机器学习的词向量,全方位进行文本分析,值得学习,干货满满。
可以叫我才哥
2022/11/11
7180
2万字用Python探索金庸小说世界
用文本挖掘剖析近5万首《全唐诗》-- 一文学会NLP数种基础任务
原文链接:https://zhuanlan.zhihu.com/p/52155493
zenRRan
2019/11/20
3K0
用文本挖掘剖析近5万首《全唐诗》-- 一文学会NLP数种基础任务
Python文本挖掘:知乎网友如何评价《人民的名义》
文本分析使用愈来愈广泛,包括对新闻、电视剧、书籍、评论等等方面的文本挖掘并进行分析,可以深入找到表面文字看不到的细节。 介于《人民的名义》这部剧这么火,本人以此为基础,通过对知乎上网友提出的问题进行爬取,并搜集到每一问题的关注、浏览数,进行分析。在未登录的情况下,找到知乎——《人民的名义》主题网页下的等待回答——全部问题(见下图),时间截止到2017年4月15日,地址为:https://www.zhihu.com/topic/20047590/questions 。 (在登录状态下,可以显示更多信息,但
机器学习AI算法工程
2018/03/14
1.1K0
Python文本挖掘:知乎网友如何评价《人民的名义》
看我如何用Python来分析《斗破苍穹》
近期根据小说《斗破苍穹》改编的同名电视剧正在热映,本文对《斗破苍穹》进行文本分析,分为两部分,首先爬取豆瓣影评进行简单分析,随后对于原创小说文本中的人物进行详细分析,文章代码和数据在后台回复"斗破苍穹"可得。
sergiojune
2018/12/05
9460
用python分析《三国演义》中的社交网络
一直以来对自然语言处理和社交网络分析都很感兴趣,前者能帮助我们从文本中获得很多发现,而后者能够让我们对人们和各个事物之间普遍存在的网络般的联系有更多认识。当二者结合,又会有怎样的魔力呢?
blmoistawinde
2019/10/30
1.2K0
Python如何使用Pyecharts+TextRank生成词云图?
虫无涯
2023/11/17
3770
如何在Chatbot中应用深度学习? | 赠书
本书节选自图书《深度学习算法实践》 文末评论赠送本书,欢迎留言! 人类其实从很早以前就开始追求人类和机器之间的对话,早先科学家研发的机器在和人对话时都是采用规则性的回复,比如人提问后,计算机从数据库中找出相关的答案来回复。这种规则性的一对一匹配有很多限制。机器只知道问什么答什么,却不知道举一反三,比如你问它:“今天天气怎么样?”它会机械地把今天的天气告诉你。这不像人与人之间的对话,人是有各种反应的,这类反应的产生是基于人的知识结构和对话场景的。 那么,你觉得这类机器是否真的具有智能了?图灵测试是这样判断机器
用户1737318
2018/06/05
7040
[系统安全] 五十二.DataCon竞赛 (1)2020年Coremail钓鱼邮件识别及分类详解
最近真的太忙了,天天打仗一样,感谢大家的支持和关注,继续加油!该系列文章将系统整理和深入学习系统安全、逆向分析和恶意代码检测,文章会更加聚焦,更加系统,更加深入,也是作者的慢慢成长史。漫漫长征路,偏向虎山行。享受过程,一起奋斗~
Eastmount
2023/09/01
1.8K0
[系统安全] 五十二.DataCon竞赛 (1)2020年Coremail钓鱼邮件识别及分类详解
如何从0到1开始机器学习?
来源 | 腾讯织云(公众号ID:TencentCOC) 作者 | 张戎 导语:作为一个数学系出身,半路出家开始搞机器学习的人,在学习机器学习的过程中自然踩了无数的坑,也走过很多本不该走的弯路。于是很想总结一份如何入门机器学习的资料,也算是为后来人做一点点微小的贡献。 ▌前言 在 2016 年 3 月,随着 AlphaGo 打败了李世乭,人工智能开始大规模的进入人们的视野。不仅是互联网的工程师们很关注人工智能的发展,就连外面的吃瓜群众也开始关注人工智能对日常生活的影响。随着人脸识别能力的日益增强,个性化新闻
用户1737318
2018/06/05
1.3K1
Python文本挖掘:基于共现提取《釜山行》人物关系
《釜山行》是一部丧尸灾难片,其人物少、关系简单,非常适合我们学习文本处理。这个项目将介绍共现在关系中的提取,使用python编写代码实现对《釜山行》文本的人物关系提取,最终利用Gephi软件对提取的人物关系绘制人物关系图。实体间的共现是一种基于统计的信息提取。关系紧密的人物往往会在文本中多段内同时出现,可以通过识别文本中已确定的实体(人名),计算不同实体共同出现的次数和比率。当比率大于某一阈值,我们认为两个实体间存在某种联系。这种联系可以具体细化,但提取过程也更加复杂。因此在此课程只介绍最基础的共现网络。
机器学习AI算法工程
2018/03/15
2.7K0
Python文本挖掘:基于共现提取《釜山行》人物关系
【一文讲解深度学习】语言自然语言处理(NLP)第一篇
NLP(Nature Language Processing,自然语言处理)是计算机及人工智能领域的一个重要的子项目,它研究计算机如何处理、理解及应用人类语言。是人类在漫长的进化过程中形成的计算机语言复杂的符号等系统(类似C/Java的符号等系统)。以下是关于自然处理的常见定义:
苏州程序大白
2022/04/14
1.7K0
【一文讲解深度学习】语言自然语言处理(NLP)第一篇
互联网时代的社会语言学:基于SNS的文本数据挖掘
2014年上半年,我在人人网实习了一段时间,期间得到了很多宝贵的数据,并做了一些还算有意义的事情,在这里和大家一块儿分享。感谢人人网提供的数据与工作环境,感谢赵继承博士、詹卫东老师的支持和建议。在这项工作中,我得到了很多与众人交流的机会,特别感谢 OpenParty 、 TEDxBeijing 提供的平台。本文已发表在了《程序员》杂志,分上下两部分刊于 2012 年 7 月刊和 8 月刊,在此感谢卢鸫翔编辑的辛勤工作。由于众所周知的原因,《程序员》刊出的文章被和谐过(看到后面大家就自动地知道被和谐的内
机器学习AI算法工程
2018/03/09
1.3K0
互联网时代的社会语言学:基于SNS的文本数据挖掘
万字年中总结,共勉
但是在今年上半年我学到一个道理:时间并不是客观存在的物理单位,时间是基于空间的运动的,时间本质是运动。地球公转一圈是一年,自转一圈是一天,铯原子九十多亿次的固有微波振荡是一秒。
掘金安东尼
2022/09/22
4430
万字年中总结,共勉
三国演义的社交网络建模
作者介绍:blmoistawinde, 西南某高校学森一枚,喜欢有意思的数据挖掘分析。希望给世界带来些清新空气~
量化小白
2019/01/22
1.1K0
三国演义的社交网络建模
Python入门学习路线
Python技术路径中包含入门知识、Python基础、Web框架、基础项目、网络编程、数据与计算、综合项目七个模块。路径中的教程将带你逐步深入,学会如何使用 Python 实现一个博客,桌面词典,微信机器人或网络安全软件等。完成本路径的基础及项目练习,将具备独立的Python开发能力。
py3study
2020/01/20
1.2K0
弹幕挖掘在综艺节目热点分析中的应用初探
作者:黄耀鹏, 腾讯PCG数据分析工程师 |导语 视频弹幕作为视频内容延伸、以及用户喜好反馈的一部分,有着巨大的挖掘价值。本文旨在通过运用文本挖掘技术,从弹幕中挖掘综艺节目热点话题,助力平台精准把握用户消费偏好、提升节目运营效率。 声明:本文运营方案相关的思考为个人观点,不代表腾讯视频既有运营方案和平台价值取向。本文仅纯粹作为个人感兴趣的技术研究总结。抛砖引玉,期待感兴趣的同学一起交流探讨。 1. 业务场景思考 1.1 视频弹幕的本质 弹幕文化,首先兴起于ACG社区等小众群体。而随着B站等弹幕视频网站的
腾讯大讲堂
2020/12/02
1.6K0
利用TfidfVectorizer进行中文文本分类(数据集是复旦中文语料)
其中train存放的是训练集,answer存放的是测试集,具体看下train中的文件:
西西嘛呦
2020/10/10
1.1K0
利用TfidfVectorizer进行中文文本分类(数据集是复旦中文语料)
python停用词表整理_python停用词表
大家好,又见面了,我是你们的朋友全栈君。 stop_words:设置停用词表,这样的词我们就不会统计出来(多半是虚拟词,冠词等等),需要列表结构,所以代码中定义了一个函数来处理停用词表…前言前文给
全栈程序员站长
2022/07/02
2.2K0
python停用词表整理_python停用词表
基于Spark的大数据精准营销中搜狗搜索引擎的用户画像挖掘
转载请注明:转载 from http://blog.csdn.net/u011239443/article/details/53735609 from CCF举办的“大数据精准营销中搜狗用户画像
小爷毛毛_卓寿杰
2018/04/18
3.2K0
基于Spark的大数据精准营销中搜狗搜索引擎的用户画像挖掘
超级干货 :一文读懂社交网络分析
社交网络在维基百科的定义是“由许多节点构成的一种社会结构。节点通常是指个人或组织,而社交网络代表着各种社会关系。”在互联网诞生前,社交网络分析是社会学和人类学重要的研究分支。早期的社交网络的主要指通过合作关系建立起来的职业网络,如科研合作网络、演员合作网络等。
IT阅读排行榜
2018/08/17
3.4K0
超级干货 :一文读懂社交网络分析
推荐阅读
相关推荐
2万字用Python探索金庸小说世界
更多 >
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
查看详情【社区公告】 技术创作特训营有奖征文