Python数据分析之基情的择天记

專 欄

罗罗攀,Python中文社区专栏作者

专栏地址:

http://www.jianshu.com/u/9104ebf5e177

人一生都可能无法逆天改命,但你却是要去奋斗一把。本文章主要通过最简单的共线性关系,利用gephi工具绘制择天记的人物关系图。 准备工作

在网上下载《择天记》小说以及创建小说人物的txt。

jieba库 需要下载gephi软件 注意:安装路径不能有中文字;需要安装java环境,不然无法使用gephi。

定义数据结构

names用于存入小说人物和出场次数;relationships保存人物关系的有向边,该字典的键为有向边的起点,值为一个字典edge,edge的键是有向边的终点,值是有向边的权值,代表两个人物之间联系的紧密程度;linenames存入每行小说出现的人物;all_names是小说所有人物。 添加人名到jieba词库中

jieba库分词可能并不能把小说的人物都切开,我们需要把这些人名添加到词库中,以便成功分词。

统计出场人数

通过图可以看出,陈长生作为主角,出场最多,而他的好基友是排第二的,而他的女票徐有容却是排到第五,这与一些玄幻小说不一样,注定了这是一部基情的小说。

人物关系及写入文件

绘制人物关系图

最后利用gephi绘制人物关系图。

原文发布于微信公众号 - Python中文社区(python-china)

原文发表时间:2017-07-29

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏CDA数据分析师

数据整理中经典的分类汇总问题的Python实现

? 数据分析职场新人,精通一门语言至关重要。写个web服务,可以用python、 写个服务器脚本,可以用python、 数据清洗和网络爬虫,可以用python...

24610
来自专栏程序员八阿哥

你是如何自学 Python 的?

我是自学的Python。从对Python一无所知,到在博客上写Python相关的系列文章(Python快速教程),前后有将近三年的时间。期间有不少门槛,但也充满...

1661
来自专栏数据结构与算法

1018. 打电话

1018. 打电话 (Standard IO) 时间限制: 1000 ms  空间限制: 262144 KB  具体限制  题目描述 某市的IC卡电话计费标准...

3739
来自专栏非著名程序员

优秀程序员眼中的整洁代码

有多少程序员,就有多少定义。所以我只询问了一些非常知名且经验丰富的程序员。 ? Bjarne Stroustrup,C++ 语言发明者,C++ Programm...

2177
来自专栏牛客网

滴滴面试

3925
来自专栏阮一峰的网络日志

代码的抽象三原则

软件开发是"抽象化"原则(Abstraction)的一种体现。 所谓"抽象化",就是指从具体问题中,提取出具有共性的模式,再使用通用的解决方法加以处理。 ? 开...

3914
来自专栏我是攻城师

Lucene暴走之巧用内存倒排索引高效识别垃圾数据

29910
来自专栏CDA数据分析师

工具 | R、Python、Scala 和 Java,到底该使用哪一种大数据编程语言?

有一个大数据项目,你知道问题领域(problem domain),也知道使用什么基础设施,甚至可能已决定使用哪种框架来处理所有这些数据,但是有一个决定迟迟未能做...

2708
来自专栏数据科学与人工智能

【数据挖掘】图数据挖掘

互联网发展至今,数据规模越来越大,数据结构越来越复杂,而且对系统的需求越来越高。如果学习过数据结构,那么都知道图是放在最后一个结构,当你学习了图,那么应该感知到...

3198
来自专栏小樱的经验随笔

CTF---安全杂项入门第一题 丘比龙的最爱

丘比龙的最爱分值:10 来源: 2014HCTF 难度:易 参与人数:4498人 Get Flag:1366人 答题人数:1384人 解题通过率:99% 传说,...

3117

扫码关注云+社区

领取腾讯云代金券