.tagul-attribution { display: none; } .block { padding-bottom: 0 !important; }
由于某个公众号对我仓库chinese-poetry的推广, 短时间大量涨粉, 有人想要宋词的数据。 于是最近利用零散时间对全宋词进行爬取分析, 并做了简单的分析, 发现了一些不得了的事情。
分析仅仅对全宋词的内容进行了关键字排名分析、 宋词作者产量分析、 最受欢迎的词牌名排名分析
宋人喜欢用东风, 东风作为现代也会微妙, 人间、何处从唐诗就开始蝉联前三. 即使到了现代, 这两个词依存古风.
辛弃疾果不其然的成为两宋现存词最多的作家, 还有一些虽然产量丰富但未必是我们熟知的。
浣溪沙作为婉约 豪放两派所常用的词牌, 在两宋时期作为最受欢迎也是理所应当.
爬取逻辑没有做相应的系统化处理, 只是简单的脚本, 配置交互式界面做的操作。采用的相关技术: Python + parsel + peewee + requests + jieba
附上爬取解析脚本的逻辑:
分别保存上面两个脚本为parse.py和db.py, 然后执行以下命令
Bash
$ pip install peewee parsel requests
$ python db.py # 初始化数据库
$ python parse.py