前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >全宋词爬取过程及数据分析

全宋词爬取过程及数据分析

作者头像
用户1416054
发布2018-08-02 11:56:18
7770
发布2018-08-02 11:56:18
举报
文章被收录于专栏:JackeyGao的博客

全宋词爬取过程及数据分析

Posted March 07, 2017

.tagul-attribution { display: none; } .block { padding-bottom: 0 !important; }

由于某个公众号对我仓库chinese-poetry的推广, 短时间大量涨粉, 有人想要宋词的数据。 于是最近利用零散时间对全宋词进行爬取分析, 并做了简单的分析, 发现了一些不得了的事情。

分析仅仅对全宋词的内容进行了关键字排名分析、 宋词作者产量分析、 最受欢迎的词牌名排名分析

关键字排名分析

宋人喜欢用东风, 东风作为现代也会微妙, 人间、何处从唐诗就开始蝉联前三. 即使到了现代, 这两个词依存古风.

宋词作者产量分析

辛弃疾果不其然的成为两宋现存词最多的作家, 还有一些虽然产量丰富但未必是我们熟知的。

最受欢迎的词牌名排名分析

浣溪沙作为婉约 豪放两派所常用的词牌, 在两宋时期作为最受欢迎也是理所应当.

爬取逻辑没有做相应的系统化处理, 只是简单的脚本, 配置交互式界面做的操作。采用的相关技术: Python + parsel + peewee + requests + jieba

附上爬取解析脚本的逻辑:

运行

分别保存上面两个脚本为parse.pydb.py, 然后执行以下命令

Bash

代码语言:javascript
复制
$ pip install peewee parsel requests
$ python db.py # 初始化数据库
$ python parse.py
本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 全宋词爬取过程及数据分析
    • 关键字排名分析
      • 宋词作者产量分析
        • 最受欢迎的词牌名排名分析
          • 运行
          领券
          问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档