之前爬了一些数据,没有做分析,今天在练习jupyter notebook的使用,干脆拿了2月七号爬取的七日热门数据来进行简单的分析,主要运用了mongodb的pipeline管道等技术加上charts包的使用。
第一次看了下效果,感觉是标题党(说好的七日热门呢),可能是因为有些文章太好,以至于一直存留吧,然后对超过七天的文章进行剔除。
每天的收录数量都很平均,2月6号偏少的原因可能是来不及统计(我是2月7号爬虫)。再看看发布的具体时间:
文章大数为下午,晚上所写。大部分为上班原因。(其实很佩服那些白天上班,晚上还给大家分析学习的人)。
先看看热评文章的作者:
以此类推,也可以分析出打赏最多等统计数据。最后看看综合排名最高的文章(评论,浏览,打赏和喜欢):
最后一击!2016年Mac 系列里我认为最值得推荐软件 学霸的笔记,教育的失败? 春节这几天,我看的7部电影 曾经有人和我道晚安 春晚小品不好笑我可以忍,但大过年出来恶心人就不对了 简年14:暗恋真的是一个人的事吗? 非功利性英语学习工具推荐(iOS版本) 三分钟即席演讲与月入10W+,这才是你要学会的本领 我是如何从土肥圆逆袭成为白富美的? 嫁给穷男人不幸福?我就是那个坐在自行车上笑的女人
看来大家都喜欢看一些舒缓的文章(我已哭晕在厕所)。