前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >简书=鸡汤?爬取今日看点数据:1916篇简书热门文章可视化

简书=鸡汤?爬取今日看点数据:1916篇简书热门文章可视化

作者头像
古柳_DesertsX
发布2018-08-21 14:36:36
3320
发布2018-08-21 14:36:36
举报
文章被收录于专栏:Data Analysis & VizData Analysis & Viz

一、前言

最近写得两篇关于简书的数据可视化文章:简书推荐作者风云榜(爬取简书app数据)》、《我的简书一月记:数据可视化反响都还不错,因而将继续针对简书进行数据分析和可视化。鉴于此前爬取手机app效率较低,本次重新回归网页数据的爬取。

爬取的对象是:今日看点专题下的“热门”文章数据。一篇文章被编辑收入“今日看点”,即意味着作品将立刻登上首页,得到很好曝光,为更多用户所阅读和喜欢。而本专题“热门”一栏里,收录着简书上至今为止最炙手可热、获赞数最多的文章,针对这部分数据进行研究和分析,可以得知哪类文章最受简书用户喜欢,哪些作者创作了“高质量”的作品等信息。

二、数据获取

上图可知,目前今日看点收录了148618篇文章, 共有30194人关注。原本想获取所有的文章,但发现爬取到1900+篇时,就再也无法得到更多数据,可能简书方面限制和保护了数据。

但根据这1916篇文章获赞数降序可知,排名第一的文章,获赞数为:17076;排名最后的为488。由此可见,简书上最热门的文章应该都已经获取到了(后来发现其实并没有,仅是部分,脸疼),基于此后续研究可以继续展开。

三、数据可视化

1、年度月份分布情况

首先,我们来看看,截止目前,这些简书上最热门的文章都发布在何年何月?作为一名来到简书一个多月的小透明,一直不知道简书是何时“横空出世”的,@简叔、@简宝玉可否解答下。

由下图可知,最早的热门文章出现于2014年5月,是@CNFeat创作的《如何搭建一个独立博客——简明Github Pages与Hexo教程》一文。(间接知道了简书起码是在三年前就已经存在了)。之后逐年递增,猜测可能是新增用户基数越来越多,平台越来越为人所知,而且作品越来越好?所以热门文章出现的越来越多。从2016年7月起,出现较大涨幅,并持续到2017年3月,每月热门文章均在110篇以上。在今年的4月份起,持续四个月相对回落了许多。这部分不知道原因何在,难道是太热了,大家创作欲望低迷?

2、24小时分布情况

接着看看发布时间情况,11点钟文章最多,觉得蛮奇怪的,作为一只喜欢在晚上发布文章的小透明,原本觉得晚上才是创作的大好时光啊,11点钟已经属于饭点,难道是上午潜心创作,一天之计在于晨,将当天的写作任务早早的完成,一身轻松?再是24小时都有人发布文章并成为热点,可见鸟儿大了,什么林子都有啊。逃......

3、2017年热门文章

看了那么多历史的数据,那么到底今年有哪些热门文章?到底作为一名普通的作者,该如何写出广受好评的文章呢?

筛选下本年度按获赞数降序的文章,如图,简单浏览下标题,发现非常多设问的句式,想诱导人点击阅读,哪能不用“问号”呢!很多作者的经验分享,或者称作“教做人”的文章?而偏技术性的文章几乎没有,当然原因可能很多,个人也有个人的看法。不过对我来说,倒是可以努力写写数据分析和可视化的文章杀进去,占得一席之地。横空出世,石破天惊,一鸣惊人,@Deserts_X,决定就是你了!咱们年末热门文章见!

4、阅读数、喜欢数与评论数

一篇文章的热门程度,直观地体现在喜欢数和评论数里,当然前提是有被大量阅读。如图可知,有一篇文章阅读数远远高于所有的文章,那就是@简叔《简友常见问题汇总》,作为简书新手向的使用手册,有此数据,也属正常,虽然不知简叔有多少用户,但86w+的阅读量估计是前无古人后无来者了。

再将目光移动到这篇官方文章之外,首先就能看到第二梯度,20w+阅读量的文章也有近十篇,也是非常难以企及的战绩,虽然其中好几篇的获赞数稍显“平庸”,(手动滑稽)。

换个角度,再看一遍。局部放大,看不到那些讨人厌的神级数据后,觉得神清气爽多了,努力努力应该还是有机会跻身其中的。

5、文章作者

有留心上文CSV截图的,可以对这些文章都是谁写的有了初步的了解。对所有作者进行统计,文章数量靠前的每人贡献的情况如下,也是牛逼坏了。

第一名属于简书一哥@彭小六,共收录了106篇文章。看来分析简书数据永远都避不开的一哥。

并列第二名的是@怀左同学和@韩大爷的杂货铺,均收录了41篇文章。

所有799名作者都有一席之地,按照收录文章数直观的贡献情况如下,最左边和最上边即为排名前十几的作者情况:

切换成曲线图,按降序排列,可见有一条贴近横坐标,长长的曲线。大多数人无法贡献热门文章,能贡献的人里大多数也只能有一两篇惊艳之作。

799名作者中有84名为签约作者,共贡献625篇文章。不过不知道简书现在到底有多少名签约作者。单看此数据,热门文章里非签约作者占比也还是蛮大。

其他715名为非签约作者,共贡献1291篇文章:

将这1916篇文章对应的799名作者生成如下词云,假如今日头条想像签走知乎300大V一样来签走简书大V,大概可以参考此图。逃......

单人贡献5篇及以上热门文章的,共有69名作者。

6、文章标题

不知道有多少人觉得简书的文章太过鸡汤,或者不熟悉简书的人,是否直接就认为“简书=鸡汤”?那到底是不是这样的呢,看看热门文章都有哪些大概就能知道一二了。标题的数据上文CSV也有不少了,此处将所有标题直接丢一个在线词云网站,看看都有哪些词出现了:

什么、如何、书、英语、大学、推荐、自己、人、坚持、努力......这些词所形成的语境,可以照见背后点赞的简书用户组成还是偏于年轻。虽然可能伤到一些人,但个人感觉一个不完全知道自己喜欢什么、有什么爱好、对学习和生活都没有好的把控的人,或许更会汲汲于阅读这些文章,当然这可能是每个人成长中必须经历的过程,看这些文章可能也会有收获,对自己有所指导,但是否又有很多人其实只是点个赞、收藏下,该如何的生活依旧如何的生活,下次看到类似的文章,依旧点进去,依旧退出来呢?

上面的词云还是太过简单粗暴,调用玻森NLP的API,获取所有标题的词频排名前100的关键词,返回结果如下:

没有了杂乱无章的文字后,在精简的词云里,更可以看出,出现最频繁的词有:你、干货、写作、英语、推荐、大学、努力、书、读书、人生、坚持、方法......嗯。

四、小结

所有假如你是一名非简书用户,看到这些词云和标题,你觉得简书是否等同于鸡汤呢?又或者,你已经是一名简书用户,日常看到的文章,首页上呈现的文章,对你来说又意味着什么呢?

非引战,欢迎评论,共同探讨想法。

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2017.09.06 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 一、前言
  • 二、数据获取
  • 三、数据可视化
    • 1、年度月份分布情况
      • 2、24小时分布情况
        • 3、2017年热门文章
        • 4、阅读数、喜欢数与评论数
          • 5、文章作者
            • 6、文章标题
            • 四、小结
            领券
            问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档