简书推荐作者风云榜(爬取简书app数据)

一、前言

自处女作《爬取张佳玮138w+知乎关注者:数据可视化》一文分布后,来简书快一个月了。但一直不怎么熟悉这个平台,因此,这回爬取简书app里的推荐作者并进行简单可视化,以增进对简书的了解。

二、爬取简书app

爬取简书app的过程此文不做过多展开。大致过程如下:

用fiddler软件抓包手机上的简书app数据。找到API,看到返回的JSON数据,格式齐整:

把JSON数据复制到Chrome浏览器的JSON-handle插件里,方便查看格式和后续爬虫里写提取信息:(很少看到有人提到这个插件,也是蛮奇怪的)

写好爬虫代码,爬取数据并存入CSV文件里,发现一共230名推荐作者。但由于部分数据乱码,也是很奇怪,以前爬知乎和微博,也是找API从JSON里提取数据,并不会有一部分出现乱码。无可奈何,只能对应的补救下。由于数据里不包含粉丝数等信息,需要再根据每个推荐作者的ID,到各自主页爬取数据,整合后格式如下

三、数据可视化

3.1 推荐作者

爬完数据后,开始检验成果,进行可视化,先将230名推荐作者“丢到”词云里,直观地看看都有哪些人:

但没有以粉丝数为权重,所以看不出V大V小,于是再丢一遍:

可以看出推荐作者里粉丝数前十的大V有:简黛玉、刘淼、彭小六、江昭和、简书播客、简叔、韩大爷的杂货铺、Sir电影、饱醉豚、冷眼观史。此外发现“简书”系的还有简宝玉、简书出版、简书茶馆BossYe、简书活动精选、简书牧心、简书福利社社长简东西、简书大学堂.....

怎么可以这样,安插这么多官方(大概都是官方的吧,未考证)的账号,应该把更多位置给其他优秀作者嘛,比如有个非常有才华的作者,叫做@Deserts_X,他略施魔法就使Top 100的推荐作者们动了起来,并且顺带骗走了你8M的流量,这么厉害,还不关注一发

当然一直看这些作者的昵称其实还是不知道谁是谁,子曾经曰过:“无图无真相”,那么把所有作者的头像拼个图来看看,发现人像比重非常大啊,看来想成为推荐作者,必须要把头像换成帅气的自己才行,不说了,要去换头像了,不对,要去整容了,再见

3.2 粉丝数之长尾效应

接着按照推荐作者各自的粉丝数降序排列,可见曲线情况非常类似著名的“长尾效应”。当然右侧尾部并不是无限长的,也不算完全符合。

上图可知,所有粉丝共计3975524人次,如果选取粉丝数排名前30的作者,可知其粉丝数已经接近总粉丝数的一半,马太效应明显(是这么用的嘛,有点怕误人子弟)。

3.3 贡献情况

看完了上面的图,我们不禁发问,这些作者凭什么成为大V,成为推荐作者的呢。因此继续看看他们发布的文章数和写作的总字数情况:

文章数直接几百上千,总字数更是百万级别。百万级别是个什么概念的,谷歌了下《论语》约1.6w字,《老子》约5k+字数。除一下,推荐作者高产似那啥,创作了大概好多好多部《论语》《老子》的内容,由此可见,名副其实,当之无愧的推荐作者呀。回头看了下我的总字数,差不多也有一本《论语》加一本《老子》的字数了,23333。

继续给上图加上粉丝数(圆圈颜色)和获赞数(圆圈大小)

可见虽然@Sir电影以一己之力将图表大小扩大到了Plus款,但敌不过@彭小六才是当之无愧的“吸赞狂魔”啊,394篇文章,621858字数,219218赞数。就问你怕不怕。

按赞数降序可知,其他作者的排序如下,看来要好好研究下,怎么写出“人见人爱,花见花开”的文章呢!不说了整容的路上好好看他们的文章。

3.4 签约作者

再来看看推荐作者里签约作者的比重。在230名推荐作者里,共有75人身兼签约作者之头衔,另外155人暂时无此头衔。再把这75人丢到词云里(重要的作者丢三遍):

愣着干嘛,顶礼膜拜,高呼“苟......”,有点暴力......

四、小结

没有小结,只有写文后的高兴,和不知道有没有人看的迷惑。评论里见。

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏张善友的专栏

MindManager: Draw your own MindMap!

─ 什么是 MindMap ? MindMap 是一种看起来很像树形图的东西,不过比树形图还强力得多(笑)。 一般人在记笔记、或规划事情的时候,多半只有两种方法...

1908
来自专栏吾真本

致想给遗留系统写自动化单元测试的开发团队——事件风暴之父的工作坊实录之二:软件开发设计

一家大型企业的关键业务代码已经年久失修成为了难以维护的遗留代码,有着硅谷高科技企业软件开发管理经验的高管决定在企业内部搞编写单元测试和重构的极限编程实践。这需要...

823
来自专栏数据的力量

五种高效自学方法 | 用学霸的思维建立系统的知识体系

2304
来自专栏PPV课数据科学社区

案例:用Excel对会员客户交易数据进行RFM分析

背景:一个会员服务的企业,有近1年约1200个会员客户的收银数据。由于公司想针对不同类别不活跃客户进行激活促销;同时,为回馈重点客户,也计划推出一系列...

4215
来自专栏悦思悦读

一天开发一款聊天机器人

“想不想开发一款自己的聊天机器人?” “我也可以吗?神马AI,机器学习,DNN……我都不懂啊” “没关系,其实真的没有那么复杂——掌握方法和工具的话,一天时间...

56910
来自专栏Data Analysis & Viz

Gephi绘制微博转发图谱:以“@老婆孩子在天堂”为例

以前看过一篇提取《釜山行》剧本中人物,并用Gephi绘制关系图谱的文章,因此想用Gephi绘制下微博转发情况,借此来换个角度看看微博内容是怎么扩散的。其中爬取转...

2022
来自专栏CSDN技术头条

Appboy基于MongoDB的数据密集型实践

【编者按】本文摘录自Appboy联合创始人兼CIO Jon Hyman在MongoDB World 2015上的演讲。Appboy正在过手机等新兴渠道尝试一种新...

2027
来自专栏人工智能头条

Python & 机器学习项目集锦 | GitHub Top 45

2534
来自专栏量子位

有个AI陪你一起写代码,是种怎样的体验?| 附ICLR论文

后来,程序猿要写的代码越来越多,世界上便有了各种各样的API,来减少大家的工作量。有些功能,可以让API来帮我们实现。

1012
来自专栏PPV课数据科学社区

做数据分析必须学R的4个理由

R 是一种灵活的编程语言,专为促进探索性数据分析、经典统计学测试和高级图形学而设计。R 拥有丰富的、仍在不断扩大的数据包库,处于统计学、数据分析和数据挖掘发展的...

2796

扫码关注云+社区

领取腾讯云代金券