爬取11088个知乎专栏,打破发现壁垒

去UC是不可能去UC的,这辈子都不可能去UC的。——Deserts_X

一、前言

上回我用Gephi绘制了知乎374名10万+关注的大V间相互关注情况,因为涉及25090条关注数据,最后成果图不算理想,但也能简单窥见大V生态圈的面貌,详情见于:《374名10万+知乎大V(一):相互关注情况》

论理这回应该继续对374名10万+大V、4151名1万+小V进行研究,写作(二)、(三)等系列文章,那到底为什么不填坑,而搞了这个爬知乎专栏的项目呢?

二、痛点

本专栏Data Analysis & Viz开通50来天,关注人数不知不觉也快有666人了,很好奇关注我或专栏的用户都有谁,他们有哪些共同点,还关注了哪些类似主题的专栏......

前两个问题倒是很好解决,只需爬取关注列表,分析下用户信息,也就心里有数了;但知乎上有多少类似主题的优质专栏,却是个不好回答的问题。

原先一直以为知乎有搜索专栏的地方,找了半天发现下面的网页后,以为捡到宝了,立马写个爬虫,翻页10000次,美滋滋地等着拿数据,却发现最后到手的有效专栏数才313个用《红楼梦》的话说,这个网站“原来苗而不秀,是个银样镴枪头”,是个中看不中用的主。

继续寻寻觅觅后,发现个人主页有两处专栏相关的入口:一个是自己的专栏,一个是关注的专栏。于是决定以后者为入口,用上回获取的30多万用户ID,爬取各自关注的专栏,从而得到知乎专栏的数据

有了入口和思路,之后就是写代码和爬取的事了,不在话下。

@Ricky,2015年在《知乎都有哪些值得推荐的专栏?》 话题下提到:“专栏除了在时间线被关注用户点赞或者关注的情况外,是没有一个发现频道的。也就是说知乎团队希望专栏还是以一种去中心化的形态去发展。

现在依旧如此,去中心化的形式就是上述痛点的来源。

三、专栏情况

3.1 数据一览

最终得到11088条知乎专栏数据,格式如下,作者为机构号的专栏特别标注出来

3.2 文章数与粉丝数

所有专栏的文章数与粉丝数情况如下,粉丝数30万+的第一梯度有:女神进化论、知乎电子书、硬派健身;20万+的有:张佳玮写字的地方、潜台词。文章数1500+的有:最美应用 | 有价值的好应用、知识市场编辑推荐、扑克投资家、游戏茶馆

3.3 TOP100

粉丝数排名TOP100专栏的门槛为40814人(“如何认真地活着”)。TOP100专栏总计8261681人次关注,占全部11088个专栏总关注31262218人次的26.4%,而TOP27专栏的关注人次占到TOP100的一半

全部专栏的平均粉丝数为2819人(拖后腿了),中位数为432人。前393个专栏总计关注人次超过全部专栏的一半。

3.4 TOP20

“数据冰山”专栏两个月前曾对TOP20专栏进行分析:《知乎Top20专栏用户的那些事》、上文提到的《知乎都有哪些值得推荐的专栏?》一文也有2015年的TOP20专栏名单,三者比较后,发现部分专栏地位稳固,“你大爷依旧是你大爷!”

3.5 机构号

在上万的专栏里有191个系机构号所创建,请下图的相关人员支付广告费!否则,我将用三十年修炼的、集一阳指和狮吼功于一体的神功,give you color to see see!顶部和底部没显示完整的可以半折。

3.6 假的图表

原本以为上文数据一览里时间栏是专栏的开通时间,于是绘制了下各年份的情况。之后才发现这部分应该是爬虫入口的用户关注专栏的时间,似乎啥也说明不了......不管了,聪明的人看不到这张图!

四、未完

由于篇幅原因,具体数据分析、挖掘、python、爬虫、机器学习等方向的优质专栏,会在下一篇文章里给出史上最全合集,敬请期待。

有兴趣做个“搜索知乎专栏”功能的小伙伴也可以搞一下哈。

想找自己感兴趣的、非上述主题的专栏的小伙伴可以看评论区,自动获取原始数据文件,去进行挖掘。

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏java思维导图

给Java程序员的一些中肯建议,你还在虚度光阴吗?

最近好多人私信问我,该怎样才能成为高薪架构师,还有一个就对当前的状态感到迷茫,我在此做一个简单的说明,或者对迷茫中的你来说有些许帮助。

12430
来自专栏王磊的博客

一个好的技术团队应该怎么选择开发语言

在过去的三年时间了,作为曾经的研发部经理,我和我的技术总监始终在为一件事而努力着,那就是选择一门合适我们团队的技术语言。 我们研发团队一共有9个人,分为三个小组...

36380
来自专栏大数据和云计算技术

运营商大数据业务举例

3.1 运营商常见的大数据业务 第1章介绍了运营商拥有的数据资产,运营商拥有从底层的设备和网络数据到上层的用户行为数据。有了这些数据,运营商大数据便可以衍生出...

40780
来自专栏互联网数据官iCDO

如何确保营销效果?介绍6个你都听过但没用好的步骤

插播上海沙龙:营销没效果?在成本约束条件下如何有效获客? 译者:洛姿亦 在解决效果营销的过程中,我们都听过很多操作方法,比如制定目标、分解目标、跟踪数据、测试...

40080
来自专栏PPV课数据科学社区

《游戏数据分析的艺术》之游戏数据分析的流程(下)

点击上方 “蓝色字” 可关注我们! 作者:TalkingData高级咨询总监 - 于洋力作《游戏数据分析的艺术》第一章第一节的前三点的重点阐述。 来源:Talk...

348100
来自专栏mini188

谈谈敏捷开发

我对敏捷开发是源于10多年前看了一本关于迭代开发的书,从而对迭代开发有了一些兴趣。从那时开始有了迭代开发的概念。随着项目经验的增加迭代的重要性也越发觉得明显。随...

17000
来自专栏顾宇的研习笔记

#DevOps的前世今生# 3. DevOps 的目标和核心前言

在#DevOps的前世今生# 2. Dev和Ops矛盾缘何而来 ?一文中,通过Dev和Ops的历史发展总结出了Dev和Ops矛盾的历史渊源,以及 Dev 和 O...

9020
来自专栏企鹅号快讯

区块链?人工智能?2018 年你应该了解的十大技术趋势

来自:开源中国 https://my.oschina.net/editorial-story/blog/1552089 摘要: 领先的研究和咨询公司Gartne...

20780
来自专栏腾讯研究院的专栏

腾讯云平台部总经理陈磊:大数据背后的技术支撑

image.png 大数据似乎在一夜之间迅速走红,它势不可挡地冲击着金融、零售等各个行业。云计算将如何改变计算的世界?未来将有怎样的应用前景?如何解决“...

34970
来自专栏罗超频道

IPTV、互联网电视、网络电视、智能电视,这些概念有什么区别?

这是知乎上的一个问题,碰巧被纳入了“知乎日报”。我在2012年的回答获得了最多的“点赞”。这里分享给大家臭美一下。 原问题是: “云电视、网络电视和智能电...

40360

扫码关注云+社区

领取腾讯云代金券