前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >爬取11088个知乎专栏,打破发现壁垒

爬取11088个知乎专栏,打破发现壁垒

作者头像
古柳_DesertsX
发布2018-08-21 14:40:02
6060
发布2018-08-21 14:40:02
举报
文章被收录于专栏:Data Analysis & VizData Analysis & Viz

去UC是不可能去UC的,这辈子都不可能去UC的。——Deserts_X

一、前言

上回我用Gephi绘制了知乎374名10万+关注的大V间相互关注情况,因为涉及25090条关注数据,最后成果图不算理想,但也能简单窥见大V生态圈的面貌,详情见于:《374名10万+知乎大V(一):相互关注情况》

论理这回应该继续对374名10万+大V、4151名1万+小V进行研究,写作(二)、(三)等系列文章,那到底为什么不填坑,而搞了这个爬知乎专栏的项目呢?

二、痛点

本专栏Data Analysis & Viz开通50来天,关注人数不知不觉也快有666人了,很好奇关注我或专栏的用户都有谁,他们有哪些共同点,还关注了哪些类似主题的专栏......

前两个问题倒是很好解决,只需爬取关注列表,分析下用户信息,也就心里有数了;但知乎上有多少类似主题的优质专栏,却是个不好回答的问题。

原先一直以为知乎有搜索专栏的地方,找了半天发现下面的网页后,以为捡到宝了,立马写个爬虫,翻页10000次,美滋滋地等着拿数据,却发现最后到手的有效专栏数才313个用《红楼梦》的话说,这个网站“原来苗而不秀,是个银样镴枪头”,是个中看不中用的主。

继续寻寻觅觅后,发现个人主页有两处专栏相关的入口:一个是自己的专栏,一个是关注的专栏。于是决定以后者为入口,用上回获取的30多万用户ID,爬取各自关注的专栏,从而得到知乎专栏的数据

有了入口和思路,之后就是写代码和爬取的事了,不在话下。

@Ricky,2015年在《知乎都有哪些值得推荐的专栏?》 话题下提到:“专栏除了在时间线被关注用户点赞或者关注的情况外,是没有一个发现频道的。也就是说知乎团队希望专栏还是以一种去中心化的形态去发展。

现在依旧如此,去中心化的形式就是上述痛点的来源。

三、专栏情况

3.1 数据一览

最终得到11088条知乎专栏数据,格式如下,作者为机构号的专栏特别标注出来

3.2 文章数与粉丝数

所有专栏的文章数与粉丝数情况如下,粉丝数30万+的第一梯度有:女神进化论、知乎电子书、硬派健身;20万+的有:张佳玮写字的地方、潜台词。文章数1500+的有:最美应用 | 有价值的好应用、知识市场编辑推荐、扑克投资家、游戏茶馆

3.3 TOP100

粉丝数排名TOP100专栏的门槛为40814人(“如何认真地活着”)。TOP100专栏总计8261681人次关注,占全部11088个专栏总关注31262218人次的26.4%,而TOP27专栏的关注人次占到TOP100的一半

全部专栏的平均粉丝数为2819人(拖后腿了),中位数为432人。前393个专栏总计关注人次超过全部专栏的一半。

3.4 TOP20

“数据冰山”专栏两个月前曾对TOP20专栏进行分析:《知乎Top20专栏用户的那些事》、上文提到的《知乎都有哪些值得推荐的专栏?》一文也有2015年的TOP20专栏名单,三者比较后,发现部分专栏地位稳固,“你大爷依旧是你大爷!”

3.5 机构号

在上万的专栏里有191个系机构号所创建,请下图的相关人员支付广告费!否则,我将用三十年修炼的、集一阳指和狮吼功于一体的神功,give you color to see see!顶部和底部没显示完整的可以半折。

3.6 假的图表

原本以为上文数据一览里时间栏是专栏的开通时间,于是绘制了下各年份的情况。之后才发现这部分应该是爬虫入口的用户关注专栏的时间,似乎啥也说明不了......不管了,聪明的人看不到这张图!

四、未完

由于篇幅原因,具体数据分析、挖掘、python、爬虫、机器学习等方向的优质专栏,会在下一篇文章里给出史上最全合集,敬请期待。

有兴趣做个“搜索知乎专栏”功能的小伙伴也可以搞一下哈。

想找自己感兴趣的、非上述主题的专栏的小伙伴可以看评论区,自动获取原始数据文件,去进行挖掘。

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2017.10.21 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 一、前言
  • 二、痛点
  • 三、专栏情况
    • 3.1 数据一览
      • 3.2 文章数与粉丝数
        • 3.3 TOP100
          • 3.4 TOP20
            • 3.5 机构号
              • 3.6 假的图表
              • 四、未完
              领券
              问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档