前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >知乎简史1:为了理解知乎,用云上爬虫分析了创始人的2699个回答和200位种子用户

知乎简史1:为了理解知乎,用云上爬虫分析了创始人的2699个回答和200位种子用户

原创
作者头像
贺嘉
修改2017-06-19 19:16:24
2.9K0
修改2017-06-19 19:16:24
举报
文章被收录于专栏:贺嘉的专栏贺嘉的专栏

从2010年创始之初,知乎在互联网行业一直就有着不小的关注度,不论是早期的邀请制,早期创新工场李开复老师的天使投资还是近期的腾讯领投C轮、今日资本领投的D轮融资都让知乎上了不少次科技媒体的头条。私下里,互联网圈不少朋友也会时常上知乎去寻找今天可以和朋友们交流的热门话题,或者是看看来自不同行业的大牛们的长文解读,甚至于最近几次的百度魏则西事件,支付宝“白领日记”圈子等等舆论热点都是在知乎完成了第一轮舆论发酵。

因为我们团队在腾讯云近期也在负责和知乎有类似之处的PGC内容产品,腾云阁(腾云阁 - 腾讯云)。主要是邀请腾讯系的技术大牛和腾讯云客户中的架构师和中小开发者们来以技术文章的形式分享自己一手技术经验。目前正处于一个种子用户不足200人的冷启动阶段,所以想到成长的最好办法还是先找到行业的标杆,学习他人的思路并加以应用,内容社区PGC这方面的标杆必然少不了知乎。

为此我结合近期刚学习的python分析了一些PGC专业社区最为重要的部分内容。再加上近期用3个月的时间在知乎积累了11000+粉丝,获得了知乎“互联网”领域话题优秀回答者的标签,所以干脆把这次的分析整理成一篇文章,分享给其他和我一样对知乎社区演变、功能迭代、社区机制感兴趣的互联网产品经理和运营同学们。

知乎爬虫运行在腾讯云主机上的原因是怕被网站封IP,这里提醒下各位程序员在部署爬虫的时候注意不要调的太高并发,对于网站的正常用户访问造成影响,这也算是使用爬虫主要注意的一点基本技术素养吧。

[1488806478377_5194_1488806478905.gif]
[1488806478377_5194_1488806478905.gif]

1.知乎200位种子用户中创业者占比最高,设计师类活跃度最高。

周源接受外界采访的时候说的知乎200名种子用户。通过分析四位创始人各自关注的前200名用户,并剔除重复数据,我们可以用爬虫获取他们的行业背景,在知乎的活跃程度(回答数)以及粉丝数量。

[1488806499666_4403_1488806499860.png]
[1488806499666_4403_1488806499860.png]

在158位有职业信息的用户中,以创业者(63人)占比最大,其次是程序员(27人),媒体人(21人)产品经理(17人),投资人(10人),设计师(10人),其他(艺术、教育等10人),这些互联网行业用户的认真答题氛围对于知乎的PGC氛围影响很大。

[1488806519809_3162_1488806520031.png]
[1488806519809_3162_1488806520031.png]

在知乎种子用户来源上我发现了不少有意思的现象,不少种子用户都是通过知乎内测阶段的邀请机制加入的,比如腾讯的CEO ponyma是和菜头邀请来的,和菜头又是http://dinehq.com创始人杜潇邀请来的。

[1488806536624_8665_1488806536786.png]
[1488806536624_8665_1488806536786.png]

很有意思的数据是,与邀请的早期用户占比数不同。到目前为止,用户的关注人数超过10000人占该类用户占比(用户在知乎活跃与否参考值),比例最高的是其他、设计师(60%),其次是媒体人(52%),产品经理(47%),创业者(44%),投资人(40%),程序员(15%),这部分活跃度的数据与作者本人日常在知乎万粉群里观察到的比例比较接近。

2.知乎四位创始人在知乎上回答的时间分布-活跃曲线,看看知乎这样的社区产品是不是存在对于创始团队活跃度的依赖?

知乎CTO 李申申是四位创始人中最宅的,回答数量最少,最不活跃,当然不排除李申申 老师有小号,可以偷偷看@VCZH 轮子哥带逛的美女图片。张亮老师最活跃,个人回答问题数1408个 抵得上其他创始人回答数之和(1288个)。黄继新老师关注的知乎用户最多,关注了9000多人...爬了好一会...

[1488806555958_8014_1488806556144.png]
[1488806555958_8014_1488806556144.png]

3.分析回答的问题中涉及关键词的词频分析,看看知乎的社区氛围在创始人们回答中体现的如何?

在一份给定的文件里,词频(term frequency,TF)指的是某一个给定的词语在该文件中出现的次数。这个数字通常会被正规化,以防止它偏向长的文件。

作为问答社区,知乎有以下几类词语讨论的较为频繁“问题”,“回答”,“为什么”,“如何”,“看待”。同时由于初期用户的背景“苹果、互联网、创新工场”等词汇出现,在几位创始人愿意回答的问题里出现的都比较频繁。

[1488806575495_9322_1488806575686.jpg]
[1488806575495_9322_1488806575686.jpg]

4.分析知乎四位创始人获赞最多的10个问题,分析这点纯粹是我个人好奇。

回答对应的问题 时间 点赞数 作者回答链接

##什么叫「见过大世面」?2013-1-21 10566个赞 张亮

能享受最好的,能承受最坏的

##北师大东门的野草书店是一家怎样的书店?2013-7-2 9346个赞 张亮

北师大东门的野草书店是一家怎样的书店? - 北京 - 知乎

##怎么看待恋人的恋爱史?2011-2-4 8557个赞 黄继新

怎么看待恋人的恋爱史? - 黄继新的回答 - 知乎

##如何评价郭敬明小说改编的电影《小时代》?2013-7-7 6902个赞 张亮

如何评价郭敬明小说改编的电影《小时代》? - 张亮的回答 - 知乎

##电影《社交网络》给你最深的感受是什么?2011-1-27 6438个赞 黄继新

电影《社交网络》给你最深的感受是什么? - 黄继新的回答 - 知乎

##为什么在现实中从来见不到知乎大神那样的人?2015-3-25 5955个赞 张亮

为什么在现实中从来见不到知乎大神那样的人? - 张亮的回答 - 知乎

##快速入睡有哪些妙招?2012-1-30 5904个赞 周源

快速入睡有哪些妙招? - 周源的回答 - 知乎

##过去的五年(2011~2015)你经历了哪些重要的人生节点?对现在有哪些影响?2016-1-26 5226个赞 周源

过去的五年(2011~2015)你经历了哪些重要的人生节点?对现在有哪些影响? - 周源的回答 - 知乎

##经常有人说史玉柱、周鸿祎等把握住了人性、人的欲望,是否能系统的说明人性、欲望有哪些?如何把握?能否推荐相关书籍?2013-7-23 4730个赞 张亮

经常有人说史玉柱、周鸿祎等把握住了人性、人的欲望,是否能系统的说明人性、欲望有哪些?如何把握?能否推荐相关书籍? - 张亮的回答 - 知乎

##百度为什么不收购知乎?2011-11-3 4440个赞 张亮

知乎 - 与世界分享你的知识、经验和见解

小结:从以上数据我们可以看出

1)知乎的近200位种子用户中,互联网领域创业者、投资人、程序员、媒体人偏多,但是从用户活跃数据来看,知乎上、艺术、教育、电影等其他类目的用户也颇为活跃,“互联网”以外其他话题的火热,也是知乎能够走到今日用户规模的重要原因。

2)知乎社区亟待形成认真回答氛围的早期,需要创始团队积极参与社区内容建设。知乎的4位创始人在知乎成立的头三年2010-2012年累计回答了2345个问题,占他们4人累积回答数的86%,13-15年合计回答了312个问题,16年-17年一共才回答了39个问题,说明社区的氛围走上轨道了。

3)知乎的创始人们回答问题也不是都能达到超过1000个赞,知乎创始人们累计回答2696个问题,获赞27万,也就是平均1个回答100个赞左右,所以你的知乎回答,获赞数量有没有超过100个赞这个水准呢?

后续计划在下一篇文章中分析知乎产品迭代的版本历史,分析哪些是核心的功能迭代,知乎整体的信息流来源与分发机制,商业变现的产品形态;从知乎小管家的文章看社区机制的变化,社区成长的不同阶段,KOL群体演化的历史,比如传说中的知乎万粉群的存在。

相关推荐

【腾讯云的1001种玩法】云服务器搭建Python爬虫环境
腾讯云主机Python3环境安装PySpider爬虫框架过程
云服务器CVM

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 【腾讯云的1001种玩法】云服务器搭建Python爬虫环境
  • 腾讯云主机Python3环境安装PySpider爬虫框架过程
  • 云服务器CVM
相关产品与服务
云服务器
云服务器(Cloud Virtual Machine,CVM)提供安全可靠的弹性计算服务。 您可以实时扩展或缩减计算资源,适应变化的业务需求,并只需按实际使用的资源计费。使用 CVM 可以极大降低您的软硬件采购成本,简化 IT 运维工作。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档