一小时爬取百万知乎用户信息的Python神器曝光

文章来源：企鹅号 - 真情奇希

Hello，亲们，我是你们最最最可爱并且善良和智慧聚集一身的美女子，每次当小编要写文章的时候，就默默的注视着外面的天空，看天空上的白云飘过，我老是在想，有没有这么一个人，同时和我一起注视着同一片天空，因为看着天空可以放空思绪，让所有的烦恼都随风而去，飘向天空。好了，今天这个废话说的有点多，开始正文吧！

爬虫：python27 +requests+json+bs4+time

分析工具： ELK套件

开发工具：pycharm

一小时爬取百万知乎用户信息的Python神器曝光

爬取了知乎部分的用户数据信息。

1.性别分布

0 绿色代表的是男性 ^ . ^ ——1代表的是女性———— -1 性别不确定

可见知乎的用户男性颇多。

2.粉丝最多的top30

粉丝最多的前三十名：依次是张佳玮、李开复、黄继新等等，去知乎上查这些人，也差不多这个排名，说明爬取的数据具有一定的说服力。

3.写文章最多的top30

爬虫架构图如下：

选择一个活跃的用户（比如李开复）的url作为入口url.并将已爬取的url存在set中。

抓取内容，并解析该用户的关注的用户的列表url，添加这些url到另一个set中，并用已爬取的url作为过滤。

解析该用户的个人信息，并存取到本地磁盘。

logstash取实时的获取本地磁盘的用户数据，并给elsticsearch

kibana和elasticsearch配合，将数据转换成用户友好的可视化图形。

爬取一个url:

解析内容：

存本地文件：

代码说明：

需要修改获取requests请求头的authorization。

需要修改你的文件存储路径。

源码下载：https://github.com/forezp/ZhihuSpiderMan，记得star哦！

打开chorme，打开https://www.zhihu.com/，

登陆，首页随便找个用户，进入他的个人主页，F12(或鼠标右键，点检查)

点击关注，刷新页面，见图：

可增加线程池，提高爬虫效率

存储url的时候我才用的set(),并且采用缓存策略，最多只存2000个url，防止内存不够，其实可以存在redis中。

存储爬取后的用户我说采取的是本地文件的方式，更好的方式应该是存在mongodb中。

对爬取的用户应该有一个信息的过滤，比如用户的粉丝数需要大与100或者参与话题数大于10等才存储。防止抓取了过多的僵尸用户。

关于elk的套件安装就不讨论了，具体见官网就行了。网站：https://www.elastic.co/

另外logstash的配置文件如下：

从爬取的用户数据可分析的地方很多，比如地域、学历、年龄等等，我就不一一列举了。

另外，我觉得爬虫是一件非常有意思的事情，在这个内容消费升级的年代，如何在广阔的互联网的数据海洋中挖掘有价值的数据，是一件值得思考和需不断践行的事情。

小编的文章写完了，大家看完文章有没有感觉开心，小编本身就是以开心为出发点，不知道大家有没有看得很开心，如果看的开心的话，能不能给小编点点关注？小编辛苦的码字确实也是非常的不容易，就是只希望我的努力成果能被大家所看到，最后祝大家福运满满健康百岁！

发表于: 2018-11-212018-11-21 17:23:38
原文链接：https://kuaibao.qq.com/s/20181121A1EXR900?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

一小时爬取百万知乎用户信息的Python神器曝光

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐