专栏首页北京马哥教育碉堡了!一小时爬取百万知乎用户信息的Python神器曝光

碉堡了!一小时爬取百万知乎用户信息的Python神器曝光

本文转载自简书,由马哥教育Python运维班3期学员推荐,原文作者为志朋,经小编编辑而成,如有漏洞,欢迎指正,并最后致谢作者的辛苦付出。

知乎是一个真实的网络问答社区,社区氛围友好与理性,连接各行各业的精英。用户分享着彼此的专业知识、经验和见解,为中文互联网源源不断地提供高质量的信息。与此同时,知乎也是由Python开发而成,有许多的Python爱好者都愿意用知乎做一些爬虫实验。

下面我们来看看Pythoner志朋的爬虫实验。


一、使用的技术栈:

爬虫:python27 +requests+json+bs4+time

分析工具: ELK套件

开发工具:pycharm

二、数据成果

爬取了知乎部分的用户数据信息。

三、简单的可视化分析

1.性别分布

0 绿色代表的是男性 ^ . ^ ——1代表的是女性———— -1 性别不确定

可见知乎的用户男性颇多。

2.粉丝最多的top30

粉丝最多的前三十名:依次是张佳玮、李开复、黄继新等等,去知乎上查这些人,也差不多这个排名,说明爬取的数据具有一定的说服力。

3.写文章最多的top30

四、爬虫架构

爬虫架构图如下:

说明:

选择一个活跃的用户(比如李开复)的url作为入口url.并将已爬取的url存在set中。

抓取内容,并解析该用户的关注的用户的列表url,添加这些url到另一个set中,并用已爬取的url作为过滤。

解析该用户的个人信息,并存取到本地磁盘。

logstash取实时的获取本地磁盘的用户数据,并给elsticsearch

kibana和elasticsearch配合,将数据转换成用户友好的可视化图形。

五.编码

爬取一个url:

解析内容:

存本地文件:

代码说明:

需要修改获取requests请求头的authorization。

需要修改你的文件存储路径。

源码下载:https://github.com/forezp/ZhihuSpiderMan,记得star哦!

六.如何获取authorization

打开chorme,打开https://www.zhihu.com/,

登陆,首页随便找个用户,进入他的个人主页,F12(或鼠标右键,点检查)

点击关注,刷新页面,见图:

七、可改进的地方

可增加线程池,提高爬虫效率

存储url的时候我才用的set(),并且采用缓存策略,最多只存2000个url,防止内存不够,其实可以存在redis中。

存储爬取后的用户我说采取的是本地文件的方式,更好的方式应该是存在mongodb中。

对爬取的用户应该有一个信息的过滤,比如用户的粉丝数需要大与100或者参与话题数大于10等才存储。防止抓取了过多的僵尸用户。

八.关于ELK套件

关于elk的套件安装就不讨论了,具体见官网就行了。网站:https://www.elastic.co/

另外logstash的配置文件如下:

九、结语

从爬取的用户数据可分析的地方很多,比如地域、学历、年龄等等,我就不一一列举了。

另外,我觉得爬虫是一件非常有意思的事情,在这个内容消费升级的年代,如何在广阔的互联网的数据海洋中挖掘有价值的数据,是一件值得思考和需不断践行的事情。

最后,本文仅用作交流学习,一切数据归知乎所有。


本文分享自微信公众号 - 马哥Linux运维(magedu-Linux),作者:志朋

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2017-07-10

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • linux服务器安全配置实例(二)用户账户权限配置

    豌豆贴心提醒,本文阅读时间7分钟 没有绝对的安全 在上一篇文章《linux服务器安全配置实例(一)》中介绍了我对ssh服务的一些常用的安全配置和性能优化。 ...

    小小科
  • “全民K歌”有什么秘密?网站数据分析之数据的获取

    最近看到身边好几个朋友都在用“全民K歌”这款软件在手机上K歌,使用频率还是很高,于是就想来看看全民K歌平台的用户究竟是一群什么样的用户?他们有什么样的特征。然后...

    小小科
  • 服务器病了吗? Linux 服务器的那些性能参数指标

    小小科
  • 犀牛鸟人物丨专访人民大学范举老师:数据之美 ---社交影响力研究

    腾讯高校合作
  • 如何把用户核心路径转化成设计语言

    前言 用户路径是指用户达到目标时一系列的操作。我们可以将用户在产品中由开始到结束的整个过程划分成很多节点,用户从一个节点到另一个节点的过程可以被视为是一条路径...

    腾讯大讲堂
  • 8分钟教你快速掌握Python爬虫核心技术,批量爬取网络图片

    本文主要实现一个简单的爬虫,目的是从一个百度贴吧页面下载图片。下载图片的步骤如下:

    python学习教程
  • 【资讯】什么撑起下一代互联网?智能推荐

    智能推荐引擎的基本逻辑是什么?热门、兴趣、地域、探索四大策略逻辑,预测群体的行为。 智能推荐爆红于资讯产业是因为啥?海量信息带动海量反馈数据推导出精准算法。 智...

    小莹莹
  • Linux学习笔记

    从书上一扫而过,扫到的就这么多,其他的都稍微有点深,暂时先学这么多,后面需要再去百度! 一、 Linux中常用命令 1. Date:查看日期时间  Cal:查看...

    NingHeChuan
  • 机器学习基础:相似度和距离度量究竟是什么

    在推荐系统中,我们经常谈到「相似度度量」这一概念。为什么?因为在推荐系统中,基于内容的过滤算法和协同过滤算法都使用了某种特定的相似度度量来确定两个用户或商品的向...

    机器之心
  • 985校训中的频繁词

    本篇通过爬虫和Fp-growth的简单应用,从网页上记载的985校训中发现频繁词。

    用户6021899

扫码关注云+社区

领取腾讯云代金券