我 1天“偷了”知乎1000万用户,只为PHP是世界上最好的语言

以前看了很多盆友圈里分享的Python爬虫文章,感觉实在小儿科,内容处理本就是PHP的强项。我也很讨厌讨论一门语言的好坏,每门语言存在就一定有它的道理,但是PHP是全世界最好用的语言,在座的各位都认可吧?

当时比较火的是一个用C#写的多线程爬虫程序,抓取了QQ空间300万用户,其中有30万用户是有QQ号码、名称、年龄、性别等信息的。跑了两周,这能有什么。

PS:小编本来其实想用这个当封面的,结果我的上司看来后坚决不让我放

嘤嘤嘤,只好改成小编最爱的迪丽热巴了。

为了证明PHP是世界上最好的语言,我用PHP花了整整一天——24小时——1440分钟——86400秒,也写了一个多进程爬虫程序,小小的抓取了知乎1000万用户。

程序的设计

首先知乎是需要登录才能获取到关注者的页面的,所以我们从chrome登录之后把cookie拷贝下来给curl程序模拟登录上去。

下面是用户详情的代码截图:

先以单个用户为起始点,抓取这个用户的关注者和被关注者,然后合并入库。

因为是多进程,所以当有2个进程在处理同一个用户入库的时候就会出现重复,所以数据库用户名字段一定要建立唯一索引(当然这个是见仁见智了)

通过步骤一之后,我们就得到下面的用户列表:

用户详情进程组 依照时间拿到最先入库的用户详情,并且更新时间为当前时间,这样就会形成一个死循环,程序也会不停的跑,不间断的循环更新用户信息。

程序稳定运行到第二天,突然没有新的数据了,于是检查了一番发现知乎改规则了,看来我的动作被发现了,给我返回的数据是这样的

给我感觉就是瞎乱的给我输出数据让我采集不到;换IP、模拟伪装数据,都没用,猛地有股熟悉的感觉,gzip?我赶紧试了试gzip。

把 “Accept-Encoding: gzip,deflate\r\n”;去掉了 gzip,然并卵,简直萌萌哒!

看来得使大招了——解压,函数gzinflate 不知道大家了不了解,把获取到得内容加上:

$content=substr($content, 10);

$content=gzinflate($content));

哎,PHP果然是全世界最好的语言啊,随便两个函数,就解决了问题,程序又欢快的跑起来了,真是心情愉悦啊~

有一点值得说一下,知乎的细心真的很独到,也给了我无数的帮助:

只是——

我抓了它那么多用户,是要干嘛来着?

我真是闲的蛋疼啊^_^

算了有了这些信息,我也可以做一些别人开头闭口就乱吹一通的大数据分析拉~(不过好像还是闲的蛋疼)

最常见的当然是:

1、人群性别分布

2、人群地域分布

3、人群职业分布

4、用户年龄分布

5、用户浏览器分布

按关注人数、浏览人数、提问数、回答数等排序,看看人民大众都在关注什么,民生、社会、地理、政治有种众生尽收眼底的感觉呀,还不错嘛。

哎呀,我还可以这样啊

把头像个拿来分析,用开源的验黄程序,把色情的筛选出来,说不定可以拯救东莞水深火热的人呐?

然后,你还可以看看那些大学出来的人,最后都干了什么。

有了这些数据,是不是可以打开脑洞 ^_^

下面是利用这些数据做出来的一些有趣的图表。

如果你还有不懂之处

可以添加下方微信

我们一起学习与交流

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180715B0K9H500?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。

扫码关注云+社区

领取腾讯云代金券