首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

程序员爬虫偷知乎一百万用户,只为证明PHP是世界上最好的语

为了证明PHP是全世界最好的语言,虽然大家都懂的^_^,小编就用PHP写了1个多进程的爬虫程序,花了一天的时间,就抓取到知乎百万用户,目前是跑到第8圈(depth=8)互相是有关联(关注了和关注者)的用户。

分享之前我还是要推荐下我自己建的PHP学习群:646984879,都是学PHP开发的,如果你正在学习PHP,小编欢迎你加入,今天分享的这个案例已经上传到群文件,大家都是PHP党,不定期分享干货(只有PHP开发相关的),包括我自己整理的一份2017最新的PHP资料和零基础入门教程,欢迎初学和进阶中的小伙伴。

爬虫程序设计:

因为知乎需要登录才能获取到关注者页面,所以从chrome登录之后把cookie拷贝下来给curl程序模拟登录。

使用两大独立循环进程组(用户索引进程组、用户详情进程组),用的是php的pcntl扩展,封装了一个非常好用的类,使用起来和golang的携程也差不多了。

下面是用户详情截图,用户索引代码截图:

我蛋疼的抓了它那么多用户,到底有什么用呢?

其实没什么用,我就是闲的蛋疼 ^_^

有了这些信息,其实就可以做一些别人开头闭口就乱吹一通的大数据分析拉

最常见的当然是:

1、性别分布

2、地域分布

3、职业分布

4、每个职业的男女比例

当然,按照关注人数、浏览人数、提问数、回答数等排序,看看人民都在关注什么,民生、社会、地理、政治,整个互联网都尽收眼底拉。。

也许,你还可以把头像拿来分析,用开源的验黄程序,把色情的筛选出来,然后去拯救东莞? ^_^

然后,你还可以看看那些大学出来的人,最后都干了什么。

有了这些数据,是不是可以打开脑洞 ^_^

  • 发表于:
  • 原文链接http://kuaibao.qq.com/s/20180202A027XX00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券