菊姐火了,用Python分析一下菊粉都是哪些人,哪些地方的!

这里的海外指大陆+港澳台以外的其他所有地方。除海外用户以外就北上广的用户最多了,这些地方的互联网用户基数本来就大。

数据抓取先讲讲数据抓取的逻辑,最终目的就是要找到pick王菊的人都是哪些人,刚开始想的是直接抓取王菊的粉丝列表,但是后来发现微博数据有限制,只能抓取少量的粉丝列表,所以这个方案行不通,只能换下一个。

可以看到,有评论text,以及每一条text对应的user_id,找到了字段位置,我们再来看看这些字段对应url是什么,有什么规律。

获取containerid获取到了user_id以后,我们再来看看我们想要获取的字段在哪,如下图,

知道了我们想要获取的字段在哪以后,再看看这些字段对应的url是什么?

最后的结果如下表:

可以看到,年龄和星座为空,并不是摩羯座,且当年龄和星座为空时,所在地就会错位到年龄列,接下来就做一些数据预处理。

当然了,最后结果只是右半部分,左半部分是为了对比后期PS加上去的。具体实现代码如下:

这里分词没有用jieba分词,而是用了fool,据称是最准确的中文分词包,github地址:https://github.com/rockyzhengwu/FoolNLTK。饼图绘制饼图就很简单了,代码如下:绘制男女比例的饼图user_info1[

地图绘制

私信小编007即可获取数十套PDF哦!

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180710A04B7A00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券