前段时间分享了一个微博粉丝爬虫的代码,爬取的是吴亦凡的部分粉丝(不要问我为什么选择吴亦凡),今天把数据来出来简单分享下,看看吴亦凡小盆友的粉丝妹子多,还是汉子多,嘿嘿。
数据预处理
首先,我们读入数据:
由于爬虫中断过,出现了一些重复数据,我们要去重掉。
索引没有发生变化,我们重新索引:
我们首先对地址和时间做下处理(时间数据没用到),让地址只到省份,时间只为年份:
这样我们就完成了简单的数据处理啦。
数据分析
看看男女比例情况
妹子还是多一点,但汉子也是蛮多的,看来许多汉子也是有一颗少女心得(我只是路人,黑粉请不要喷我)。
城市分布情况
广东的粉丝是最多的,由于只是数据量不多,也不能说明太多问题,大家看看就好。
领取专属 10元无门槛券
私享最新 技术干货