Python数据分析之小鲜肉粉丝情况数据预处理数据分析

前段时间在有讲上分享了一个微博粉丝爬虫的代码,爬取的是吴亦凡的部分粉丝(不要问我为什么选择吴亦凡),今天把数据来出来简单分享下,看看吴亦凡小盆友的粉丝妹子多,还是汉子多,嘿嘿。

数据预处理

  • 首先,我们读入数据:
import pandas as pd
import pymysql
conn = pymysql.connect(host='localhost', user='root', passwd='123456', db='test', port=3306, charset='utf8')
weibo = pd.read_sql('select * from weibo',conn)
weibo
  • 由于爬虫中断过,出现了一些重复数据,我们要去重掉。
weibo = weibo.drop_duplicates()
weibo
  • 索引没有发生变化,我们重新索引:
weibo = weibo.reset_index(drop=True)
weibo
  • 我们首先对地址和时间做下处理(时间数据没用到),让地址只到省份,时间只为年份:
city = weibo.address.str.split().str[0]
year = weibo.time.str.split('-').str[0]
weibo['city'] = city
weibo['year'] = year
weibo

这样我们就完成了简单的数据处理啦。

数据分析

  • 看看男女比例情况

妹子还是多一点,但汉子也是蛮多的,看来许多汉子也是有一颗少女心得(我只是路人,黑粉请不要喷我)。

  • 城市分布情况

广东的粉丝是最多的,由于只是数据量不多,也不能说明太多问题,大家看看就好。

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

扫码关注云+社区