Python数据分析之小鲜肉粉丝情况数据预处理数据分析

前段时间在有讲上分享了一个微博粉丝爬虫的代码,爬取的是吴亦凡的部分粉丝(不要问我为什么选择吴亦凡),今天把数据来出来简单分享下,看看吴亦凡小盆友的粉丝妹子多,还是汉子多,嘿嘿。

数据预处理

  • 首先,我们读入数据:
import pandas as pd
import pymysql
conn = pymysql.connect(host='localhost', user='root', passwd='123456', db='test', port=3306, charset='utf8')
weibo = pd.read_sql('select * from weibo',conn)
weibo
  • 由于爬虫中断过,出现了一些重复数据,我们要去重掉。
weibo = weibo.drop_duplicates()
weibo
  • 索引没有发生变化,我们重新索引:
weibo = weibo.reset_index(drop=True)
weibo
  • 我们首先对地址和时间做下处理(时间数据没用到),让地址只到省份,时间只为年份:
city = weibo.address.str.split().str[0]
year = weibo.time.str.split('-').str[0]
weibo['city'] = city
weibo['year'] = year
weibo

这样我们就完成了简单的数据处理啦。

数据分析

  • 看看男女比例情况

妹子还是多一点,但汉子也是蛮多的,看来许多汉子也是有一颗少女心得(我只是路人,黑粉请不要喷我)。

  • 城市分布情况

广东的粉丝是最多的,由于只是数据量不多,也不能说明太多问题,大家看看就好。

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

2 条评论
登录 后参与评论

相关文章

来自专栏iKcamp

翻译连载 |《你不知道的JS》姊妹篇 |《JavaScript 轻量级函数式编程》- 第 1 章:为什么使用函数式编程?

原文地址:Functional-Light-JS 原文作者:Kyle Simpson-《You-Dont-Know-JS》作者 第 1 章:为什么使用函数式编程...

2255
来自专栏懒人开发

(11)James Stewart Calculus 5th Edition:Infinite Sequences and Series

哎,其实很多一样的东西 在不同学科,翻译成中文,都翻译得变样了 如果从小都学英文课本 该是多么好的一件事情啊!!

924
来自专栏程序员互动联盟

【编程指导】如何学习C语言,致初学者朋友

最近会有一些低年级的同学问,C语言不会写代码怎么办?大致上都是一些类似的问题吧,回想一下自己走过的路,反复的思考然后写了这篇博客,希望可以对一些迷惘的同学一丝帮...

3376
来自专栏二进制文集

《代码整洁之道》

写整洁代码,需要遵循大量的小技巧,贯彻刻苦习得的“整洁感”。这种“代码感”就是关键所在。有些人生而有之。有些人费点劲才能得到。它不仅让我们看到代码的优劣,还予我...

742
来自专栏程序人生

谈谈边界(Boundary)

上篇文章(Phoenix 1.3,迈向正确的道路)简单提了下「边界」,今早在火车上,顺着这个思路想了下去,写了篇 slide,中午分享给了团队。 我们做系统,做...

2496
来自专栏落影的专栏

程序员进阶之算法练习(一)

前言 我对编程能力的认知包括三块: 基础知识:数据库、操作系统、网络原理等; 编码能力:软件架构(MVVM、MVP)、设计模式、编程语言(C、JAVA、C++)...

3516
来自专栏腾讯Bugly的专栏

【Dev Club分享】微信读书iOS性能优化

“8小时内拼工作,8小时外拼成长”这是大家共同的理想。除了每天忙于工作外,我们都希望能更多地区吸收领域内的新知识与新技能,从而走向人生巅峰。 Dev Club ...

3125
来自专栏Java架构师学习

Java开发必读--初识微服务一定要阅读这篇文章微服务是什么?

或许在座的高朋了解过其概念。个人认为,与其说微服务是一种技术,不如将其定义为一种架构,而架构则是“技”的实现与“术”的策略相辅相成。“术”的策略需要分析使用场景...

651
来自专栏Cloud Native - 产品级敏捷

微服务架构 (三): 在微服务的架构中, 也许不需要 Integration Hub

2016.8.12, 深圳, Ken Fang  在微服务的核心概念中, api layer 主要是在微服务与微服务外部的使用者界面、系统或设备之间构建 end...

1778
来自专栏程序员的诗和远方

20180722_ARTS_week04

这题寻找两个已经排好序的数组的中值,一开始思路比较简单,两个数组合一起,然后排个序就很容易找到中值了。

931

扫码关注云+社区