前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >手把手教你用 pandas 分析可视化东京奥运会数据!

手把手教你用 pandas 分析可视化东京奥运会数据!

作者头像
刘早起
发布2022-09-21 10:52:52
1.3K0
发布2022-09-21 10:52:52
举报
文章被收录于专栏:早起Python早起Python

大家好,我是早起。

本文将基于东京奥运会奖牌榜数据,使用 pandas 进行数据分析可视化实战(文末可以下载数据与源码)

数据读取

首先是奥运会奖牌数据的获取,虽然有很多接口提供数据,但是通过奥运会官网拿到的数据自然是最可靠的

通过对东京奥运会官网奖牌榜的页面分析,发现其表格在前端是通过 <table> 嵌入的,所以可以使用 pandas.read_html() 轻松读取

代码语言:javascript
复制
df1 = pd.read_html("https://olympics.com/tokyo-2020/olympic-games/zh/results/all-sports/medal-standings.htm")[0]

之后再读取本地分日奖牌数据并将国家ID进行匹配

代码语言:javascript
复制
df2 = pd.read_csv("东京奥运会奖牌分日数据.csv")

修改列名

注意到上面的 df1 列名并没有完整,所以可以使用 rename 函数修改指定列的名称

代码语言:javascript
复制
df1.rename(columns={'Unnamed: 2':'金牌数',
                  'Unnamed: 3':'银牌数',
                  'Unnamed: 4':'铜牌数'},inplace=True) 

数据类型查看与修改

既然 df2 有时间列,为了方便后面分析,自然要检查一下其类型

代码语言:javascript
复制
df2.info()

可以看到,获奖时间列虽然没有缺失值但其并不是pandas支持的时间类型。

好在修改列属性并不是什么困难的事情,一行代码轻松搞定(7-12

代码语言:javascript
复制
df2['获奖时间'] = pd.to_datetime(df2['获奖时间'])

数据合并

通过观察可以发现,df2并没有 国家名称 列,但是其与 df1 有一个共同列 国家id

为了给 df2 新增一列 国家名称 列,一个自然的想法就是通过 国家id 列将两个数据框进行合并,在 pandas 中实现,也不是什么困难的事情

代码语言:javascript
复制
temp = pd.merge(df1,df2,on = '国家id') #先合并
temp['获奖时间'] = pd.to_datetime(temp['获奖时间'])#修改类型
temp = temp.sort_values(by=['获奖时间','奖牌类型'], ascending=True, ignore_index=True)#排序,和df2一样
df2['国家'] = temp['国家奥委会']#赋值

现在 df2 就调整的差不多了(由于源数据问题,部分获奖时间与真实时间有一定误差),下面开始进行分析

数据分组

下面对 df2 进行一些统计分析,计算每个国家的奖牌总数(也就是出现次数),并查看奖牌数前5名,结果可以用 df1 进行验证

数据统计

看完国家奖牌排行,接下来计算获得奖牌最多的运动员(注意:仅统计单人项目)

这里无需使用分组功能,只需要按照运动员姓名列进行频率统计即可。

数据筛选

下面筛选出全部乒乓球的获奖信息,这里的筛选有多种写法,你能写出几种?

数据透视

现在查看各国在各项目上的奖牌详情,下面是通过透视得到的答案,但你会使用使用数据分组功能吗?

代码语言:javascript
复制
pd.pivot_table(df2,values = ['奖牌类型'],index = ['国家','运动类别'],aggfunc = 'count')

数据查询

在上一题的基础上,查询中国队的获奖牌详情,注意是查询而不是筛选,所以使用上上一题的方法将会报错

代码语言:javascript
复制
result.query("国家 == ['中国']")

个性化查看

如何将上一题的结果进一步突出展示,可以使用 pandas 中的 style

代码语言:javascript
复制
(result.query("国家 == ['中国']")
.style
.bar(subset=['奖牌类型'],color='skyblue'))

数据格式化

上面说到,df2 的获奖时间部分并不准确(主要体现在小时上),所以我们干脆将时间精确到天,这里可以使用 map 对一整列进行操作

代码语言:javascript
复制
def time_format(x):
    
    return x.strftime("%m月%d日")

df2['获奖时间'] = df2['获奖时间'].map(time_format)

分组统计

接下来,让我们统计每天产生的奖牌总数

代码语言:javascript
复制
df2.groupby("获奖时间")['国家'].count().sort_values()

可以看到,最后一天产生的奖牌数量最多

数据透视

再来查看不同项目在不同国家的分布情况,同样也可以使用分组功能实现

代码语言:javascript
复制
pd.pivot_table(df2,values = ['奖牌类型'],index = ['运动类别','国家'],aggfunc = 'count')

数据计算

接下来让我们计算中国每日总奖牌数量,你能想到该如何实现吗?

代码语言:javascript
复制
pd.pivot_table(df2,values = ['奖牌类型'],index = ['获奖时间','国家'],aggfunc = 'count').query("国家 == ['中国']").cumsum()

数据计算

最后,计算前十名各国每日奖牌数量统计,注意:对于第一天没有数据的国家用0填充,其余时间的缺失值用上一日数据填充。

这看似简单的问题,涉及的 pandas 操作还真不少!

代码语言:javascript
复制
data = pd.pivot_table(df2,values = ['奖牌类型'],index = ['获奖时间','国家'],aggfunc = 'count').query("国家 == ['美国', '中国', '日本', '英国', 'ROC', '澳大利亚', '荷兰', '法国', '德国', '意大利']")
data = data.unstack()
data.columns = data.columns.get_level_values(1)
data.columns.name = None
data = data.cumsum()
data = data.fillna(axis=0,method='ffill').fillna(0)
data

条形图

首先制作奖牌排行榜

上图使用 matplotlib 制作,看起来不错,但代码量也确实不少

堆叠图

接下来使用 pyecharts 绘制上一题奖牌榜各奖牌的细分

使用 pyecharts 的好处就是使用封装好的方法,代码量相对较少

环形图

现在进一步绘制中国队的奖牌分布

同样使用 pyecharts ,实际行代码搞定

地图

现在绘制奖牌分布的热力地图

使用 pyecharts 绘制,绘图代码不多,但是调整国家中英文映射字典是一件痛苦的事情

动态图

最后绘制每日奖牌榜前十奖牌数量的动态图,使用 matplotlibpyecharts 均得不到较好的效果,所以这里使用另一个第三方库 bar_chart_race 进行绘制

以上就是基于 2020年东京奥运会 数据进行的一系列数据分析可视化流程,基本涉及到利用 Pandas 进行数据分析的主要操作,是一份不可多得的简单易懂、利于探索的数据集。

本文全部内容均取自「pandas进阶修炼300题」中实战案例3,如果你也想真实操作一遍,可以点击下方文章查看如何下载数据与源码~

点击下载「pandas进阶修炼300题」👇

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2021-09-25,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 早起Python 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 数据读取
  • 修改列名
  • 数据类型查看与修改
  • 数据合并
  • 数据分组
  • 数据统计
  • 数据筛选
  • 数据透视
  • 数据查询
  • 个性化查看
  • 数据格式化
  • 分组统计
  • 数据透视
  • 数据计算
  • 数据计算
  • 条形图
  • 堆叠图
  • 环形图
  • 地图
  • 动态图
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档