专栏首页源懒由码pandas系列 - (一)明细数据汇总简单场景应用

pandas系列 - (一)明细数据汇总简单场景应用

官方文档:https://pandas.pydata.org/pandas-docs/stable/user_guide/index.html

虽然可以直接查官方文档,不过还是结合一些实际场景,方便记忆,预计做一个使用的系列,涉及平时常见的数据处理应用。

从数据处理的角度来说,主要还是看怎么方便怎么来,少量的数据,简单的,直接EXCEL就可以完成了,大量的数据,或者涉及太多的表可以考虑使用python提高工作效率,没有绝对。

系列第一篇为,处理明细业务数据的python应用。
大致流程为:
1、读取源数据
2、源数据预处理
3、源数据分类汇总
4、源数据分类归并汇总

1、场景1:从多个excel读取同类型明细数据,并合并

# 读取数据
list_df = []
list_df.append(pd.read_excel(r'../data/learn_pandas/测试数据.xls',sheet_name='4',dtype=object))
list_df.append(pd.read_excel(r'../data/learn_pandas/测试数据.xls',sheet_name='5',dtype=object))
list_df.append(pd.read_excel(r'../data/learn_pandas/测试数据.xls',sheet_name='6',dtype=object))
list_df.append(pd.read_excel(r'../data/learn_pandas/测试数据.xls',sheet_name='7',dtype=object))

# 存在 concat 和 append 两种方法,都可以用于行合并,相对来说,concat可以一次性合并多个df,效率比append高
# 且concat可以进行列级别的追加,所以,推荐学会使用concat就可以了
# https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.concat.html?highlight=concat#pandas.concat
# ignor_index = True 保证索引不会重复,join = 'outer' 自动扩充列
df = pd.concat(list_df, sort=False,ignore_index=True,join='outer')
df.head(2)

2、场景2:数据预处理,检索源数据中的缺失项目

df.isnull().any()   # 查看哪一列存在空值

在知道哪些列存在空值后,进行数据预预处理。注意:

1、对于多种类型的数据使用fillna或者where填充;否则会提示

TypeError: Cannot do inplace boolean setting on mixed-types with a non np.nan value

2、或者分同类型的列进行填充;

#df.fillna(0,inplace=True)  # 统一使用0值填充
#df.fillna(method='ffill',inplace=True) #向后填充
df.fillna(value={'地区':'其他','销售额':0},inplace=True)  # 使用字典填充

3、场景3:按地区、一类属性汇总销售额总数和平均值,aggfunc可以采用字典指定字段计算方式

pd.pivot_table(df, values=['销售额'], index=['地区','一类'], aggfunc={'销售额':[np.sum,np.mean]})

但是,这么汇总一个问题,作为报告还好,但是如果还需要继续分析,更希望是以明细的方式展现。因此:

table = pd.pivot_table(df, values=['销售额'], index=['地区','一类'], aggfunc={'销售额':[np.sum,np.mean]}).reset_index()
# 调整列名,从多重索引降为一层索引
table.columns = [''.join(x) for x in table.columns.tolist()]
table.head(2)

4、场景4:如:想看大地区的数据,则先需要对数据进行归并,如华南地区,华中地区等

# 需要有华南地区等参照表
dfcz = pd.read_excel(r'../data/learn_pandas/测试数据.xls',sheet_name='dqcz',dtype=object)
dfcz.drop_duplicates(subset=['区域','省级'],keep=False,inplace=True)  # 去重
dic_cz = dict(zip(dfcz['省级'].tolist(),dfcz['区域'].tolist()))  # 通过两个列表形成字典
df2 = df.copy()
df2['转换区域'] = df2['地区'].map(dic_cz)  # 使用map进行转换
df2.head(2)

最后,再进行一次数据透视表

table = pd.pivot_table(df2, values=['销售额'], index=['转换区域','一类'], aggfunc={'销售额':[np.sum,np.mean]})
# 调整列名,从多重索引降为一层索引
table.columns = [''.join(x) for x in table.columns.tolist()]
table.head(2)

附:使用pandas修改源数据的一个注意事项,按照官方文档注释,请勿使用链式赋值的形式,否则你会不知道到底修改是否成功https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy

参考链接:
Pandas 中 SettingwithCopyWarning 的原理和解决方案  https://www.jianshu.com/p/72274ccb647a
# 总之就是不允许使用筛选子数据来进行赋值
# 因为用了的话,你不知道有没有改到
# 所以,如果你需要修改,择直接在源数据上操作
# 对筛选后的数据进行操作,那么则使用copy()
pd.set_option('mode.chained_assignment','warn')
df = pd.DataFrame({'Animal': ['Falcon', 'Falcon', 'Parrot', 'Parrot'],'Max Speed': [1, 2, 3, 4],'Max Speed2': [380., 370., 24., 26.]})

# 跨多行代码链接索引,这里分两部分操作可以进行赋值,但是不推荐
df2 = df.iloc[0:2,:]
df2.iloc[0,'Animal'] = 2

# 链式索引这样是不会修改!
df.loc[0:2,:]['Animal'] = 2   

# 直接赋值,这样修改才比较靠谱!
df.loc[0:2,'Animal'] = 2    

未完待续。

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 关于pandas.eval使用的一些问题。

    https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.eval...

    forxtz
  • pandas系列 - (二)关于两期时点数据的比较

    统计数据来说,有时点数据和时期数据。通常情况下,会进行两期数据的比较,现整理一个两期数据比较的场景应用。主要流程分为:

    forxtz
  • pandas系列 - (三)关于时点时期数据的处理

    实际工作场景中,会遇到需要处理时序表。对于少量的时点时序数据,明细数据+数据透视表,也是很快能处理完成。大量的话,可能会出现有一点慢,同时一些计算字段的每次都要...

    forxtz
  • 6个提升效率的pandas小技巧

    文章来源:towardsdatascience 作者:B.Chen 翻译\编辑:Python大数据分析

    刘早起
  • 13个Pandas实用技巧,有点香 !

    归纳整理了一些工作中常用到的pandas使用技巧,方便更高效地实现数据分析。文章很短,不用收藏就能Get~

    用户2769421
  • 13个Pandas实用技巧,有点香 !

    先按Mt列进行分组,然后对分组之后的数据框使用idxmax函数取出Count最大值所在的列,再用iloc位置索引将行取出。有重复值的情况

    Rocky0429
  • Pandas必知必会的使用技巧,值得收藏!

    本期的主题是关于python的一个数据分析工具pandas的,归纳整理了一些工作中常用到的pandas使用技巧,方便更高效地实现数据分析。文章很短,不用收藏就能...

    小F
  • 13个Pandas奇技淫巧

    先按Mt列进行分组,然后对分组之后的数据框使用idxmax函数取出Count最大值所在的列,再用iloc位置索引将行取出。有重复值的情况

    龙哥
  • Julia中的数据分析入门

    Julia的入门非常简单,尤其是当您熟悉Python时。在本篇文章中,我们将使用约翰霍普金斯大学系统科学与工程中心在其GitHub存储库中提供的Covid-19...

    deephub
  • 从小白到大师,这里有一份Pandas入门指南

    在阅读本文时,我建议你阅读每个你不了解的函数的文档字符串(docstrings)。简单的 Google 搜索和几秒钟 Pandas 文档的阅读,都会使你的阅读体...

    代码医生工作室

扫码关注云+社区

领取腾讯云代金券