首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

python数据分析——数据分类汇总与统计

【例4】对groupby对象进行迭代,并打印出分组名称和每组元素。 关键技术:采用for函数进行遍历, name表示分组名称, group表示分组数据。...,它可以被看做一个固定大小映射: map_Series = pd.Series(mapping) print(map_Series) people.groupby(map_Series,axis =...【例16】用特定于分组值填充缺失值 对于缺失数据清理工作,有时你会用dropna将其替换掉,而有时则可能会希望用一个固定值或由数据集本身所衍生出来值去填充NA值。...True时,行/列小计和总计名称; 【例17】对于DataFrame格式某公司销售数据workdata.csv,存储在本地数据形式如下,请利用Python数据透视表分析计算每个地区销售总额和利润总额...: 行名称 margins : 总计行/列 normalize:将所有值除以值总和进行归一化,True时候显示百分比 dropna :是否刪除缺失值 【例19】根据国籍和用手习惯对这段数据进行统计汇总

19610
您找到你想要的搜索结果了吗?
是的
没有找到

30 个小例子帮你快速掌握Pandas

如果我们将groupby函数as_index参数设置False,则组名将不会用作索引。 16.带删除重置索引 在某些情况下,我们需要重置索引并同时删除原始索引。...df_new.insert(0, 'Group', group) df_new ? 第一个参数是位置索引,第二个参数是列名称,第三个参数是值。...低基数意味着与行数相比,一列具有很少唯一值。例如,Geography列具有3个唯一值和10000行。 我们可以通过将其数据类型更改为category来节省内存。...用于计算一系列值中百分比变化。...29.根据字符串过滤 我们可能需要根据文本数据(例如客户名称)过滤观察结果(行)。我已经将虚构名称添加到df_new DataFrame中。 ? 让我们选择客户名称以Mi开头行。

10.7K10

玩转Pandas,让数据处理更easy系列6

04 分(splitting) 分组就是根据默认索引映射不同索引取值分组名称,来看如下所示DataFrame实例df_data,可以按照多种方式对它分组,直接调用groupby接口, ?...df_data.groupby('A') 默认是按照axis=0分组(行),如果按照列,修改轴,即 df_data.groupby('A' , axis=1) 也可以按照多个列分组,比如: df_data.groupby...get_group可以取得对应组内行,如下图所示, agroup = df.groupby('A') agroup.get_group('foo') ?...同样方法,看下bar组包括行: agroup = df.groupby('A') agroup.get_group('bar') ?...如果根据两个字段组合进行分组,如下所示,对应分组总和, abgroup = df.groupby(['A','B']) abgroup.aggregate(np.sum) ?

2.7K20

Python 数据分析(PYDA)第三版(五)

结果索引名称是 "key1",因为 DataFrame 列 df["key1"] 是这样。...这意味着: df.groupby("key1")["data1"] df.groupby("key1")[["data2"]] 是方便df["data1"].groupby(df["key1"])...表 10.1:优化groupby方法 函数名称 描述 any, all 如果任何(一个或多个值)或所有非 NA 值“真值”则返回True count 非 NA 值数量 cummin, cummax...您不需要接受 GroupBy 列提供名称;特别是,lambda函数名称为"",这使得它们难以识别(您可以通过查看函数__name__属性来自行查看)。...幸运是,pandas 具有一整套标准时间序列频率和重新采样工具(稍后在重新采样和频率转换中更详细地讨论),可以推断频率并生成固定频率日期范围。

9900

数据导入与预处理-第6章-02数据变换

等宽法 等宽法将属性值域从最小值到最大值划分成具有相同宽度区间,具体划分多少个区间由数据本身特点决定,或者由具有业务经验用户指定 等频法 等频法将相同数量值划分到每个区间,保证每个区间数量基本一致...pivot_table透视过程如下图: 假设某商店记录了5月和6月活动期间不同品牌手机促销价格,保存到以日期、商品名称、价格列标题表格中,若对该表格商品名称列进行轴向旋转操作,即将商品名称一列唯一值变换成列索引...(index='出售日期', columns='商品名称',values='价格(元)') new_df 输出: 2.2.2 melt方法 melt()是pivot()逆操作方法,用于将DataFrame...= df_obj.groupby(by="key") groupby_obj 输出GroupBy对象不可查看,可以遍历过去其中数据 遍历DataFrameGroupBy类对象: # 遍历DataFrameGroupBy...输出: 查看DF值: # 根据列表对df_obj进行分组,列表中相同元素对应行会归一组 groupby_obj = df_obj.groupby(by=['A', 'A', 'B', '

19.2K20

Pandas

更改名称 pd中一个df一般会有两个位置有名称,一个是轴名称(axis_name),一个是行或列名称,两个名称可以在创建df时进行声明,也可以调用方法进行修改: df.rename_axis(str...,axis=0):修改轴名称 df.rename(mapper,axis=0/1):用于修改行或者列标签名称,mapper指的是一种映射关系,可以写一个字典,也可以引入一个函数(函数输入参数要修改标签名称...):根据 to_match 情况返回一个对 list 索引,值 list 索引值 分组 Pandas 提供了 DataFrame.groupby()方法,按照指定分组键,将具有相同键值记录划分为同一组...,将具有不同键值记录划分到不同组,并对各组进行统计计算。...DatetimeIndex 是用来指代一系列时间点一种数据结构,而 PeriodIndex 则是用来指代一系列时间段数据结构。

9.1K30

这些游戏发行大厂最近几年上架iOS产品状态

厂商在线运营游戏产品数量 在线 = df[df['当前状态']=='在线'] 在线.groupby('厂商')['应用名称'].count().to_frame('应用数量').sort_values(...厂商在2021年元旦至今仍有版本更新在线运营产品 live游戏 = df[(df['最近更新日期']>='2021-01-01') & (df['当前状态']=='在线')] live游戏.groupby...各游戏发行上架产品年份趋势 我们以年份频率看游戏发行上架产品情况,可以看到: B站则在2019和2020年都有不错产品线,今年也已经发布了1款好像是付费游戏; 网易、腾讯超级大厂则在最近几年每年上架产品数稍有下降...胡桃日记 全明星激斗:SNK系列授权3D策略卡牌手游 ? 全明星激斗 航海王热血航线:正版航海王3D动作手游 ? 航海王热血航线 小森生活:治愈心灵模拟养成手游 ?...全民奇迹2 秦时明月世界:《秦时明月》系列动画独家授权改编3D MMORPG手游 ? 秦时明月世界

39420

信用卡“坏账”客户分析(一)

银行以及私营企业推出了各种各样消费金融服务,具有代表性是各大银行信用卡,支付宝花呗、京东白条,还有一些专门针对针对学生群体平台,比如趣分期哈、分期乐之类,把这些统称为信用卡用户。...本篇将针对历史坏账用户进行分析,分析坏账用户都有哪些特征,后续建模做准备。...(["信贷数量","固定资产贷款量"]) 固定资产贷款数量大于50算作异常值,删除。...这可能是在月收入在15000以下群体中,大部分收入来源比较固定,收入越多,坏账可能性越低。而月收入大于20000这一部分人可能不是从事普通工作,收入不太固定,所以坏账可能性比较大。...变量逾期30-59天笔数和固定资产贷款量相关系数最大为0.43,可用额度比值和信贷数量相关系数也0.34,可能是这个人贷款频次多,比较活跃,银行给了更多额度,但是他每次贷款额度较低,所以就会出现可用额度比值较高

4.4K80

5分钟掌握Pandas GroupBy

我们希望比较不同营销渠道,广告系列,品牌和时间段之间转化率,以识别指标的差异。 Pandas是非常流行python数据分析库,它有一个GroupBy函数,提供了一种高效方法来执行此类数据分析。...= X df['target'] = y df.head() 基本用法 此函数最基本用法是将GroupBy添加到整个dataframe并指定我们要进行计算。...df.groupby(['job']).mean() ? 如果我们想要更具体一些,我们可以取dataframe一个子集,只计算特定列统计信息。...聚合命名 NamedAgg函数允许多个聚合提供名称,从而提供更清晰输出。...除了使用GroupBy在同一图表中创建比较之外,我们还可以在多个图表中创建比较。 df[['duration', 'target']].groupby('target').boxplot() ?

2.2K20

高手系列!数据科学家私藏pandas高阶用法大全 ⛵

这篇是从数据科学家朋友那里搞到私藏,快一起薅羊毛 作者:韩信子@ShowMeAI 数据分析实战系列:https://www.showmeai.tech/tutorials/40 本文地址:https..., 8, 9] df # df doesn't change 图片 2:Groupby().count 与 Groupby().size 如果你想获得 Pandas 一列计数统计,可以使用groupby...如果调用combine_first()方法 df1 中数据非空,则结果保留 df1 中数据,如果 df1 中数据空值且传入combine_first()方法 df2 中数据非空,则结果取 df2...我们可以根据名称子字符串过滤 pandas DataFrame 列,具体是使用 pandas DataFrame.filter功能。...Pandas 具有 style 属性,可以设置颜色应用于 DataFrame。

6.1K30

新人赛《金融风控贷款违约》避坑指南!

- earliesCreditLine 借款人最早报告信用额度开立月份 - title 借款人提供贷款名称 - policyCode 公开可用策略_代码=1新产品不公开可用策略_代码=2 -...n系列匿名特征 匿名特征n0-n14,一些贷款人行为计数特征处理 三、数据分析: 数据探索性分析即我们常说EDA过程,此过程以了解数据,熟悉数据,后续特征工程做准备目的。...TSV与CSV区别: 从名称上即可知道,TSV是用制表符(Tab,'\t')作为字段值分隔符;CSV是用半角逗号(',')作为字段值分隔符; Python对TSV文件支持: Pythoncsv...固定宽度分箱非常容易计算,但如果计数值中有比较大缺口,就会产生很多没有任何数据空箱子。...KS值[0.2,0.3],模型具有一定区分能力,勉强可以接受 KS值[0.3,0.5],模型具有较强区分能力。 KS值大于0.75,往往表示模型有异常。

2.7K62

Pandas太慢?快使用Vaex DataFrame,每秒数亿数据算起来 ⛵

2.统计:分组聚合数据分析中最常见操作之一就是分组聚合统计,在 Vaex 中指定聚合操作主要有两种方式:① 指定要聚合列,以及聚合操作方法名称。...② 指定输出列名称,然后显式实现vaex聚合统计方法。下面我们看下如何实际操作。本文后续部分,我们将使用 NYC Taxi 数据集一个子集,包含10亿+条数据记录。...Vaex 还支持如下第2种方式:df.groupby(df.vendor_id, progress='widget').agg( {'fare_amount_norm': vaex.agg.mean...passenger_count 2 和 4 数据进行聚合统计:df.groupby(df.vendor_id, progress='widget').agg( {'fare_amount_mean_all...实际在巨型文件上操作过程和结果是下面这样:with vaex.progress.tree('rich'): result_1 = df.groupby(df.passenger_count,

2K71

《利用Python进行数据分析·第2版》第10章 数据聚合与分组运算10.1 GroupBy机制10.2 数据聚合10.3 apply:一般性“拆分-应用-合并”10.4 透视表和交叉表10.5 总

之所以结果中索引名称为key1,是因为原始DataFramedf['key1']就叫这个名字。...也就是说: df.groupby('key1')['data1'] df.groupby('key1')[['data2']] 是以下代码语法糖: df['data1'].groupby(df['key1...任何被当做分组键函数都会在各个索引值上被调用一次,其返回值就会被用作分组名称。具体点说,以上一小节示例DataFrame例,其索引值为人名字。...你并非一定要接受GroupBy自动给出那些列名,特别是lambda函数,它们名称是'',这样辨识度就很低了(通过函数name属性看看就知道了)。...首先,编写一个选取指定列具有最大值函数: In [74]: def top(df, n=5, column='tip_pct'): ....: return df.sort_values

4.9K90
领券