首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

手把手教你用Pandas透视表处理数据(附学习资料)

所以,本文重点解释pandas中的函数pivot_table,教大家如何使用它来进行数据分析。 如果你对这个概念不熟悉,维基百科上对它做了详细的解释。...数据 使用pandas中pivot_table的一个挑战是,你需要确保你理解你的数据清楚地知道你想通过透视表解决什么问题。.../in/sales-funnel.xlsx") df.head() 方便起见,我们将上表中“Status”定义category,并按我们想要的查看方式设置顺序。...我们可能想做的是通过“Manager”和“Rep”设置索引来查看结果。 要实现它其实很简单,只需要改变索引就可以。...我一般的经验法则是,一旦你使用多个“grouby”,那么你需要评估此时使用透视是否是一种好的选择。 高级透视表过滤 一旦你生成了需要的数据,那么数据存在数据中。

3.1K50
您找到你想要的搜索结果了吗?
是的
没有找到

高效的10个Pandas函数,你都用过吗?

Insert Insert用于在DataFrame的指定位置中插入数据。默认情况下是添加到末尾的,但可以更改位置参数,添加到任何位置。...Ture表示允许的列名与已存在的列名重复 接着用前面的df: 在第三的位置插入: #的值 new_col = np.random.randn(10) #在第三位置插入,从0开始计算...: n:要抽取的行数 frac:抽取行的比例 例如frac=0.8,就是抽取其中80% replace:是否有放回抽样, True:有放回抽样 False:未放回抽样 weights:字符索引或概率数组...,False则在原数据的copy上操作 axis:行或 df中value_1里小于5的值替换为0: df['value_1'].where(df['value_1'] > 5 , 0) Where...Melt Melt用于宽表变成窄表,是 pivot透视逆转操作函数,列名转换为数据(columns name → column values),重构DataFrame。

4.1K20

干货!直观地解释和可视化每个复杂的DataFrame操作

操作数据可能很快会成为一项复杂的任务,因此在Pandas中的八种技术中均提供了说明,可视化,代码和技巧来记住如何做。 ?...Pivot 透视创建一个的“透视表”,该透视数据中的现有投影表的元素,包括索引,和值。初始DataFrame中将成为索引的,并且这些显示唯一值,而这两的组合显示值。...要记住:从外观上看,堆栈采用表的二维性并将堆栈多级索引。 Unstack 取消堆叠获取多索引DataFrame对其进行堆叠,指定级别的索引转换为具有相应值的DataFrame的。...“outer”:包括来自DataFrames所有元素,即使密钥不存在于其他的-缺少的元素被标记为NaN的。 “inner”:仅包含元件的键是存在于两个数据键(交集)。默认合并。...尽管可以通过axis参数设置1来使用concat进行列式联接,但是使用联接 会更容易。 请注意,concat是pandas函数,而不是DataFrame之一。

13.3K20

Pandas 秘籍:1~5

默认情况下,set_index和read_csv都将从数据中删除用作索引的。 使用set_index,可以通过drop参数设置False保留在数据中。...操作步骤 创建的最简单方法是其分配标量值。 的名称作为字符串放入索引运算符。 让我们在电影数据集中创建has_seen以指示我们是否看过电影。 我们将为每个值分配零。...所得的序列本身也具有sum方法,该方法可以使我们在数据中获得总计的缺失值。 在步骤 4 中,数据的any方法返回布尔值序列,指示每个是否存在至少一个True。...any方法再次链接到该布尔结果序列上,以确定是否有任何列缺少值。 如果步骤 4 求值True,则整个数据中至少存在一个缺失值。 更多 电影数据集中具有对象数据类型的大多数列都包含缺少的值。...这在第 3 步中得到确认,在第 3 步中,结果(没有head方法)返回数据,并且可以根据需要轻松地将其作为附加到数据中。axis等于1/index的其他步骤返回数据行。

37.2K10

数据科学学习手札06)Python在数据框操作上的总结(初级篇)

(0)还是按向右拼接(1),默认0 ingore_index:axis所在方向上标签在合并后是否重置,默认False keys:是否对拼接的几个素材数据框进行二级标号(即在每部分子数据框拼接开始处创建外层标签...,储存对两个数据框中重复非联结键进行重命名的后缀,默认为('_x','_y') indicator:是否生成一值_merge,来合并后的每行标记其中的数据来源,有left_only,right_only...6.数据框的抽样筛选 利用df.sample()来对原数据框进行一定比例的随机抽取打乱顺序,主要参数如下: frac:返回的抽样行数占总行数的比例,若想进行全排列则设置1 replace:采取放回还是不放回...,默认不放回,即False weights:根据axis的方向来定义该方向上的各行或的入样概率,长度需与对应行或的数目相等,当权重之和不为0时,会自动映射1 a = [i for i in range...'表示最后一个,False表示全部删除 inplace:默认为False,即返回一个原数据框去重后的数据框,True则返回原数据框去重后变更的数据框 df.drop_duplicates(subset

14.2K51

使用Python Pandas处理亿级数据

首先调用 DataFrame.isnull() 方法查看数据表中哪些空值,与它相反的方法是 DataFrame.notnull() ,Pandas会将表中所有数据进行null计算,以True/False...对数据的丢弃,除无效值和需求规定之外,一些表自身的冗余也需要在这个环节清理,比如说表中的流水号是某两个字段拼接、类型描述等,通过对这些数据的丢弃,数据文件大小4.73GB,足足减少了4.04G...pandas.merge ,groupby 9800万行 x 3的时间99秒,连接表和生成透视表的速度都很快,就没有记录。...根据透视表生成的交易/查询比例饼图: ?...△ 交易/查询比例饼图 日志时间加入透视输出每天的交易/查询比例图: total_actions = fullData.pivot_table('SVID', index='TIME', columns

6.7K50

在Python中利用Pandas库处理大数据

首先调用 DataFrame.isnull() 方法查看数据表中哪些空值,与它相反的方法是 DataFrame.notnull() ,Pandas会将表中所有数据进行null计算,以True/False...对数据的丢弃,除无效值和需求规定之外,一些表自身的冗余也需要在这个环节清理,比如说表中的流水号是某两个字段拼接、类型描述等,通过对这些数据的丢弃,数据文件大小4.73GB,足足减少了4.04G...pandas.merge ,groupby 9800万行 x 3的时间99秒,连接表26秒,生成透视表的速度更快,仅需5秒。...根据透视表生成的交易/查询比例饼图: ?...日志时间加入透视输出每天的交易/查询比例图: total_actions = fullData.pivot_table('SVID', index='TIME', columns='TYPE',

2.8K90

【Python环境】使用Python Pandas处理亿级数据

首先调用 DataFrame.isnull() 方法查看数据表中哪些空值,与它相反的方法是 DataFrame.notnull() ,Pandas会将表中所有数据进行null计算,以True/False...对数据的丢弃,除无效值和需求规定之外,一些表自身的冗余也需要在这个环节清理,比如说表中的流水号是某两个字段拼接、类型描述等,通过对这些数据的丢弃,数据文件大小4.73GB,足足减少了4.04G...pandas.merge ,groupby 9800万行 x 3的时间99秒,连接表和生成透视表的速度都很快,就没有记录。...根据透视表生成的交易/查询比例饼图: ?...△ 交易/查询比例饼图 日志时间加入透视输出每天的交易/查询比例图: total_actions = fullData.pivot_table('SVID', index='TIME', columns

2.2K50

【学习】在Python中利用Pandas库处理大数据的简单介绍

首先调用 DataFrame.isnull() 方法查看数据表中哪些空值,与它相反的方法是 DataFrame.notnull() ,Pandas会将表中所有数据进行null计算,以True/False...对数据的丢弃,除无效值和需求规定之外,一些表自身的冗余也需要在这个环节清理,比如说表中的流水号是某两个字段拼接、类型描述等,通过对这些数据的丢弃,数据文件大小4.73GB,足足减少了4.04G...以及 pandas.merge ,groupby 9800万行 x 3的时间99秒,连接表26秒,生成透视表的速度更快,仅需5秒。...根据透视表生成的交易/查询比例饼图: ?...日志时间加入透视输出每天的交易/查询比例图: total_actions = fullData.pivot_table('SVID', index='TIME', columns='TYPE',

3.2K70

Pandas 秘籍:6~11

默认情况下,pandas 对分组进行排序。sort参数存在于groupby方法中,并且默认为True。 您可以将其设置False,以使分组的顺序与在数据集中遇到分组的顺序相同。...Pandas 还从外部从零开始按整数引用索引。 步骤 3 显示了一种重命名列的简单直观的方法。 您可以通过columns属性设置等于列表来简单地整个数据设置。...当expand参数设置True时,将为每个独立的分割字符段形成一个。 当False时,返回单个,其中包含所有段的列表。 在第 4 步中重命名列之后,我们需要再次使用str访问器。...步骤 5 显示了一个小技巧,可以动态地标签设置数据中的当前行数。 只要索引标签与列名匹配,存储在序列中的数据也将得到正确分配。...pandas plot方法非常通用,具有大量参数,可让您根据自己的喜好自定义结果。 例如,您可以设置图形大小,打开和关闭网格线,设置 x 和 y 轴的范围,图形着色,旋转刻度线,以及更多。

33.8K10

使用 Pandas 处理亿级数据

首先调用 DataFrame.isnull() 方法查看数据表中哪些空值,与它相反的方法是 *DataFrame.notnull() *,Pandas会将表中所有数据进行null计算,以True/False...对数据的丢弃,除无效值和需求规定之外,一些表自身的冗余也需要在这个环节清理,比如说表中的流水号是某两个字段拼接、类型描述等,通过对这些数据的丢弃,数据文件大小4.73GB,足足减少了4.04G...pandas.merge ,groupby 9800万行 x 3的时间99秒,连接表26秒,生成透视表的速度更快,仅需5秒。...根据透视表生成的交易/查询比例饼图: ?...日志时间加入透视输出每天的交易/查询比例图: total_actions = fullData.pivot_table('SVID', index='TIME', columns='TYPE',

2.1K40

使用Python Pandas处理亿级数据

首先调用 DataFrame.isnull() 方法查看数据表中哪些空值,与它相反的方法是 DataFrame.notnull() ,Pandas会将表中所有数据进行null计算,以True/False...对数据的丢弃,除无效值和需求规定之外,一些表自身的冗余也需要在这个环节清理,比如说表中的流水号是某两个字段拼接、类型描述等,通过对这些数据的丢弃,数据文件大小4.73GB,足足减少了4.04G...数据处理 使用 DataFrame.dtypes 可以查看每数据类型,Pandas默认可以读出int和float64,其它的都处理object,需要转换格式的一般日期时间。...pandas.merge ,groupby 9800万行 x 3的时间99秒,连接表26秒,生成透视表的速度更快,仅需5秒。...根据透视表生成的交易/查询比例饼图: 日志时间加入透视输出每天的交易/查询比例图: total_actions = fullData.pivot_table('SVID', index='TIME

2.2K70

python数据分析——数据分类汇总与统计

例如, DataFrame可以在其行(axis=0)或(axis=1)上进行分组。然后,一个函数应用(apply)到各个分组产生一个值。..., margins=False, dropna=True) 参数说明: data =原始数据,要应用透视表的数据框; index=用于分组的列名或其他分组键,出现在结果透视表的行; columns...True时,行/小计和总计的名称; 【例17】对于DataFrame格式的某公司销售数据workdata.csv,存储在本地的数据的形式如下,请利用Python的数据透视表分析计算每个地区的销售总额和利润总额...normalize:所有值除以值的总和进行归一化,True时候显示百分比 dropna :是否刪除缺失值 【例19】根据国籍和用手习惯对这段数据进行统计汇总。...关键技术:可以通过resample()函数对数据进行采样,设置参数’M’,表示以“月”单位的采样。

15110

Python报表自动化

这样计算分成贷款金额时就只需要将表的贷款金额及合并成一的分成比例进行相乘。得出每个分成比例对于的分成贷款金额,最后分成贷款金额按照单位及用途进行数据透视。...这里我们通过判断日期是否2019年(大于2018-12-31)返回TRUE/FALSE进行选择判断。这种利用判断条件来选择数据的方式叫布尔索引。...3.4数据追加合并 接下来我们需求是三个分离的表进行纵向的拼接。在我们的例子中,需要将三个表的单位及分成比例字段追加在同一。但是目前三个表中的单位及分成比例字段名字是不一致的,不能直接追加。...3.5数据分组/透视 3.5.1空值处理 此时利用info()返回的数据可以判断data4是否存在空值。...根据业务逻辑可知,如果单位列数据空,则一定不存在分成比例,即:分成比例也空。那么该条记录就是无效的。因此可以直接将其删除。使用dropna()函数进行空值处理。

4K41
领券