开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

Pandas在GroupBy之后保留其他列-而不是一个总和

Pandas是一个基于Python的数据分析库，提供了丰富的数据结构和数据分析工具。在Pandas中，GroupBy是一种强大的数据聚合操作，可以根据指定的列对数据进行分组，并对每个组进行相应的计算。

当使用GroupBy操作后，有时我们希望保留其他列的原始值，而不是对它们进行聚合计算。这可以通过使用transform函数来实现。transform函数可以将指定的函数应用于每个组，并将结果广播回原始数据的相应位置。

下面是一个示例代码，演示了如何在GroupBy之后保留其他列的原始值：

import pandas as pd

# 创建一个示例DataFrame
data = {'A': ['foo', 'bar', 'foo', 'bar', 'foo', 'bar', 'foo', 'foo'],
        'B': ['one', 'one', 'two', 'two', 'two', 'one', 'two', 'one'],
        'C': [1, 2, 3, 4, 5, 6, 7, 8],
        'D': [10, 20, 30, 40, 50, 60, 70, 80]}
df = pd.DataFrame(data)

# 对列A进行分组，并计算列C的总和
grouped = df.groupby('A')
sum_c = grouped['C'].transform('sum')

# 将计算结果添加为新列
df['Sum_C'] = sum_c

# 打印结果
print(df)

运行以上代码，输出结果如下：

     A    B  C   D  Sum_C
0  foo  one  1  10     16
1  bar  one  2  20     12
2  foo  two  3  30     16
3  bar  two  4  40     12
4  foo  two  5  50     16
5  bar  one  6  60     12
6  foo  two  7  70     16
7  foo  one  8  80     16

在上述示例中，我们首先使用groupby('A')对列A进行分组。然后，使用transform('sum')计算每个组的列C的总和，并将结果广播回原始数据的相应位置。最后，将计算结果添加为新列Sum_C。

Pandas的GroupBy操作和transform函数在数据分析和数据处理中非常常用。它们可以帮助我们对数据进行灵活的分组和聚合操作，同时保留其他列的原始值，以满足不同的分析需求。

腾讯云相关产品和产品介绍链接地址：

腾讯云官网：https://cloud.tencent.com/
云服务器（CVM）：https://cloud.tencent.com/product/cvm
云数据库 MySQL 版：https://cloud.tencent.com/product/cdb_mysql
云原生应用引擎 TKE：https://cloud.tencent.com/product/tke
人工智能平台 AI Lab：https://cloud.tencent.com/product/ailab
物联网开发平台 IoT Explorer：https://cloud.tencent.com/product/iothub
移动开发平台 MDP：https://cloud.tencent.com/product/mdp
云存储 COS：https://cloud.tencent.com/product/cos
区块链服务 BaaS：https://cloud.tencent.com/product/baas
腾讯云元宇宙：https://cloud.tencent.com/solution/virtual-universe

相关搜索:Pandas -在groupby之后将列转换为新行 Pandas groupby sum，在结果数据框中保留特定列 Pandas在groupby之后添加计数和列 Pandas在groupby之后移动多个列会导致按字母顺序移动列 Pandas重命名操作在两列而不是一列上更改列名为什么我的Pandas dataframe列显示在另一个列的顶部，而不是水平显示？使用pandas groupby，但保持其他列的顺序，然后在组内移位在concat之后，值更改为float而不是保留在int中(尝试在concat之前进行转换。)在C中，在整数之后(而不是在整数之前)保留空间在groupby之后，根据其他列的值之间的数据帧范围，对单独的列求和

相关搜索:

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

干货分享|如何用“Pandas”模块来做数据的统计分析！！

在上一篇讲了几个常用的“Pandas”函数之后，今天小编就为大家介绍一下在数据统计分析当中经常用到的“Pandas”函数方法，希望能对大家有所收获。...01 groupby函数 Python中的groupby函数，它主要的作用是进行数据的分组以及分组之后的组内的运算，也可以用来探索各组之间的关系，首先我们导入我们需要用到的模块 import pandas...从上面的结果可以得知，在“法国”这一类当中的“女性(Female)”这一类的预估工资的平均值达到了99564欧元，“男性”达到了100174欧元当然除了求平均数之外，我们还有其他的统计方式，比如“count...我们对“EstimatedSalary”这一列做了加总的操作，而对“Balance”这一列做了求平均值的操作 02 Crosstab函数在处理数据时，经常需要对数据分组计算均值或者计数，在Microsoft...例如“Gender”这一列中，总共有两个，也就是“unique”这一列所代表的值，其中“Female”占到的比重更大，有506个，而“Male”占到的比重更小一些，有494个

8012 0

玩转Pandas，让数据处理更easy系列6

，让数据处理更easy系列5 实践告诉我们Pandas的主要类DataFrame是一个二维的结合数组和字典的结构，因此对行、列而言，通过标签这个字典的key，获取对应的行、列，而不同于Python,...分和合按照字面理解就可，但是“治”又是怎么理解，进一步将治分为3件事：聚合操作，比如统计每组的个数，总和，平均值转换操作，对每个组进行标准化，依据其他组队个别组的NaN值填充过滤操作，忽略一些组...df_data.groupby('A') 默认是按照axis=0分组的(行)，如果按照列，修改轴，即 df_data.groupby('A' , axis=1) 也可以按照多个列分组，比如： df_data.groupby...如果根据两个字段的组合进行分组，如下所示，为对应分组的总和， abgroup = df.groupby(['A','B']) abgroup.aggregate(np.sum) ?...还可以对不同的列调用不同的函数，详细过程在参考官方文档： http://pandas.pydata.org/pandas-docs/stable/groupby.html 还可以进行一些转化和过滤操作，

2.7K2 0

Python数据分析库Pandas

Pandas是一个Python数据分析库，它为数据操作提供了高效且易于使用的工具，可以用于处理来自不同来源的结构化数据。...例如，根据某一列的值来计算另一列的均值或总和。Pandas提供了多种聚合和分组的函数，如下所示。...2.1 groupby() groupby()函数可以根据某一列或多列将数据分组，例如： df.groupby('A').sum() 2.2 聚合函数 Pandas提供了丰富的聚合函数，包括求和、均值、...3.2 melt() melt()函数将宽格式的数据转换为长格式的数据，例如： df.melt(id_vars='A', 'B', value_vars='C', 'D') 其中id_vars表示要保留的列...4.1 Timestamp和DatetimeIndex 在Pandas中，可以使用Timestamp和DatetimeIndex类型来处理时间序列数据，例如： import pandas as pd

2.8K2 0

数据科学 IPython 笔记本 7.11 聚合和分组

例如，我们在year列中看到，虽然早在 1989 年就发现了系外行星，但是一半的已知系外行星直到 2010 年或之后才发现了。...相反，GroupBy可以（经常）只遍历单次数据来执行此操作，在此过程中更新每个组的总和，均值，计数，最小值或其他聚合。...，返回值不是一组DataFrame，而是一个DataFrameGroupBy对象。...例如，这里是一个apply()，它按照第二列的总和将第一列标准化： def norm_by_data2(x): # x 是分组值的数据帧 x['data1'] /= x['data2']...apply()非常灵活：唯一的规则是，函数接受一个DataFrame并返回一个 Pandas 对象或标量；在中间做什么取决于你！

3.6K2 0

Pandas用到今天，没成想竟忽略了这个函数

作为Python数分三剑客之一，Pandas素以API丰富著称，个人也是常常沉醉于其中的各种骚操作而不能自拔（好吧，有些言重了）。...transform是Pandas中的一个函数，既可组用于Series和DataFrame，也可与groupby联用作用于DataFrameGroupBy对象，所以本文主要介绍transform的两个主要功能...比如给定如下一个DataFrame： ? 需要对数值列A执行指数和对数两种运算（即对一个Series对象用transform，得到一个两列的DataFrame），显然传递函数格式需用列表，即： ?...03 与groupby配套使用 transform可用于groupby对象，这是我最初学习transform的作用，在Pandas中groupby的这些用法你都知道吗？...然而，这三种实现其实都有一个共同特点：那就是groupby之后行数一般会发生reduce（体现为行数减少），这也是通常意义下"聚合"的含义。

7672 0

使用Dask DataFrames 解决Pandas中并行计算的问题

本文的结构如下: 数据集生成处理单个CSV文件处理多个CSV文件结论数据集生成我们可以在线下载数据集，但这不是本文的重点。我们只对数据集大小感兴趣，而不是里面的东西。...因此，我们将创建一个有6列的虚拟数据集。第一列是一个时间戳——以一秒的间隔采样的整个年份，其他5列是随机整数值。为了让事情更复杂，我们将创建20个文件，从2000年到2020年，每年一个。...处理单个CSV文件目标:读取一个单独的CSV文件，分组的值按月，并计算每个列的总和。用Pandas加载单个CSV文件再简单不过了。...这是一个很好的开始，但是我们真正感兴趣的是同时处理多个文件。接下来让我们探讨如何做到这一点。处理多个CSV文件目标:读取所有CSV文件，按年值分组，并计算每列的总和。...使用Pandas处理多个数据文件是一项乏味的任务。简而言之，你必须一个一个地阅读文件，然后把它们垂直地叠起来。如果您考虑一下，单个CPU内核每次加载一个数据集，而其他内核则处于空闲状态。

4.1K2 0

Pandas GroupBy 深度总结

例如，在我们的案例中，我们可以按奖项类别对诺贝尔奖的数据进行分组： grouped = df.groupby('category') 也可以使用多个列来执行数据分组，传递一个列列表即可。...DataFrame，其中组名作为其新索引，每个数字列的平均值作为分组我们可以直接在 GroupBy 对象上应用其他相应的 Pandas 方法，而不仅仅是使用 agg() 方法。...例如我们可能希望只保留所有组中某个列的值，其中该列的组均值大于预定义值。...在我们的 DataFrame 的情况下，让我们过滤掉所有组均值小于 7,000,000 的prizeAmountAdjusted 列，并在输出中仅保留该列： grouped['prizeAmountAdjusted...将此数据结构分配给一个变量，我们可以用它来解决其他任务总结今天我们介绍了使用 pandas groupby 函数和使用结果对象的许多知识分组过程所包括的步骤 split-apply-combine

5.8K4 0

在Pandas中实现Excel的SUMIF和COUNTIF函数功能

图3：Python pandas布尔索引使用已筛选的数据框架，可以选择num_calls列并计算总和sum()。...使用groupby()方法 pandas库有一个groupby()方法，允许对组进行简单的操作（例如求和）。要使用此函数，需要提供组名、数据列和要执行的操作。...在示例中：组： Borough列数据列：num_calls列操作：sum() df.groupby('Borough')['num_calls'].sum() 图5：pandas groupby...Pandas中的SUMIFS SUMIFS是另一个在Excel中经常使用的函数，允许在执行求和计算时使用多个条件。这一次，将通过组合Borough和Location列来精确定位搜索。...使用groupby()方法如果对所有的Borough和LocationType组合感兴趣，仍将使用groupby()方法，而不是循环遍历所有可能的组合。只需将列名列表传递给groupby函数。

8.9K3 0

《Python for Excel》读书笔记连载12：使用pandas进行数据分析之理解数据

进行数据分析之核心数据结构——数据框架和系列 10.使用pandas进行数据分析之数据操作 11.使用pandas进行数据分析之组合数据有兴趣的朋友，也可以到知识星球完美Excel社群查阅完整的内容和其他更丰富资源...例如，数据点的数量是一个简单的描述性统计，而平均值，如均值、中位数或众数是其他流行的例子。数据框架和系列允许通过sum、mean和count等方法方便地访问描述性统计数据。...处理空单元格的方式一致，因此在包含空单元格的区域内使用Excel的AVERAGE公式将获得与应用于具有相同数字和NaN值（而不是空单元格）的系列的mean方法相同的结果。...，而不是mean，如果想使用自己的函数，使用agg方法。...为了使信息易于理解，没有什么比创建可视化效果更好的了，这是下一个要介绍的主题。虽然Excel使用术语图表（charts），但pandas通常将其称为绘图（plots）。在本书中会交替使用这些术语。

4.2K3 0

技术解析：如何获取全球疫情历史数据并处理

二、数据处理首先将存储在字典里面的数据保存到dataframe中，使用pandas里面的pd.DataFrame()当传进去一个字典形式的数据之后可以转换为dataframe⬇️ ?...inplace=True表示直接在原来的DataFrame上删除重复项，而默认值False表示生成一个副本于是我们我们需要根据时间进行去重，也就是每天每个国家只保留一条数据，首先把所有时间取出来 ?...虽然已经成功提取到了数据但是依旧有一个问题，并不是每天数据都是完整的，在疫情刚开始的时候，很多大洲并没有数据，这会导致绘图时的不便，而在之前的缺失值处理的文章中我们已经详细的讲解了如何处理缺失值。...这所以我们在pandas中进行处理，将缺失值填充为0，这样就搞定了。 ?...关于pandas中其他语法我们会在以后的技术解析文章中慢慢探讨，最后彩蛋时间，有没有更省事的获取历史数据的办法？

1.6K1 0

Pandas图鉴(二)：Series 和 Index

第二，保留原始标签是一种与过去某个时刻保持联系的方式，就像 "保存游戏" 按钮。如果你有一个有一百列和一百万行的大表，需要找到一些数据。...Pandas有df.insert方法，但它只能将列（而不是行）插入到数据框架中（而且对序列根本不起作用）。...，而不是第一个。...请注意，s.unique()比np.unique要快（O(N)vs O(NlogN)），它保留了顺序，而不是像np.unique那样返回排序后的结果。...这对于groupby来说是不需要的。实际上，如果组内元素不是连续存储的，它也同样能工作，所以它更接近collections.defaultdict而不是itertools.groupby。

2332 0

python数据分析——数据分类汇总与统计

默认是在axis=0上进行分组的，通过设置也可以在其他任何轴上进行分组。...关键技术: groupby函数和agg函数的联用。在我们用pandas对数据进行分组聚合的实际操作中,很多时候会同时使用groupby函数和agg函数。...所有的列都会应用这组函数。使用read_csv导入数据之后,我们添加了一个小费百分比的列tip_pct: 如果希望对不同的列使用不同的聚合函数，或一次应用多个函数，将通过下面的例来进行展示。...首先，编写一个选取指定列具有最大值的行的函数：现在,如果对smoker分组并用该函数调用apply,就会得到: top函数在DataFrame的各个片段调用，然后结果由pandas.concat...于是，最终结果就有了一个层次化索引,其内层索引值来自原DataFrame。【例14】在apply函数中设置其他参数和关键字。

1831 0

pandas速成笔记(3)-joingroupbysort行列转换

如果2个表格中的Key，名称不一样，比如第2个表格长这样，第1列不叫ID，而是stutent_id 也不影响，只要在读取时设置了索引即可，默认join时就是用index列做为key关联二、groupby...分组统计假设有一张表：想按月汇总下Amount的总和，直接使用groupby("Month") import pandas as pd df = pd.read_excel("....Category的Amount占"当月Amount总和"的占比，比如2021-09月，Amount总和为60，而9月之中，C类的Amount=30，即9月C类的Amount占9月总Amount的50%...有一个内置的transpose()方法，可以直接实现： import pandas as pd df = pd.read_excel(".... 文档 2、官网 pandas.DataFrame.groupby 文档

6973 0

数据城堡参赛代码实战篇（二）---使用pandas进行数据去重

1 上期回顾 1.1 groupby groupby用于对pandas数据进行分组，使用示例如下： card_group=card_df.groupby(['id','how'])['amount']....1.2 pivot_table pivot_table是pandas提供的透视表函数，它根据一个或多个键对数据进行聚合，并根据行列上的分组键将数据分配到各个矩形区域中。...我们使用pandas的str提供的方法，对字符串进行截取，代码如下： library_df['time_stamp']=library_df['time_stamp'].str[:10] 在pandas...中操作字符串是必须使用.str，其它用法举例如下： data.str.split(';') data.str.replace('a','b') 关于pandas中字符串的操作不是本文的重点，此处不再赘述...第二个参数是keep参数，pandas默认在去重时是去掉所有重复数据，使用keep参数可以让我们保留重复数据中的一条而删掉其他的数据，keep='last'表明保留重复数据中的最后一条，当然你也可以使用

1.4K8 0

数据分析之Pandas变形操作总结

melt函数中的id_vars表示需要保留的列，value_vars表示需要stack的一组列，value_name是value_vars对应的值的列名。...当将所有列压入行之后，就变成Series了，比如下一个例子： ddd = df_stacked.stack() ddd.groupby('Class').head(2) ?...这个参数是用来删除缺失值的，这个例子不是很好，展示不出删除缺失值，但是可以看下面分享的链接，有一个例子比较明显的展示了dropna是怎么删除缺失值的。...、总和等等数据，但是前者有一定的局限性。...(a) 现在请你将数据表转化成如下形态，每行需要显示每种药物在每个地区的10年至17年的变化情况，且前三列需要排序： df = pd.read_csv('joyful-pandas-master/data

4K2 1

30 个小例子帮你快速掌握Pandas

让我们做另一个使用索引而不是标签的示例。 df.iloc [missing_index，-1] = np.nan "-1"是最后一列Exit的索引。...在这种情况下，最好使用isin方法，而不是单独写入值。我们只传递期望值的列表。 df[df['Tenure'].isin([4,6,9,10])][:3] ?...重设索引，但原始索引保留为新列。我们可以在重置索引时将其删除。...符合指定条件的值将保持不变，而其他值将替换为指定值。 20.排名函数它为这些值分配一个等级。让我们创建一个根据客户余额对客户进行排名的列。...25.绘制直方图 Pandas不是数据可视化库，但用它创建一些基本图形还是非常简单的。我发现使用Pandas创建基本图比使用其他数据可视化库更容易。让我们创建Balance列的直方图。

10.7K1 0

3 个不常见但非常实用的Pandas 使用技巧

在本文中，将演示一些不常见，但是却非常有用的 Pandas 函数。创建一个示例 DataFrame 。...1、To_period 在 Pandas 中，操 to_period 函数允许将日期转换为特定的时间间隔。使用该方法可以获取具有许多不同间隔或周期的日期，例如日、周、月、季度等。...cumsum 是一个非常有用的 Pandas 函数。...但是它只是全部的总和没有考虑分类。在某些情况下，我们可能需要分别计算不同类别的累积和。 Pandas中我们只需要按类列对行进行分组，然后应用 cumsum 函数。...df[df["class"]=="A"].head() 类·的累积总和列包含为每个类单独计算的累积值总和。 3、Category数据类型我们经常需要处理具有有限且固定数量的值的分类数据。

1.7K3 0

3 个不常见但非常实用的Pandas 使用技巧

来源：DeepHub IMBA本文共1000字，建议阅读5分钟本文为你演示一些不常见，但是却非常有用的 Pandas 函数。创建一个示例 DataFrame 。...To_period 在 Pandas 中，操作 to_period 函数允许将日期转换为特定的时间间隔。使用该方法可以获取具有许多不同间隔或周期的日期，例如日、周、月、季度等。...Cumsum 和 groupby cumsum 是一个非常有用的 Pandas 函数。它计算列中值的累积和。...但是它只是全部的总和没有考虑分类。在某些情况下，我们可能需要分别计算不同类别的累积和。 Pandas中我们只需要按类列对行进行分组，然后应用 cumsum 函数。...df[df["class"]=="A"].head() 类的累积总和列包含为每个类单独计算的累积值总和。 3. Category数据类型我们经常需要处理具有有限且固定数量的值的分类数据。

1.3K1 0

Pandas常用命令汇总，建议收藏！

Pandas与其他流行的Python库（如NumPy、Matplotlib和scikit-learn）快速集成。这种集成促进了数据操作、分析和可视化的工作流程。...由于其直观的语法和广泛的功能，Pandas已成为数据科学家、分析师和研究人员在 Python中处理表格或结构化数据的首选工具。...grouped_data = df.groupby('column_name')['other_column'].mean() # 按多列对DataFrame进行分组并计算另一列的总和 grouped_data...= df.groupby(['column_name1', 'column_name2'])['other_column'].sum() # 计算列的总和 sum_value = df['column_name...06 / 加入/合并在pandas中，你可以使用各种函数基于公共列或索引来连接或组合多个DataFrame。

3791 0

groupby函数详解

计算各列数据总和并作为新列添加到末尾 df['Col_sum'] = df.apply(lambda x: x.sum(), axis=1) 计算指定列下每行数据的总和并作为新列添加到末尾 df_sf...（）的常见用法函数适用场景备注 df.groupby(‘key1’) 一列聚合分组键为列名（可以是字符串、数字或其他Python对象） df.groupby([‘key1’,‘key2’]) 多列聚合...因此，一般为方便起见可直接在聚合之后+“配合函数”，默认情况下，所有数值列都将会被聚合，虽然有时可能会被过滤为一个子集。　　...，（b）若按某多列聚合，则新DataFrame将是多列之间维度的笛卡尔积，即：新DataFrame具有一个层次化索引（由唯一的键对组成），例如：“key1”列，有a和b两个维度，而“key2”有one和...two两个维度，则按“key1”列和“key2”聚合之后，新DataFrame将有四个group；注意：groupby默认是在axis=0上进行分组的，通过设置axis=1，也可以在其他任何轴上进行分组

3.7K1 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭