开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

Pandas: groupby并创建一个新列，将聚合应用到两个列

Pandas是一个开源的数据分析和数据处理工具，它提供了丰富的数据结构和函数，可以方便地进行数据操作和分析。在Pandas中，groupby函数可以按照指定的列对数据进行分组，并对每个分组应用聚合函数。

要在groupby的基础上创建一个新列，并将聚合应用到两个列，可以使用transform函数。transform函数可以将聚合函数的结果应用到原始数据的每一行，返回一个与原始数据行数相同的Series或DataFrame。

下面是一个示例代码，演示了如何使用groupby和transform函数来实现这个需求：

import pandas as pd

# 创建一个示例DataFrame
data = {'A': ['foo', 'bar', 'foo', 'bar', 'foo', 'bar', 'foo', 'foo'],
        'B': ['one', 'one', 'two', 'two', 'two', 'one', 'two', 'one'],
        'C': [1, 2, 3, 4, 5, 6, 7, 8],
        'D': [10, 20, 30, 40, 50, 60, 70, 80]}
df = pd.DataFrame(data)

# 使用groupby和transform函数进行分组和聚合
df['E'] = df.groupby(['A', 'B'])['C'].transform('sum')
df['F'] = df.groupby(['A', 'B'])['D'].transform('mean')

print(df)

运行以上代码，输出结果如下：

     A    B  C   D   E     F
0  foo  one  1  10   9  30.0
1  bar  one  2  20   2  20.0
2  foo  two  3  30   8  40.0
3  bar  two  4  40   4  40.0
4  foo  two  5  50   8  40.0
5  bar  one  6  60   2  20.0
6  foo  two  7  70   8  40.0
7  foo  one  8  80   9  30.0

在这个示例中，我们按照列'A'和列'B'进行分组，然后对列'C'进行求和并创建一个新列'E'，对列'D'进行平均值计算并创建一个新列'F'。最后，将新列添加到原始DataFrame中。

需要注意的是，transform函数返回的结果与原始数据的行数相同，因此可以直接将其赋值给新列。

推荐的腾讯云相关产品和产品介绍链接地址：

腾讯云服务器（CVM）：提供高性能、可扩展的云服务器实例，适用于各种计算场景。产品介绍链接
腾讯云数据库（TencentDB）：提供稳定可靠的云数据库服务，包括关系型数据库、NoSQL数据库等。产品介绍链接
腾讯云对象存储（COS）：提供安全可靠的云端存储服务，适用于存储和管理各种类型的数据。产品介绍链接
腾讯云人工智能（AI）：提供丰富的人工智能服务，包括图像识别、语音识别、自然语言处理等。产品介绍链接
腾讯云物联网（IoT）：提供全面的物联网解决方案，帮助连接和管理物联网设备。产品介绍链接
腾讯云区块链（BCS）：提供安全高效的区块链服务，支持快速搭建和管理区块链网络。产品介绍链接

以上是关于Pandas中groupby的用法以及相关腾讯云产品的介绍，希望对您有帮助。

相关搜索:Groupby聚合并从行单元格创建新列 Pandas -在groupby之后将列转换为新行 pandas new并聚合到新列 Pandas:迭代现有列并基于条件创建新列 Pandas使用groupby创建新列并避免循环使用groupby的一列创建X个带有pandas的新列在pandas中基于groupby shift创建新列如何在pandas中使用groupby创建新列？如何基于groupby，pandas DataFrame创建一个新的字典列？如何遍历两个pandas列并创建一个新列

相关搜索:

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

25个例子学会Pandas Groupby 操作（附代码）

14622.406061 Name: stock_qty, dtype: float64 2、多列聚合在一个操作中进行多个聚合。...sales.groupby("store")["stock_qty"].agg(["mean", "max"]) 4、对聚合结果进行命名在前面的两个示例中，聚合列表示什么还不清楚。...x: round(x.sum() / 1000, 1) ) ) 17、apply函数使用apply函数将Lambda表达式应用到每个组。...如果用于分组的列中缺少一个值，那么它将不包含在任何组中，也不会单独显示。所以可以使用dropna参数来改变这个行为。让我们首先添加一个缺少存储值的新行。...), "category": list("AAAABBBB"), "value": np.random.randint(10, 30, size=8) } ) 我们可以单独创建一个列

3K2 0

总结了25个Pandas Groupby 经典案例！！

大家好，我是俊欣~ groupby是Pandas在数据分析中最常用的函数之一。它用于根据给定列中的不同值对数据点(即行)进行分组，分组后的数据可以计算生成组的聚合值。...sales.groupby("store")["stock_qty"].agg(["mean", "max"]) output 4、对聚合结果进行命名在前面的两个示例中，聚合列表示什么还不清楚。...x: round(x.sum() / 1000, 1) ) ) output 17、apply函数使用apply函数将Lambda表达式应用到每个组。...如果用于分组的列中缺少一个值，那么它将不包含在任何组中，也不会单独显示。所以可以使用dropna参数来改变这个行为。让我们首先添加一个缺少存储值的新行。...category": list("AAAABBBB"), "value": np.random.randint(10, 30, size=8) } ) output 我们可以单独创建一个列

3.3K3 0

Pandas中的这3个函数，没想到竟成了我数据处理的主力

对象经过groupby分组后调用apply时，数据处理函数作用于groupby后的每个子dataframe上，即作用对象还是一个DataFrame（行是每个分组对应的行；列字段少了groupby的相应列...应用到Series的每个元素 ①将性别sex列转化为0和1数值，其中female对应0，male对应1。应用apply函数实现这一功能非常简单： ?...应用到DataFrame的每个Series DataFrame是pandas中的核心数据结构，其每一行和每一列都是一个Series数据类型。...应用到DataFrame groupby后的每个分组DataFrame 实际上，个人一直觉得这是一个非常有效的用法，相较于原生的groupby，通过配套使用goupby+apply两个函数，实现更为个性化的聚合统计功能...这里，再补充一个前期分享过的一片推文：Pandas用的6不6，来试试这道题就能看出来，实际上也是实现了相同的分组聚合统计功能。

2.4K1 0

25个例子学会Pandas Groupby 操作

groupby是Pandas在数据分析中最常用的函数之一。它用于根据给定列中的不同值对数据点(即行)进行分组，分组后的数据可以计算生成组的聚合值。...sales.groupby("store")["stock_qty"].agg(["mean", "max"]) 4、对聚合结果进行命名在前面的两个示例中，聚合列表示什么还不清楚。...lambda x: round(x.sum() / 1000, 1) ) ) 17、apply函数使用apply函数将Lambda表达式应用到每个组。...如果用于分组的列中缺少一个值，那么它将不包含在任何组中，也不会单独显示。所以可以使用dropna参数来改变这个行为。让我们首先添加一个缺少存储值的新行。..."category": list("AAAABBBB"), "value": np.random.randint(10, 30, size=8) } ) 我们可以单独创建一个列

2.5K2 0

python数据分析——数据分类汇总与统计

例如, DataFrame可以在其行(axis=0)或列(axis=1)上进行分组。然后,将一个函数应用(apply)到各个分组并产生一个新值。...下表是经过优化的groupby方法: 2.1. groupby的聚合函数首先创建一个dataframe对象: 【例8】使用groupby聚合函数对数据进行统计分析。...所有的列都会应用这组函数。使用read_csv导入数据之后,我们添加了一个小费百分比的列tip_pct: 如果希望对不同的列使用不同的聚合函数，或一次应用多个函数，将通过下面的例来进行展示。...具体的办法是向agg传入一个从列名映射到函数的字典: 只有将多个函数应用到至少一列时，DataFrame才会拥有层次化的列 2.3.返回不含行索引的聚合数据到目前为止，所有例中的聚合数据都有由唯一的分组键组成的索引...可以将数据分组,并使用apply和一个能够对各数据块调用fillna的函数即可。

1871 0

深入Pandas从基础到高级的数据处理艺术

使用to_excel方法，我们可以将DataFrame中的数据写入到新的Excel文件中： df.to_excel('output.xlsx', index=False) 实例：读取并写入新表格下面是一个示例代码...(df['date_column']) 分组与聚合 Pandas还支持强大的分组与聚合操作，能够根据某列的值对数据进行分组，并对每个分组进行聚合计算。...# 根据某列的值进行分组，并计算平均值 grouped_data = df.groupby('category_column')['value_column'].mean() 数据可视化除了数据处理，...Pandas提供了merge()函数，可以根据指定的列将两个表格合并成一个新的表格。...通过apply()方法，你可以将自定义函数应用到DataFrame的每一行或列。

2482 0

python-for-data-groupby使用和透视表

第十章主要讲解的数据聚合与分组操作。对数据集进行分类，并在每一个组上应用一个聚合函数或者转换函数，是常见的数据分析的工作。本文结合pandas的官方文档整理而来。 ?...笔记1：自定义的聚合函数通常比较慢，需要额外的开销：函数调用、数据重新排列等 import numpy as np import pandas as pd tips = pd.read_csv(path...) tips['tip_pct'] = tips['tip'] / tips['total_bill'] grouped = tips.groupby(['day','smoker']) # 根据两个属性先分组...不同的函数应用到一个或者多个列上 ?...笔记2：只有当多个函数应用到至少一个列时，DF才具有分层列返回不含行索引的聚合数据：通过向groupby传递as_index=False来实现数据透视表和交叉表 DF中的pivot-table方法能够实现透视表

1.9K3 0

用 Pandas 进行数据处理系列二

('a',inplace=True,ascending=True) ， inplace 表示排序的时候是否生成一个新的 dataFrame ， ascending=True 表示升序，默认为升序，如果存在缺失的补值...df.loc[(df['city'] == 'beijing') & (df['pr'] >= 4000), 'sign'] = 1 对 category 字段的值依次进行分列，并创建数据表，索引值...beijing 和 shanghai ，然后将符合条件的数据提取出来pd.DataFrame(category.str[:3])提取前三个字符，并生成数据表数据筛选使用与、或、非三个条件配合大于、...('Country').agg(num_agg)) 补充对于聚合方法的传入和传出，可以使用 ['min'] ，也可以使用 numpy 中的方法，比如 numpy.min ，也可以传入一个方法，比如：...默认会将分组后将所有分组列放在索引中，但是可以使用 as_index=False 来避免这样。

8.1K3 0

数据科学家私藏pandas高阶用法大全 ⛵

().count 与 Groupby().size 如果你想获得 Pandas 的一列的计数统计，可以使用groupby和count组合，如果要获取2列或更多列组成的分组的计数，可以使用groupby和...我们经常会使用groupby对数据进行分组并统计每组的聚合统计信息，例如计数、平均值、中位数等。...DataFrame中某个字符串字段(列)展开为一个列表，然后将列表中的元素拆分成多行，可以使用str.split()和explode()组合，如下例： import pandas as pd df...DataFrame 在我们处理数据的时候，有时需要根据某个列进行计算得到一个新列，以便后续使用，相当于是根据已知列得到新的列，这个时候assign函数非常方便。...在以下示例中，创建了一个新的排名列，该列按学生的分数对学生进行排名： import pandas as pd df = pd.DataFrame({'Students': ['John', 'Smith

6.1K3 0

Pandas进阶｜数据透视表与逆透视

data.groupby('driver_gender' )[['driver_age']].mean() 在聚合后一维切片会得到 pandas.Series. data.groupby...('mean') 通过unstack重排数据表如果原表只有一级索引，unstack就将每一个列都分出来，然后全部纵向叠加在一起，每一个列名作为新的一级索引，原本的索引作为二级索引。...由于二维的 GroupBy 应用场景非常普遍，因此 Pandas 提供了一个快捷方式 pivot_table 来快速解决多维的累计分析任务。...保留"driver_gender"，对剩下列全部转换，并给设置对列定义列名。...下面演示一个平时较为头疼的事情。即将两个name删掉。下面介绍一个常见的方法。

4.1K1 1

PySpark SQL——SQL和pd.DataFrame的结合体

之后所接的聚合函数方式也有两种：直接+聚合函数或者agg()+字典形式聚合函数，这与pandas中的用法几乎完全一致，所以不再赘述，具体可参考Pandas中groupby的这些用法你都知道吗？一文。...这里补充groupby的两个特殊用法： groupby+window时间开窗函数时间重采样，对标pandas中的resample groupby+pivot实现数据透视表操作，对标pandas中的pivot_table...：删除指定列最后，再介绍DataFrame的几个通用的常规方法： withColumn：在创建新列或修改已有列时较为常用，接收两个参数，其中第一个参数为函数执行后的列名（若当前已有则执行修改，否则创建新列...），第二个参数则为该列取值，可以是常数也可以是根据已有列进行某种运算得到，返回值是一个调整了相应列后的新DataFrame # 根据age列创建一个名为ageNew的新列 df.withColumn('...并返回新的DataFrame（包括原有其他列），适用于仅创建或修改单列；而select准确的讲是筛选新列，仅仅是在筛选过程中可以通过添加运算或表达式实现创建多个新列，返回一个筛选新列的DataFrame

9.9K2 0

初学者使用Pandas的特征工程

为了达到我们的目的，我们将使用具有转换功能的groupby来创建新的聚合功能。...注意：我们可以对任何类别变量执行groupby函数，并执行任何聚合函数，例如mean, median, mode, count等。...这就是我们如何创建多个列的方式。在执行这种类型的特征工程时要小心，因为在使用目标变量创建新特征时，模型可能会出现偏差。...它取决于问题陈述和日期时间变量（每天，每周或每月的数据）的频率来决定要创建的新变量。尾注那就是pandas的力量；仅用几行代码，我们就创建了不同类型的新变量，可以将模型的性能提升到另一个层次。...没有传统的方式或类型可以创建新特征，但是pandas具有多种函数，可以使你的工作更加舒适。我强烈建议你选择任何数据集，并自行尝试所有列出的技术，并在下面评论多少以及哪种方法对你的帮助最大。

4.8K3 1

Pandas之实用手册

pandas 的核心是名叫DataFrame的对象类型- 本质上是一个值表，每行和每列都有一个标签。...1.5 分组使用特定条件对行进行分组并聚合其数据时。...例如，按流派对数据集进行分组，看看每种流派有多少听众和剧目：Pandas 将两个“爵士乐”行组合为一行，由于使用了sum()聚合，因此它将两位爵士乐艺术家的听众和演奏加在一起，并在合并的爵士乐列中显示总和...1.6 从现有列创建新列通常在数据分析过程中，发现需要从现有列中创建新列。Pandas轻松做到。...通过告诉 Pandas 将一列除以另一列，它识别到我们想要做的就是分别划分各个值（即每行的“Plays”值除以该行的“Listeners”值）。

1431 0

Pandas数据处理与分析教程：从基础到实战

本教程将详细介绍Pandas的各个方面，包括基本的数据结构、数据操作、数据过滤和排序、数据聚合与分组，以及常见的数据分析任务。什么是Pandas？...在Pandas中，可以使用pivot_table函数来创建数据透视表，通过指定行、列和聚合函数来对数据进行分组和聚合。...创建数据透视表首先，我们创建一个包含姓名、年份、销售额和利润的DataFrame： import pandas as pd data = {'Name': ['Alice', 'Bob', 'Charlie...) 使用pd.to_datetime函数将日期字符串转换为日期对象，并将其赋值给新列OrderDate。...然后，使用dt.month提取出日期对象的月份信息，将其赋值给新列Month。

4051 0

groupby函数详解

1 groupby()核心用法（1）根据DataFrame本身的某一列或多列内容进行分组聚合，（a）若按某一列聚合，则新DataFrame将根据某一列的内容分为不同的维度进行拆解，同时将同一维度的再进行聚合...，（b）若按某多列聚合，则新DataFrame将是多列之间维度的笛卡尔积，即：新DataFrame具有一个层次化索引（由唯一的键对组成），例如：“key1”列，有a和b两个维度，而“key2”有one和...two两个维度，则按“key1”列和“key2”聚合之后，新DataFrame将有四个group；注意：groupby默认是在axis=0上进行分组的，通过设置axis=1，也可以在其他任何轴上进行分组...范例一：根据DataFrame本身的某一列或多列内容进行分组聚合 #创建原始数据集 import pandas as pd import numpy as np df=pd.DataFrame({...）按key1、key2进行分组，并计算data1列的平均值,聚合表不堆叠 #将数据从“花括号”格式转为“表格”格式，unstack即“不要堆叠” df2=df['data1'].groupby([df

3.7K1 1

Pandas 秘籍：6~11

现在，当我们尝试创建新列时，将引发一个错误，警告我们有重复项。...它将两个聚合函数sum和mean中的每一个应用于每个列，从而每组返回四个列。步骤 3 进一步进行，并使用字典将特定的聚合列映射到不同的聚合函数。请注意，size聚合函数返回每个组的总行数。.../master-pandas/img/00120.jpeg)] 工作原理当使用agg方法对多个列执行聚合时，pandas 将创建一个具有两个级别的索引对象。...我们构建了一个新函数，该函数计算两个 SAT 列的加权平均值和算术平均值以及每个组的行数。为了使apply创建多个列，您必须返回一个序列。索引值用作结果数据帧中的列名。...merge方法提供了类似 SQL 的功能，可以将两个数据帧结合在一起。将新行追加到数据帧在执行数据分析时，创建新列比创建新行更为常见。

33.9K1 0

数据导入与预处理-第6章-02数据变换

连续属性变换成分类属性涉及两个子任务：决定需要多少个分类变量，以及确定如何将连续属性值映射到这些分类值。...基于列值重塑数据(生成一个“透视”表)。使用来自指定索引/列的唯一值来形成结果DataFrame的轴。此函数不支持数据聚合，多个值将导致列中的MultiIndex。...() 2.3.1.1 分组操作 pandas中使用groupby()方法根据键将原数据拆分为若干个分组。...该参数的默认值为0，代表沿列方向操作。 level：表示标签索引所在的级别，默认为None。 as_index：表示聚合后新数据的索引是否为分组标签的索引，默认为True。...使用pandas的groupby()方法拆分数据后会返回一个GroupBy类的对象，该对象是一个可迭代对象，它里面包含了每个分组的具体信息，但无法直接被显示。

19.2K2 0

python数据科学系列：pandas入门详细教程

正因如此，可以从两个角度理解series和dataframe： series和dataframe分别是一维和二维数组，因为是数组，所以numpy中关于数组的用法基本可以直接应用到这两个数据结构，包括数据创建...或字典（用于重命名行标签和列标签） reindex，接收一个新的序列与已有标签列匹配，当原标签列中不存在相应信息时，填充NAN或者可选的填充值 set_index/reset_index，互为逆操作，...前者是将已有的一列信息设置为标签列，而后者是将原标签列归为数据，并重置为默认数字标签 set_axis，设置标签列，一次只能设置一列信息，与rename功能相近，但接收参数为一个序列更改全部标签列信息（...2 分组聚合 pandas的另一个强大的数据分析功能是分组聚合以及数据透视表，前者堪比SQL中的groupby，后者媲美Excel中的数据透视表。...pandas官网关于groupby过程的解释级联其他聚合函数的方式一般有两种：单一的聚合需求用groupby+聚合函数即可，复杂的大量聚合则可借用agg函数，agg函数接受多种参数形式作为聚合函数，功能更为强大

13.8K2 0

软件测试|Pandas数据分析及可视化应用实践

：图片图片④ 将data_ratings中time列格式变成‘年-月-日’首先使用Pandas中的to_datetime函数将date列从object格式转化为datetime格式，然后通过strftime...('%Y%m%d')取出年月日，把这个函数用apply lambda应用到data_ratings‘timestamp’的这一列中。...图片图片上面是将两个子数据集合并，也可以多个子数据集合并，将data_movies，data_ratings与data_users一起合并成data1，可以使用两层merge函数合并数据集，也可以使用merge...中使用groupby函数进行分组统计，groupby分组实际上就是将原有的DataFrame按照groupby的字段进行划分，groupby之后可以添加计数（count）、求和（sum）、求均值（mean...图片② 根据用户id统计电影评分的均值图片3、分组聚合统计Pandas提供aggregate函数实现聚合操作，可简写为agg，可以与groupby一起使用，作用是将分组后的对象使给定的计算方法重新取值，

1.5K3 0

Python 使用pandas 进行查询和统计详解

('gender')['age'].mean() # 按照性别和年龄分组，统计人数 df.groupby(['gender', 'age'])['name'].count() 交叉表分析： # 构造一个交叉表...', 'age']) 对 Series 去重： # 对 'name' 列进行去重 df['name'].drop_duplicates() 数据合并横向（按列）合并 DataFrame： # 创建一个新的...Jerry', 'Lucy', 'Amy'], 'score': [80, 90, 85, 95]} other_df = pd.DataFrame(other_data) # 将两个...DataFrame 在列上合并 pd.concat([df, other_df], axis=1) 纵向（按行）合并 DataFrame： # 创建一个新的 DataFrame other_data...'age': [19, 20], 'gender': ['F', 'M']} other_df = pd.DataFrame(other_data) # 将两个

2381 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭