开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

groupby+sum/mean/ect然后将grouped值返回到原始数据帧中未分组的索引？

在云计算领域，groupby是一种数据处理操作，用于根据指定的列或条件将数据分组。而sum、mean等是对分组后的数据进行聚合计算的函数。

具体回答你的问题，如果要将grouped值返回到原始数据帧中未分组的索引，可以使用merge操作。以下是一个完善且全面的答案：

在Python的数据分析库Pandas中，可以使用groupby函数对数据进行分组操作。groupby函数将数据按照指定的列或条件进行分组，并返回一个GroupBy对象。然后，可以使用sum、mean等函数对分组后的数据进行聚合计算。

要将grouped值返回到原始数据帧中未分组的索引，可以使用merge操作。首先，使用groupby函数对数据进行分组，并计算所需的聚合值。然后，使用reset_index函数将分组后的数据的索引重置为默认的整数索引。接下来，使用merge函数将分组后的数据与原始数据帧进行合并，通过指定合并的列或索引，将grouped值返回到原始数据帧中未分组的索引。

以下是一个示例代码：

import pandas as pd

# 假设有一个名为df的数据帧，包含两列：'group'和'value'
# 对'group'列进行分组，并计算'value'列的和
grouped = df.groupby('group')['value'].sum()

# 将分组后的数据的索引重置为默认的整数索引
grouped = grouped.reset_index()

# 将分组后的数据与原始数据帧进行合并，通过'group'列将grouped值返回到原始数据帧中未分组的索引
merged_df = pd.merge(df, grouped, on='group', how='left')

在这个示例中，'group'列是用于分组的列，'value'列是需要计算和的列。使用groupby函数对数据进行分组，并计算'value'列的和。然后，使用reset_index函数将分组后的数据的索引重置为默认的整数索引。最后，使用merge函数将分组后的数据与原始数据帧进行合并，通过指定'group'列进行合并，将grouped值返回到原始数据帧中未分组的索引。

腾讯云提供了云计算相关的产品和服务，例如云服务器、云数据库、云存储等。你可以通过访问腾讯云官方网站（https://cloud.tencent.com/）了解更多关于腾讯云的产品和产品介绍。

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

使用 Python 对相似索引元素上的记录进行分组

在 Python 中，可以使用 pandas 和 numpy 等库对类似索引元素上的记录进行分组，这些库提供了多个函数来执行分组。基于相似索引元素的记录分组用于数据分析和操作。...语法 grouped = df.groupby(key) 在这里，Pandas GroupBy 方法用于基于一个或多个键对数据帧中的数据进行分组。“key”参数表示数据分组所依据的一个或多个列。...生成的“分组”对象可用于分别对每个组执行操作和计算。例在下面的示例中，我们使用 groupby（）函数按“名称”列对记录进行分组。然后，我们使用 mean（）函数计算每个学生的平均分数。...生成的数据帧显示每个学生的平均分数。...第二行代码使用键（项）访问组字典中与该键关联的列表，并将该项追加到列表中。例在下面的示例中，我们使用了一个默认词典，其中列表作为默认值。

1953 0

pandas中的数据处理利器-groupby

在数据分析中，常常有这样的场景，需要对不同类别的数据，分别进行处理，然后再将处理之后的内容合并，作为结果输出。对于这样的场景，就需要借助灵活的groupby功能来处理。...，将分组处理的结果合并起来，形成一个新的数据图示如下 ?...() y x a 3.0 b 2.5 c 7.5 上述代码实现的是分组求均值的操作，通过groupby方法，首选根据x标签的内容分为a,b,c3组，然后对每组求均值，最后将结果进行合并。...object at 0x06E94FA0> # groups属性，返回值为字典，key是分组的类别 >>> grouped.groups {'a': Int64Index([0, 1], dtype=...，用level指定分组的标签 # 既可以是数字索引 >>> df.groupby(level=0).mean() Max Speed Animal Falcon 370.0 Parrot

3.6K1 0

数据处理技巧 | 带你了解Pandas.groupby() 常用数据处理方法

GroupBy()的核心，分别是：第一步：分离(Splitting)原始数据对象；第二步：在每个分离后的子对象上进行数据操作函数应用(Applying)；第三步：将每一个子对象的数据操作结果合并(...而在Applying操作步骤中还可以进行以下数据操作处理：聚合(Aggregation)处理：进行如平均值(mean)、最大值(max)、求和(sum)等一些统计性计算。...转换(Transformation)操作：执行一些特定于个别分组的数据处理操作，最常用的为针对不同分组情况选择合适的值填充空值；筛选(Filtration)操作：这一数据处理过程主要是去除不符合条件的值...[4], 'D': [5, 6, 7], 'E': [9, 10]} #注意：上面返回的数字为其对应的索引数(index) 而当我们需要查看具体某一个小组的情况时，我们可是使用如下方法： # 获取A分组的情况...() 计算分组大小 count() 计算组个数 std() 分组的标准偏差 var() 计算分组的方差 describe() 生成描述性统计 min() 计算分组值的最小值 max() 计算分组值的最大值

3.7K1 1

《利用Python进行数据分析·第2版》第10章数据聚合与分组运算10.1 GroupBy机制10.2 数据聚合10.3 apply：一般性的“拆分－应用－合并”10.4 透视表和交叉表10.5 总

例如，DataFrame可以在其行（axis=0）或列（axis=1）上进行分组。然后，将一个函数应用（apply）到各个分组并产生一个新值。...字典或Series，给出待分组轴上的值与分组名之间的对应关系。函数，用于处理轴索引或索引中的各个标签。注意，后三种都只是快捷方式而已，其最终目的仍然是产生一组用于拆分对象的值。...这里最重要的是，数据（Series）根据分组键进行了聚合，产生了一个新的Series，其索引为key1列中的唯一值。...任何被当做分组键的函数都会在各个索引值上被调用一次，其返回值就会被用作分组名称。具体点说，以上一小节的示例DataFrame为例，其索引值为人的名字。...top函数在DataFrame的各个片段上调用，然后结果由pandas.concat组装到一起，并以分组名称进行了标记。于是，最终结果就有了一个层次化索引，其内层索引值来自原DataFrame。

4.9K9 0

groupby函数详解

df[‘data1’].groupby([states,years]).mean() 分组键与原df无关，而是另外指定的任何长度适当的数组分组键是数组，state和year均为数组备注： grouped...at 0x000001FE3D1FE5C0> 这是由于变量grouped是一个GroupBy对象，它实际上还没有进行任何计算，只是含有一些有关分组键df[‘key1’]的中间数据而已，然后我们可以调用配合函数...此时，直接使用“列名”作分组键，提示“Error Key”。注意：分组键中的任何缺失值都会被排除在结果之外。...() 均值 .count() 计数 .min() 最小值 .mean().unstack() 求均值，聚合表的层次索引不堆叠 .size() 计算分组大小 GroupBy的size方法，将返回一个含有分组大小的...年份】分组参考链接：python中groupby函数主要的作用是进行数据的分组以及分组后地组内运算！

3.7K1 1

Pandas 2.2 中文官方教程和指南（二十·二）

idxmax() 计算每个组中最大值的索引 idxmin() 计算每个组中最小值的索引 last() 计算每个组中最后出现的值 max() 计算每个组中的最大值 mean() 计算每个组的平均值 median...分组的列将是返回对象的索引。传递as_index=False 将返回聚合的组作为命名列，无论它们在输入中是命名的索引还是列。...idxmax() 计算每个组中最大值的索引 idxmin() 计算每个组中最小值的索引 last() 计算每个组中最后出现的值 max() 计算每个组中的最大值 mean() 计算每个组的均值 median...分组的列将是返回对象的索引。传递as_index=False 将返回你正在聚合的组作为命名列，无论它们在输入中是命名的索引还是列。...使用group_keys控制分组列的放置要控制是否在索引中包含分组列，可以使用默认为True的group_keys参数。

3450 0

Pandas分组与聚合1.分组 (groupby)一、GroupBy对象：DataFrameGroupBy，SeriesGroupBy二、GroupBy对象支持迭代操作三、GroupBy对象可以转换成

文章来源：Python数据分析 1.分组 (groupby) 对数据集进行分组，然后对每组进行统计分析 SQL能够对数据进行过滤，分组聚合 pandas能利用groupby进行更加复杂的分组运算分组运算过程...(['key2', 'key1']) print(grouped3.mean()) # unstack可以将多层索引的结果转换成单层的dataframe print(grouped3.mean().unstack...可自定义函数，传入agg方法中 grouped.agg(func) func的参数为groupby索引对应的记录示例代码： # 自定义聚合函数 def peak_range(df):...，如何保持原始数据的形状?...产生层级索引：外层索引是分组名，内层索引是df_obj的行索引示例代码： # apply函数接收的参数会传入自定义的函数中 print(df_data.groupby('LeagueIndex').apply

23.8K5 1

数据分析之Pandas分组操作总结

之前介绍过索引操作，现在接着对Pandas中的分组操作进行介绍：主要包含SAC含义、groupby函数、聚合、过滤和变换、apply函数。...first显示的是以分组为索引的每组的第一个分组信息 grouped_single.first() ? c)....apply函数 1. apply函数的灵活性标量返回值列表返回值数据框返回值可能在所有的分组函数中，apply是应用最为广泛的，这得益于它的灵活性：对于传入值而言，从下面的打印内容可以看到是以分组的表传入...方法可以控制参数的填充方式，是向上填充：将缺失值填充为该列中它上一个未缺失值；向下填充相反 method : {‘backfill', ‘bfill', ‘pad', ‘ffill', None}, default...以重量分组(0-0.5,0.5-1,1-1.5,1.5-2,2+)，按递增的深度为索引排序，求每组中连续的严格递增价格序列长度的最大值。

7.6K4 1

Pandas GroupBy 深度总结

例如，在我们的案例中，我们可以按奖项类别对诺贝尔奖的数据进行分组： grouped = df.groupby('category') 也可以使用多个列来执行数据分组，传递一个列列表即可。...让我们首先按奖项类别对我们的数据进行分组，然后在每个创建的组中，我们将根据获奖年份应用额外的分组： grouped_category_year = df.groupby(['category', 'awardYear...它们都返回一个字典，其中键是创建的组，值是原始 DataFrame 中每个组的实例的轴标签列表（对于组属性）或索引（对于索引属性）： grouped.indices Output: {'Chemistry...例如我们可能希望只保留所有组中某个列的值，其中该列的组均值大于预定义值。...如何一次将多个函数应用于 GroupBy 对象的一列或多列如何将不同的聚合函数应用于 GroupBy 对象的不同列如何以及为什么要转换原始 DataFrame 中的值如何过滤 GroupBy 对象的组或每个组的特定行

5.8K4 0

python数据分析——数据分类汇总与统计

例如, DataFrame可以在其行(axis=0)或列(axis=1)上进行分组。然后,将一个函数应用(apply)到各个分组并产生一个新值。...关键技术:任何被当做分组键的函数都会在各个索引值上被调用一次,其返回值就会被用作分组名称。...具体的办法是向agg传入一个从列名映射到函数的字典: 只有将多个函数应用到至少一列时，DataFrame才会拥有层次化的列 2.3.返回不含行索引的聚合数据到目前为止，所有例中的聚合数据都有由唯一的分组键组成的索引...Apply函数会将待处理的对象拆分成多个片段,然后对各片段调用传入的函数,最后尝试将各片段组合到一起。【例13】采用之前的小费数据集,根据分组选出最高的5个tip-pct值。...关键技术:分组键会跟原始对象的索引共同构成结果对象中的层次化索引。将group_keys= False传入groupby即可禁止该效果。

1891 0

pandas的iterrows函数和groupby函数

1. pd.iterrows()函数 iterrows() 是在DataFrame中的行进行迭代的一个生成器，它返回每行的索引及一个包含行本身的对象。...2. pd.groupby函数这个函数的功能非常强大，类似于sql的groupby函数，对数据按照某一标准进行分组，然后进行一些统计。...) # 这个as_index属性，如果是False，就是SQL风格的统计输出，如果是True，默认第一列变成了索引 print(grouped['Points'].agg({'mean':np.mean, 'std':np.std, 'max':np.max})) # 针对不同的列使用不同的统计方法 print(grouped.agg({<!...transform(func, args, *kwargs) 方法简化了这个过程，它会把 func 参数应用到所有分组，然后把结果放置到原数组的 index 上（如果结果是一个标量，就进行广播）： grouped

2.9K2 0

pandas系列5-分组_groupby

，然后将sum()函数应用于分组结果 Out[3]: C D A bar -2.802588 2.42611 foo...分组用groupby 求平均mean() 排序sort_values，默认是升序asc 操作某个列属性，通过属性的方式df.column df.groupby("occupation").age.mean...：均值、最大最小值、计数、求和等，需要调用agg()方法 grouped = df.groupby("sex") grouped["age"].agg(len) grouped["age"].agg([...'mean','std','count','max']) # 能够传入多个聚合函数 grouped["age"].agg(np.max) 避免层次化索引分组和聚合之后使用reset_index()...在分组时，使用as_index=False # 1 res = grouped.agg(len) # grouped.count() res.reset_index() # 索引重排 # 2

1.7K2 0

用python对汽车油耗进行数据分析

其中 pandas中Data Frame类的边界方法head，查看一个很有用的数据框data frame的中，包括每列的非空值数量和各列不同的数据类型的数量。...['comb08', 'highway08', 'city08'].agg([np.mean]) - 为方便分析，对其进行重命名，然后创建一个‘year’的列，包含该数据框data frame的索引...我们用iterrows生成器generator遍历data frame中的各行来产生每行及索引。...然后判断每行的品牌是否在此前计算的unique_makes集合中，在将此布尔值Blooeans添加在Booleans_mask集合后面。...，然后计算各组的均值 df_common_makes_grouped = df_common_makes.groupby(['year', 'make']).agg(np.mean).reset_index

1.7K6 0

用python对汽车油耗进行数据分析

其中 pandas中Data Frame类的边界方法head，查看一个很有用的数据框data frame的中，包括每列的非空值数量和各列不同的数据类型的数量。...['comb08', 'highway08', 'city08'].agg([np.mean]) - 为方便分析，对其进行重命名，然后创建一个‘year’的列，包含该数据框data frame的索引...我们用iterrows生成器generator遍历data frame中的各行来产生每行及索引。...然后判断每行的品牌是否在此前计算的unique_makes集合中，在将此布尔值Blooeans添加在Booleans_mask集合后面。...，然后计算各组的均值 df_common_makes_grouped = df_common_makes.groupby(['year', 'make']).agg(np.mean).reset_index

1.5K8 0

python-for-data-groupby使用和透视表

分组键分组键可以是多种形式，并且键不一定是完全相同的类型：与需要分组的轴向长度一致的值列表或者值数组 DataFrame列名的值可以在轴索引或索引中的单个标签上调用的函数可以将分组轴向上的值和分组名称相匹配的字典或者...Series 特点分组键可以是正确长度的任何数组通用的groupby方法是size，返回的是一个包含组大小信息的Series 分组中的任何缺失值将会被排除在外默认情况下，groupby是在axis...grouped_pct = grouped['tip_pct'] grouped_pct.agg('mean') # 函数名通过字符串的形式传递如果传递的是函数或者函数名的列表，则生成的DF数据的列名将会是这些函数名...笔记2：只有当多个函数应用到至少一个列时，DF才具有分层列返回不含行索引的聚合数据：通过向groupby传递as_index=False来实现数据透视表和交叉表 DF中的pivot-table方法能够实现透视表...透视表中常用的几个参数： index：行索引 columns：列属性 aggfunc：聚合函数 fill_value：填充NULL值 margins ：显示ALL属性或者索引 ?

1.9K3 0

外国网友如何使用机器学习将邮件分类？其实很简单

AiTechYun 编辑：Yining 背景：一名叫做Anthony Dm.的外国网友试图利用机器学习将一堆未标记的电子邮件进行分类，以下是他对这次操作发表的文章内容。...今天，我突然好奇将一堆未标记的电子邮件放在一个黑箱里，然后让机器弄清楚如何处理它们，会发生什么事情？但是，我没有任何想法。所以我做的第一件事就是找一个包含各种各样电子邮件的数据集。...在处理这些数据之前，我将原始消息解析为key-value对。下面是一个原始邮件消息的例子。为了只处理发送人、接收人和邮件正文内容数据，我做了一个将这些数据提取到key-value对中的函数。...].toarray() else: D = X.toarray() D[D 从所有的邮件中返回到顶级术语。...所以我复制了这个函数，做了一些调整，然后得出了这个图: 我立刻注意到聚类1，有一些奇怪的术语，比如“hou”和“ect”。

1.4K8 0

Pandas常用的数据处理方法

默认unstack是将最里层的行索引旋转为列索引，不过我们可以指定unstack的层级,unstack之后作为旋转轴的级别将会成为结果中的最低级别，当然，我们也可以根据名字指定要旋转的索引,下面两句代码是等价的...4、数据聚合 4.1 数据分组 pandas中的数据分组使用groupby方法，返回的是一个GroupBy对象，对分组之后的数据，我们可以使用一些聚合函数进行聚合，比如求平均值mean： df = pd.DataFrame...transform函数 transform会将一个函数运用到各个分组，然后将结果放置到适当的位置上。...可以看到，在上面的例子中，分组产生了一个标量，即分组的平均值，然后transform将这个值映射到对应的位置上，现在DataFrame中每个位置上的数据都是对应组别的平均值。...从上面的例子可以看出，分组键会跟原始对象的索引共同构成结果对象中的层次化索引。

8.3K9 0

盘一盘 Python 系列 4 - Pandas (下)

透视表是用来汇总其它表的数据：首先把源表分组，将不同值当做行 (row)、列 (column) 和值 (value) 然后对各组内数据做汇总操作如排序、平均、累加、计数等这种动态将·「源表」得到想要...Open, High, Low, Close, Adj Close 和 Volume value 列下的值为前者在「源表 data」中的值函数 melt 可以生成一张含有多个 id 的长表，然后可在...6 数据表的分组和整合 DataFrame 中的数据可以根据某些规则分组，然后在每组的数据上计算出不同统计量。...多标签分组 groupBy 函数除了支持单标签分组，也支持多标签分组 (将标签放入一个列表中)。...result = grouped4.agg( [np.mean, np.std] ) result.head().append(result.tail()) 将 np.mean 和 np.std 放进列表中

4.7K4 0

Pandas进阶之数据聚合

---- 概述在之前的前面几篇博客中，详细介绍了Pandas的一些基础和高级特性。今天博主继续介绍一个Pandas的进阶之数据聚合。...GroupBy技术我们可以将一个Pandas的DataFrame结构进行拆分-应用-合并操作。...如果我们已经对数据进行了分组，然后想对分组的数据进行可定制化的操作那么如何迭代？...sum 分组中的和 mean 分组中的平均值 median 算数中位数 std，var标准差和方差 max,min 最大值和最小值 prod 值得积 frist,last 第一个和最后一个值上述都可以通过聚合之后的对对象操作...，然后将结果放置到适当的位置上。

9624 0

使用Pandas_UDF快速改造Pandas代码

输入数据包含每个组的所有行和列。将结果合并到一个新的DataFrame中。...需要注意的是，StructType对象中的Dataframe特征顺序需要与分组中的Python计算函数返回特征顺序保持一致。...此外，在应用该函数之前，分组中的所有数据都会加载到内存，这可能导致内存不足抛出异常。下面的例子展示了如何使用groupby().apply() 对分组中的每个值减去分组平均值。...优化Pandas_UDF代码在上一小节中，我们是通过Spark方法进行特征的处理，然后对处理好的数据应用@pandas_udf装饰器调用自定义函数。...换句话说，@pandas_udf使用panda API来处理分布式数据集，而toPandas()将分布式数据集转换为本地数据，然后使用pandas进行处理。 5.

7K2 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭