python中pd groupby中的不同聚合_为pandas groupby中的不同要素分配不同的聚合函数_groupBy聚合函数中的PySpark循环 - 腾讯云开发者社区

、

我有一个这样的df，并且需要在groupby中执行多个聚合，包括连接行和在相同的cols上执行不同的操作。import pandas as pd sample = pd.DataFrame({'group':['a']*3+['b']*6, 'time':[1,2,4,6,7,8,9,12,15],'type':['a

浏览 37提问于2021-02-12得票数 1

回答已采纳

2回答

加速循环-为Dataframe赋值

、、、

我有一个函数运行的有点太慢，我不喜欢，而且似乎不能让它更快。我有57种产品和402家商店。下面的函数创建以products为索引的dataframe，并以列的形式存储。目标是获取按产品销售的最大数量，并存储并将其分配给"unconstraintload_df“数据帧。它似乎在做这项工作，但它需要大量的时间才能完成。有没有人有什么办法可以加快速度呢？Prod Code"].unique() StoreNumberList = training_DS["Store&quo

浏览 42提问于2019-09-16得票数 0

回答已采纳

1回答

将大型.bz2文件加载并聚合到pandas中的有效方法是什么？

、

我试图以块的形式加载一个大的bz2文件，并将其聚合到一个pandas DataFrame中，但是Python总是崩溃。我正在使用的方法如下，我已经在较小的数据集上取得了成功。将比内存更大的文件聚合到Pandas中更有效的方法是什么？import pandas as pd reader = pd.read_json('RC_2017-09.bz2'

浏览 43提问于2019-03-28得票数 1

1回答

你将如何使用熊猫来汇总这些数据？

、、、、

想象一下拥有这些数据： 'country': ['France', 'France', 'Germany', 'Germany', 'France', 'SpainFrance 5 22 Python6 Germany 7 23 Go 我要找的是用这种形式聚合它

浏览 2提问于2022-07-24得票数 0

回答已采纳

1回答

pandas group by agg根据pattern在组内选择

、、

我正在尝试编写一个自定义聚合函数，它将始终从每个组中选择以最少零结尾的字符串。例如，下面是一个数据帧示例： import pandas as pd df = pd.DataFrame({"group" : [1, 1, 1, 2, 2], "value" : ["10534",我的自定义聚合函数独立工作，但在包含在.groupby().agg()公式中时不会返回预期的结果：

浏览 28提问于2021-08-16得票数 0

回答已采纳

4回答

在Python或R中，有没有更有效的方法来聚合数据集和计算频率？

、、

我有一个数据集0，1，1，2，我想要聚合它。为此，我必须计算“频率”并将其放入DataFrame中:1/4。下面是代码。>>> df = pd.DataFrame({'value':[0, 1, 1, 2],>>> df.groupby('value').sum()value 0 0.25

浏览 0提问于2019-03-16得票数 1

3回答

什么是熊猫的dplyr总结/聚合的多个函数的等效？

、、、、

我在从R向熊猫过渡的过程中遇到了一些问题，在那里，dplyr包可以很容易地进行分组并执行多个总结。请帮助改进我现有的Python熊猫代码，用于多个聚合：data = pd.DataFrame( {'col1':[1,1,1,1,1,2,2,2,2,2(我将for-loop groupby实现重写为groupby.agg，性能得到了巨大的提高)。在R中</em

浏览 4提问于2016-08-13得票数 55

回答已采纳

1回答

如何计算熊猫的中位数时间？

、、、

我有一个数据帧，其中需要以hh: mm: ss格式计算每个用户的中位数时间 ? 我的代码 file['date'] = pd.to_datetime(file['date']) file['diff'] = file.groupby(['operation', 'user'])['date'].diff().fillna(pd.Timedelta(0)) #calculate th

浏览 25提问于2021-09-17得票数 1

回答已采纳

1回答

是否可以在NamedAgg表达式中使用带空格的列名？

、

在使用pandas.NamedAgg聚合函数命名聚合列时，是否可以创建包含空格和特殊字符的名称？典型的语法是： pvt = (df.groupby(by=[....]) .agg(value=pd.NamedAgg(column='col', aggfunc='count'))) 但是，有没有办法创建一个不是有效的python变量名(在本例中为value )而类似于

浏览 12提问于2020-01-17得票数 4

回答已采纳

1回答

熊猫群:如何计算占总数的百分比？

、

如何计算在groupby中显示总数%的列import numpy as npdf= pd.DataFrame(np.random.randint(5,8,(10,4)), columns=['a','b','c','d']) g = df.groupby('

浏览 2提问于2017-10-12得票数 2

回答已采纳

1回答

每天过滤熊猫数据

、、、、

我有一个以分钟为单位的外汇数据框架，长达一年(371635行)：01.05188 1.05200 1.05188 1.05200我想要过滤每天的数据来得到一个小时的范围我怀疑每一步这条线正在寻找数据集中每一行的</em

浏览 0提问于2018-11-09得票数 7

回答已采纳

2回答

计数pandas数据帧中的非重复值

、、

我有一个有3列的数据帧。我正在尝试为行中的每个组找到不同的聚合值。我使用jupyter笔记本来运行这个。还使用了像numpy这样的python库例如，我的原始数据帧'df‘如下： Name Subject Grade1 Tom Sci我按如下方式应用了groupby查询： new_df = df.groupby(

浏览 37提问于2019-03-29得票数 2

回答已采纳

1回答

在列和索引上使用groupby和aggregate with pandas

、、、、

1 88 30 3 23 323 1 33 40如果我想按索引上的结果分组，并对组应用聚合函数，我可以这样做\Python\Python38\site-packages\pandas\core\groupby\generic.py", line 928, in aggregate>>

浏览 6提问于2020-08-01得票数 5

3回答

熊猫-从聚合格式到长格式

、

如果我要从长格式转换为分组聚合格式，我只需这样做：a 4c 1现在，如果我想恢复<

浏览 4提问于2014-12-03得票数 0

回答已采纳

1回答

使用Python获取在dataframe和groupby中所选列的唯一计数

、

我的数据文件如下所示： df=pd.DataFrame({'A':['a','a','b','c'], 'B':['x','x','x','x'],'C':['1','2','3','4'], '

浏览 2提问于2015-09-23得票数 0

2回答

如何在Pandas中展平groupby操作的结果？

、

使用Pandas数据帧，有没有一种方法可以扁平化groupby操作的结果，而不必使用临时数据帧，然后将其合并到原始数据帧中？假设我需要创建一个依赖于聚合操作的"result“列，就像这个场景： import pandas as pd df = pd.DataFrame({'box': [1,1,1,2,2,3,3,3,3], 'durian', 'pear', 'orange',

浏览 82提问于2020-05-04得票数 2

回答已采纳

2回答

熊猫群在大的csv文件上有sum()？

、

我有一个大文件(大约19 to )，我希望在内存中加载它来对某些列执行聚合。data = pd.read_csv("data_file", delimiter=",")但是，对于大型文件，在读取csv文件时需要使用块大小来限制加载到内存中的行数： import pan

浏览 1提问于2015-11-05得票数 11

回答已采纳

1回答

动态创建自定义聚合以与Pandas groupby一起使用

、、、

我试图动态创建一个lambda函数的字典，将其传递给Pandas中的agg()函数，并计算“异常”的数量。，通过以下方式进行聚合： aggdict = prepareAggDict({"column_a":3500, "column_b":8200}) dailyAgg = df.groupby([id_col,Date_col]).agg(aggdict) 但是由于某些原因，聚合只应用了column_b的

浏览 38提问于2021-05-10得票数 1

回答已采纳

1回答

在Pandas中使用groupby后聚合具有不同函数的不同列集合

、、、

我希望能够在dataframe中传递包含列名的列表的名称，并在groupby不同的聚合函数之后应用到每个集合。因此，以下是一次天真且不成功的尝试： import pandas as pd variables_to_mean= ['cylinders', 'displacement&

浏览 18提问于2019-02-07得票数 2

回答已采纳

1回答

在Python语言中使用选择性列聚合dataFrame时添加标头

、、

我有一个包含三列的dataFrame，分别是'Ts_id'、'doc_id'、'doc_type'，我发现它上的计数仅聚合在'doc_id'和'doc_type'上。有没有办法在聚合后重命名列或添加不同的标题？下面是这段代码： dfnonreturns = pd.DataFrame(GuidedocdetailsNonReturn,columns=['Ts_id

浏览 0提问于2018-08-23得票数 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云