使用groupby在Pandas DataFrame上进行计算，然后将其传递回DataFrame？

腾讯云

开发者社区

文档建议反馈控制台

首页

文章/答案/技术大牛

发布

1回答

、、、

我有一个数据框，我想按两个变量分组，然后在这些变量中执行计算。有什么简单的方法可以做到这一点，并在我完成后将信息放回DataFrame中，即如下所示：'B':[1,1,1,2,3,3,3,2,3,4101,230,12,122,345,23,943,83,923,10]}) avg = []BID = [] for name, group

浏览 8提问于2016-07-26得票数 2

回答已采纳

1回答

按列和连接结果计算大熊猫DataFrame组的最小最大值中值

、、

我有一个熊猫DataFrame，我想在一个列上执行最小，最大，平均，中值的计算，用A，B和C列对它们进行分组，然后我想将结果合并到初始的DataFrame。当我计算中间值时，我成功地使用了低音：result_median

浏览 1提问于2019-08-06得票数 3

回答已采纳

2回答

dask数据帧中的df.groupby(...).apply(...).reset_index()

、、、

我想使用两个Dask DataFrame来处理大型csv文件，并且我需要在一个DataFrame上执行groupby(...).apply(...).reset_index()，然后才能将其加入到另一个DataFrame中： import pandas as pd dfA = pd.DataFrame({'x': [&qu

浏览 36提问于2021-10-07得票数 1

回答已采纳

1回答

使用Python: Group by和plot ratios进行比较，添加其他计算(例如:直方图、散点图、密度图)

、、、、

有12种组合，每个销售人员在不同的时间坐着或站着。共有36个数据点。在图中，我想要显示站立/坐着的比率与比率目标相比有多远，然后添加工作分钟数(可能使用条)。我已经在Python中使用Groupby (Pandas)进行了尝试，但我无法绘制其中的任何内容在这一点上，我不确定我是否应该继续使用"groupby“。我不确定是否应该使用散点图、密

浏览 29提问于2019-01-25得票数 0

0回答

使用字典跨列Pandas Rank时出错

、、

我曾经使用一段代码来使用字典对每个类别中的列进行排名。但是对于新的Pandas/Python3，我得到了以下错误：如有任何建议或帮助，我们将不胜感激。代码如下：import numpy as npd ={'A': 'Health Care', 'AA': 'Mat

浏览 1提问于2018-07-14得票数 0

1回答

边上具有累积和的Networkx权重

、、

1.创建dfimport networkx as nxa = ['A', 'B', 'C', 'A', 'A']df = pd.DataFrame(ints, columns=['weight']) df[&

浏览 0提问于2017-01-06得票数 1

回答已采纳

2回答

如何在Python语言中按两列分组:计算加权平均值，返回DataFrame

、、、

目标:获取一个DataFrame，按该DataFrame两列分组，计算第三列的加权平均值，然后返回一个DataFrame。在下面的Reprex中需要进行哪些调整？## REPREXimport numpy as np md = {"group1": ["A", "A", "1, 1, 1],

浏览 98提问于2020-10-14得票数 2

回答已采纳

1回答

koalas groupby -> apply返回‘无法插入"key"，已存在“”

、、、

我一直在努力解决这个问题，但一直无法解决，我得到了最新的数据框架： import databricks.koalas as ks {'ds如果我使用pandas执行group-by应用，代码将按预期执行： import pandas as pda = pd.DataFrame.from_dict(x.to_dict()).groupby('store'

浏览 36提问于2020-03-22得票数 0

回答已采纳

1回答

带有DataFrame的Pandas groupby系列

、

我想按DataFrame对系列进行分组，然后执行缩减，如下例所示： columns=['name', 'sex', 'amount', 'id']) In [3]: df[&#x

浏览 0提问于2014-05-29得票数 1

1回答

如何在dask中编写unstack和reindex？

、、、

我用pandas编写脚本，但为了提高效率，我需要切换到dask，但我不确定如何在dask中实现unstack和reindex？这是我的pandas脚本的样子： df_new = df.groupby(['Cars', 'Date'])['Durations'].mean().unstack(fill_value=0).reindex

浏览 11提问于2020-06-18得票数 0

回答已采纳

2回答

熊猫稀疏矩阵的群--先填充它们

、、

2 'cat3' B4 'cat3' B然后，我对cat列进行虚拟，以便为机器学习分类做好准备df2 = pandas.get_dummies(df,columns=['cat'], sparse=True)df2.groupby(['id','team

浏览 6提问于2015-05-16得票数 1

回答已采纳

5回答

如何根据pandas中的值对序列进行分组？

、、、

我目前有一个dtype为Timestamp的pandas Series，我想按date对它进行分组(并且在每个组中有许多不同时间的行)。一种看似显而易见的方法是类似于然而，熊猫的groupby根据它的指数进行了分组。我如何才能将其按值分组？

浏览 61提问于2015-11-03得票数 74

2回答

在使用groupby应用生成系列时保留DataFrame的索引

、、

当使用groupby + apply调用函数时，我想从DataFrame转到Series groupby对象，将一个函数应用到每个以Series作为输入并返回Series作为输出的组，然后将groupby默认行为是将来自groupby + apply的输出按分组字段进行索引，这使我无法将其清晰地分配给DataFrame。我更喜欢使用apply调用的函数，以一个Series作为输入，并返回一个Seri

浏览 2提问于2017-02-11得票数 4

回答已采纳

2回答

.apply如何在Pandas DataFrame.groupby上工作？

、、、

我想看看主场赢，平局，客场赢球的比例，在比赛中所占的比例。我看到了解决以下问题的办法：乍一看，这是有意义的，但是g到底是什么呢？我以为是H，D或A计数，然后g.sum()将所有的H，D，A计数按每个部门分组。但是，如果g只是一个值，我们如何调用方法g.sum()？g到底是什么？

浏览 2提问于2020-05-29得票数 2

回答已采纳

3回答

避免GroupBy在大型Pandas DataFrame上的内存问题

、、、、

pd.read_sql(query, engine)从这个df创建一个dask如下所示：使用dask执行操作不会导致任何明显的进展(使用dask诊断检查)： result = df.groupby('journal_entry').max().reset_index我试图在df上执

浏览 1提问于2018-04-26得票数 12

回答已采纳

1回答

如何在spark中使用pandas split-apply-combine风格策略和scala api？

、、、

它需要整个数据帧的内容来进行计算，它不能一次添加一行并建立一个结果。使用PandasUDF这将是一个相对简单的任务，但是我不知道如何在Scala中做到这一点。我尝试使用group by列对数据帧进行重新分

浏览 28提问于2020-04-22得票数 0

1回答

如何使用最近相邻年份的值填充Pandas面板的缺失值？

、

在下面的示例中，我想使用1994的值。SIC通常在所有年份都是相同的。在极少数情况下，它可能会随着时间的推移而变化。我有一个由25万个观察值组成的大小组。谢谢!

浏览 31提问于2019-02-02得票数 0

回答已采纳

1回答

Python: Netcdf:有没有一种方法可以从一个变量中获得总平均值，而另一个变量与唯一的值重叠？

、、、

不需要0值，所以我想开始对p进行总体(空间时间)平均，其中标记值=1到最大标记值n。示例(array space (time，lat，lon))：第一个整数标记值为1。dimensions: (u'time', u'lat', u'lon') type: dtype('int32') 我一直在尝试pandas的groupby函数，但我还没有找到适用于

浏览 6提问于2020-04-01得票数 0

2回答

群熊猫数据与计算多列均值

、、、

我试图将熊猫的数据按列分组，然后计算出多个列的平均值。在下面的示例中，我想按“类别”列进行分组，然后计算“得分”和“优先级”列的平均值。所有三列都应位于生成的dataframe中。我能够对第一列进行分组并计算平均值，但我不知道如何添加第二列。在我的尝试之下。 data = [['A', 2, 1], ['A', 4,

浏览 3提问于2022-05-24得票数 1

回答已采纳

1回答