如何在Python语言中按两列分组:计算加权平均值，返回DataFrame

文章/答案/技术大牛

发布

2回答

python、pandas、numpy、dataframe

目标:获取一个DataFrame，按该DataFrame两列分组，计算第三列的加权平均值，然后返回一个DataFrame。在下面的Reprex中需要进行哪些调整？## REPREXimport numpy as np md = {"group1": ["A&quo

浏览 98提问于2020-10-14得票数 2

回答已采纳

0回答

groupBy在Spark中的应用

python、apache-spark、pyspark、apache-spark-sql、spark-dataframe

我目前正在学习python中的spark。我有一个小问题，在SQL这样的其他语言中，我们可以简单地按指定的列对表进行分组，然后对它们执行进一步的操作，如sum、count等。我们如何在Spark中做到这一点？"20"] [name:"DEF", city:"Lond

浏览 3提问于2016-07-14得票数 2

1回答

熊猫群按加权平均

python、pandas、numpy

我有一个DataFrame，我想按日期分组(df列中的"count_date")，并对按计数("count")加权的平均速度("average_speed")应用加权平均值。df_merged.groupby("count_date").apply(lambda x: np.average(x['average_speed'], weights=x['count']))

浏览 5提问于2022-08-16得票数 0

回答已采纳

2回答

在pandas中使用自定义函数和多个列进行聚合

pandas-groupby、transform、aggregation、summarization

假设我有以下数据帧：a 3 20b 5 10b 2 25 group new_value1 a 10.6 2 b

浏览 27提问于2020-07-31得票数 0

2回答

使用Pandas计算组中计数的情况

python、python-3.x、pandas、group-by、case

我是使用python的初学者，我试图在一个代码行中计算开放率比率(两个不同计数之间的比率)。我的数据是这样的： (142, 1, 'open' , 'Mobile'),], columns=['sent_mail_id', &

浏览 2提问于2021-05-11得票数 2

回答已采纳

1回答

熊猫的群序与投影

python、pandas

我在Pandas中有一个数据框架，在该数据框架中，我想知道两个特定列中每个值组合发生的次数。但是，如果我首先执行一个投影，然后按组，则返回一个空结果：如果删除计数，我将得到一些结果，但它们似乎没有分组<

浏览 0提问于2015-08-13得票数 1

回答已采纳

1回答

Python Pandas groupby应用lambda参数

python、pandas、lambda、pandas-groupby

在一段关于Python Pandas groupby的coursera视频中(在Python中的数据科学入门课程中)，给出了以下示例：其中df是一个DataFrame，而lambda用于计算两列的总和。如果我理解正确的话，调用apply函数的groupby对象(由groupby返回)是一系列元组，由分组</em

浏览 3提问于2017-11-29得票数 12

回答已采纳

1回答

dask groupby agg加权平均“未知聚合lambda”错误

python、dask

在Dask中，我需要基于第三列从两列的分组值计算加权平均值。/site-packages/dask/dataframe/groupby.py", line 1555, in agg File "/anaconda3/lib/

浏览 35提问于2019-08-27得票数 2

4回答

在pandas中，我想要做的是：df.groupby('A').filter(lambda x: x.name > 0) - group by列A，然后过滤名称为non positive的组。但是，当GroupBy.filter返回DataFrame时，这会取消分组，从而丢失分组。我想按这个顺序来做，因为它应该对计算要求较低，因为filter后面跟着groupby会遍历DataFrame两次，不是吗(首先过滤

浏览 3提问于2018-04-14得票数 12

3回答

熊猫-如何在有条件的群中创建多个列？

python、pandas、dataframe、pandas-groupby

我需要分组一个dataframe，但是我需要创建两个列，一个是简单计数，另一个是带有条件的计数，如示例所示：qtd_ok列只计算那些有“OK”的我尝试过这样做，但是我不知道如何在同一个

浏览 0提问于2018-11-21得票数 4

回答已采纳

1回答

将数据切割成两列，并计算每一段第三列的平均值。

pandas、dataframe、pandas-groupby、cut

目标:取一个DataFrame，按该dataframe的两列分组，计算其他列的平均值，并返回一个数据。我该怎么办？, 5], "var1":[343, 345, 567, 569],df = pd.DataFrame

浏览 7提问于2022-03-14得票数 0

1回答

熊猫组分类并将副本索引应用于附加列

python、pandas

考虑下面的MWE和最后三行选择：(df.assign(mybins = lambda df: pd.cut(df[我想按'a‘列的垃圾箱分组，做一些计算。当我使用.sum函数时，它按预期工作，它返回回收箱作为索引，每个bin的和作为列值。现在，当我使用apply函数计算和时，groupby索引在datafram

浏览 1提问于2016-06-27得票数 1

回答已采纳

2回答

Pyspark:按布尔列对连续行进行分组

apache-spark、pyspark、apache-spark-sql

我在Python语言中有一个Spark dataframe，它按照特定的顺序，可以根据值为1或0的列"start_of_section“将行划分到正确的组中。对于需要组合在一起的每个行集合，除了"value“和"start_of_section”之外的每一列都是相等的。我希望将每个这样的集合分组到一行和一个列"list_values“中，前者每隔一列具有相同的值，后者包含每行中所有值的数组。在新的数据帧中，这将是

浏览 2提问于2020-08-24得票数 1

1回答

如何仅在满足特定条件/计算的情况下使用pandas/Python对数据进行分组和聚合？

python、pandas、pandas-groupby

有一个看起来像这样的pandas.DataFrame df：Berlin USA 43.9727912 -88.9858084 5524但为了处理歧义-美国的两个条目不会合并，我的想法是计算</

浏览 1提问于2020-12-18得票数 2

1回答

Pandas为列创建自定义groupby聚合

python、pandas

在Pandas中，有没有一种方法可以创建一个新的列，它是两列聚合的函数，这样对于任何任意的分组，它都会保留该函数？这在功能上类似于在excel中创建计算列并按标签旋转。df1 = pd.DataFrame({'lab':['lab1','lab2']*5,'A':[1,2]*5,'B':[4,5]*5}) df1['C'] = df1.apply(la

浏览 0提问于2018-04-10得票数 1

2回答

熊猫数据组不移除分组密钥

python、pandas、group-by、pandas-groupby

根据这个例子，我首先创建一个数据框架：现在，让我们按标有"A“的列分组，并根据其值将其他两列相加：这样做是合理的，按"A“分组并产生： B

浏览 0提问于2018-01-17得票数 1

回答已采纳

5回答

用Pandas计数和排序

python、sorting、pandas、count、group-by

我有一个值的dataframe，它是一个文件，根据该文件，我按两列分组，这些列返回聚合的计数。现在我想按最大计数值进行排序，但是我得到了以下错误：查看按agg计数列的组是某种索引，所以不知道如何做，我是Python和Panda的初学者。

浏览 10提问于2016-11-06得票数 44

回答已采纳

2回答

熊猫:有条件的分组计算

python、pandas

假设我有一个带有键的表(例如，customer )和两个数字列C1和C2。我希望按键(customer)对行进行分组，并在其列上运行一些聚合器，如sum和mean。在计算组聚合器之后，我想将结果分配回DataFrame中的每个客户行(因为每个行都添加了一些客户范围的特性)。我能看到我能做一些像如果我只想聚合一个

浏览 5提问于2014-06-16得票数 5

回答已采纳

1回答

带差和和组

python、pandas

，我创建了一个用于测试的数据文件：data = np.array([[1,2,2] , [1,5,4], [7,8,18]])df_1 A B C1 1 5 4要计算'C‘和'B’列之间的差异，我使用： df_2 = pd.<e

浏览 0提问于2017-11-29得票数 2

回答已采纳

1回答

绘制python中的非数值数据

python、dataframe、matplotlib

假设这是数据，DeathYear、Age、Gender和Country都是excel文件中的列。以及为什么使用组和键入列两次('Gender')['Gender']

浏览 3提问于2020-06-23得票数 1

点击加载更多