Python中多条件下多列的Groupby sum和count_具有相同值的多列的Groupby和sum_pandas groupby和countif在多列中 - 腾讯云开发者社区

、

我在用Dataframe做火药桶。我有一张桌子，跟表1一样。我需要获得表2.其中： num_category -它是每个id有多少不同的类别 sum (计数)-它是表1中每个id的第三列的和。示例：表1 id |category | count 1 | 4 | 1 1 | 3 | 2 1 | 1 | 2 2 | 2 | 1 2 | 1 | 1 表2 id |num_category| sum(count) 1 | 3 |

浏览 4提问于2017-07-28得票数 0

回答已采纳

2回答

在空的dataframe中保留组后的列

、、、、

dataframe是query.when groupby之后的一个空df，引发运行时警告，然后获得另一个没有columns.How的空数据raise来保留列？ df = pd.DataFrame(columns=["PlatformCategory","Platform","ResClassName","Amount"]) print df 结果： Empty DataFrame Columns: [PlatformCategory, Platform, ResClassName, Amount] Index: [] 然后分组讨论

浏览 5提问于2017-09-07得票数 9

回答已采纳

1回答

对Pandas Dataframe中的组计数非零值和零值

、

我有如下所示的数据集： docs language instance example 1 python 25 example 2 JS 15 example 3 python 0 example 4 JS 34 example 5 python 0 example 6 JS 0 我试图按语言对它们进行分组，然后使用以下代码从列'instance‘中计数非零值： df['language'].groupby(df['inst

浏览 6提问于2022-08-07得票数 0

回答已采纳

3回答

计数具有特定列名的列中的值

、、、

Subs_1718 Count_1718 Subs_1819 Count_1819 Subs_1920 Count_1920 Apple 10.0 Grapes 12 Banana 12.0 Grapes 2.0 Apple 6 Grapes 8.0 Banana 2.0 Pineapple 3 Cashew 1.0 Dragonfruit 1.0

浏览 24提问于2020-09-03得票数 1

5回答

Python用相同的键在Dataframe中总结行

、、、、

我想在具有相同行键的dataframe中总结行。其目的是缩小数据集的大小。例如，如果数据框架如下所示。 Fruit Count Apple 10 Pear 20 Apple 5 Banana 7 Banana 12 Pear 8 Apple 10 我想让最后的数据看起来像这样。 Fruit Count Apple 25 Pear 28 Banana 19 我正在使用Pytho

浏览 2提问于2019-02-05得票数 3

回答已采纳

2回答

重塑数据框架和聚合值

、、、、

我有一个数据框架，有三个不同的列，A，B和C。我按命令在A、B和C列上应用了一个组。我还计算了no。每组三个值所拥有的行。由此产生的数据：现在，我希望将0和1(C列中的单元格值)作为列本身。另外，我希望将它们相加，并在单独的列(0和1列旁边)显示它们的和。期望产出： A B Count0 Count1 Sum of Counts Count1/Sum of Counts 1000 1000 38 538 567 538/567 1000 1001 9

浏览 1提问于2018-11-05得票数 1

回答已采纳

2回答

python面板通过丢失列名进行分组

、

有3列， ACCOUNT, DATE, AMOUNT 我正在尝试在pandas中做以下事情，并计划在group by output dataframe之后使用"sum“列来做更多的工作： df_group_by=df.groupby('account').agg({'amount': [np.size, np.sum]},as_index=False).reset_index() # equal to "SELECT ACCOUNT, SUM(amount) as sum FROM table GROUP BY ACCOUNT;" pr

浏览 1提问于2018-07-18得票数 0

1回答

如何用groupby方法表示数据的平均值

、、、

我想在一个DataFrame中对我的变量做一个平均值，其中我已经将元素按列'A‘分组了。问题是，当我打印结果时，输出只是第一个变量列的平均值，为什么要这样做呢？ (B)编码； import pandas as pd file = open('C:/Users/Andre/Desktop/Python/introduction-datascience-python-book-master/files/ch03/adult.data', 'r') def chr_int(a): if a.isdigit(): return int(a)

浏览 0提问于2020-05-07得票数 1

回答已采纳

1回答

通过在pandas中分组和添加值来展平列

、

我有一个像这样的数据帧 id, index, name, count1, count2 1, 1, foo, 12, 10 1, 2, foo, 11, 12 1, 3, foo, 23, 12 1, 1, bar, 11, 21 ... 2, 1, foo, ... 我想获得一个数据帧，如下所示 id, name, count1, count2 1, foo, 46,34 1, bar, .. 所以基本上，我想从这个字段中“洗掉”索引..在添加count1和count2列时我如何在pandas/python中做到这一点？

浏览 5提问于2016-07-29得票数 1

回答已采纳

2回答

Sort dataframe by value return返回“对于多索引，标签必须是具有与每个级别相对应的元素的元组。”

、、、

目标:基于5列的数据帧，返回3列的数据帧，其中1列是计数，并按最大计数从大到小排序。我尝试过的： df = df[['Country', 'Year','NumInstances']].groupby(['Country', 'Year']).agg(['count']) df = df.sort_values(by='NumInstances', ascending=False) print(df) 错误: ValueError:列标签'NumInstances‘不

浏览 22提问于2021-04-18得票数 0

1回答

pandas中的聚集和计数

、、、

对于以下df group participated A 1 A 1 B 0 A 0 B 1 A 1 B 0 B 0 我想计算group列中每个值在participated列中的值总数(groupby- count )，然后计算每个组中有多少个1 就像这样 group tot_participated 1s A 4 3 B 4 1 我知道第一部分很

浏览 7提问于2021-07-25得票数 0

回答已采纳

1回答

如何对多个索引使用groupby，然后使用count聚合函数，然后使用多个索引中的一个来获得count的总和？

、、

我已经用python创建了一个dataframe，假设： testingdf = pd.DataFrame({'A':[1,2,1,2,1,2], 'B':[1,2,1,2,3,3], 'C':[9,8,7,6,5,6]}) 现在我想根据我正在执行的'A‘和'B’来获得列'C‘的计数 testingdf.groupby(['A','B']).count() 要获得以下信息：

浏览 32提问于2021-08-05得票数 0

1回答

如何在Spark DatFrames中使用groupBy结果求和？

、、

基于以下数据帧： +---+-----+----+ | ID|Categ|Amnt| +---+-----+----+ | 1| A| 10| | 1| A| 5| | 2| A| 56| | 2| B| 13| +---+-----+----+ 我想通过ID和Categ获得列的总和。 +---+-----+-----+ | ID|Categ|Count| +---+-----+-----+ | 1| A| 15 | | 2| A| 56 | | 2| B| 13 | +---+-----+-----+ 在SQL中，我要做

浏览 1提问于2017-12-22得票数 2

回答已采纳

2回答

如何在DataFrame中区分(计数)、分组和和数据？

、、

我有下一个DataFrame： a = [{'order': '789', 'name': 'A', 'date': 20220501, 'sum': 15.1}, {'order': '456', 'name': 'A', 'date': 20220501, 'sum': 19}, {'order': '704', 'name': 'B',

浏览 2提问于2022-05-17得票数 0

回答已采纳

1回答

如何计算分组Spark数据帧中的布尔值

、、、、

我想从分组的Spark数据帧中计算一列中有多少条记录是真的，但我不知道如何在python中做到这一点。例如，我有一个包含region、salary和IsUnemployed列的数据，其中IsUnemployed是一个布尔值。我想看看每个地区有多少失业人员。我知道我们可以先做一个filter，然后再做groupby，但是我想同时生成两个聚合，如下所示 from pyspark.sql import functions as F data.groupby("Region").agg(F.avg("Salary"), F.count("IsUnemploy

浏览 0提问于2016-02-19得票数 17

回答已采纳

1回答

在groupby之后对同一列应用多个操作

、、、

我有以下df， id year_month amount 10 201901 10 10 201901 20 10 201901 30 20 201902 40 20 201902 20 我想groupby id和year-month，然后得到组的大小和amount的和， df.groupby(['id', 'year_month'], as_index=False)['amount'].sum() df.groupby(['

浏览 6提问于2019-07-17得票数 1

回答已采纳

2回答

带条件的Python Groupby

、

我有一个有三列的数据帧。我需要按名称分组并对Amount列求和，而仅当Fruit列满足特定条件时才对其进行计数。下面是一个数据帧外观的示例： Name Fruit Amount Bob Apple 5 Bob Orange 7 Bill Apple 4 Bill Orange 8 Bill Apple 3 在本例中，我将Bob和Bill的名字组合在一起，将Apple和Orange的数量相加，但只计算Apple的出现次数，因此新的数据帧将如下所示： Name Sum Count Bob 12 1 Bill 15 2

浏览 28提问于2021-11-04得票数 2

1回答

当两个条件满足时，如何仅对基于的值进行求和？

、、、

我想根据两列的值对我的panda数据报中的值进行求和。(Python 3.x) 我已经尝试过使用groupby函数和类似的方法，但由于我对这个主题相对较新，因此需要一些帮助。这是我使用的数据的一个示例： Date | ID | Count 2019-01-01 | 300020 | 1 2019-01-01 | 300020 | 1 2019-01-01 | 300020 | 1 2019-02-01 | 660020 | 1 2019-02-01 | 300020 | 1 2019-03-01 | 760020 | 1 2019-03-01

浏览 1提问于2019-08-26得票数 0

1回答

按组按Pandas创建两个聚合列

、、、、

我是DataFrames新手，我想对多个列进行分组，然后对最后一列进行汇总和计数。例如： s = pd.DataFrame(np.matrix([[1, 2,3,4], [3, 4,7,6],[3,4,5,6],[1,2,3,7]]), columns=['a', 'b', 'c', 'd']) a b c d 0 1 2 3 4 1 3 4 7 6 2 3 4 5 6 3 1 2 3 7 我想在a、b和c上分组，然后在d上进行和，并计算组中的元素。我能数到 s = s.groupby

浏览 1提问于2016-09-09得票数 3

回答已采纳

1回答

如何在大熊猫中使用群比或pivot_table

、

我有一个数据，在其中我有四列id，反对，投篮和坏球。我想要分组，以局和对手，并想要的总和的wicket和计数的反对。假设这是我的数据。和我所需的数据格式输出应该是。 wickets列是按局和反两局的wickets组之和，而match_play是按对手和局数计算的对手组数。我试过使用枢轴表，但得到了'Opposition' not 1-dimensional table = inn.pivot_table(values=['Opposition', 'Wickets'], index=['Opposition

浏览 3提问于2020-11-29得票数 0

回答已采纳

2回答

熊猫群多列给出奇怪的索引行为

、、、

我有如下数据，有7列。我希望合并列1-6中具有相同值的所有行，并将相应的列-7数据之和。 0.1 0.2 0.3 0.1 0.2 0.3 0.001 0.1 0.2 0.3 0.1 0.2 0.3 0.002 0.9 0.9 0.9 0.1 0.1 0.1 0.002 0.9 0.9 0.9 0.8 0.8 0.8 0.1 0.9 0.9 0.9 0.8 0.8 0.8 0.2 0.1 0.2 0.3 0.1 0.2 0.3 0.001 0.1 0.2 0.3 0.1 0.1 0.1 0.002 0.9

浏览 0提问于2019-06-29得票数 0

回答已采纳

2回答

如何聚合一个dataframe并应用lambda函数？

、、

我有一个包含以下列的数据框架： idnameproductcountpricediscount 我想要创建一个总结数据框架，它显示每个客户已经花费了多少钱的总和。有和不打折扣。我尝试了以下方法 summary = df.groupby('client_name')['price','count','discount'].agg([ ('Total pre discount', df['price']*df['count']), ('Discount appl

浏览 6提问于2021-02-28得票数 1

3回答

熊猫群，如何在多列上做多个聚合？

、、、

我有这样的数据： Product occasion count 1 cake wedding 2 2 chairs funeral 3 3 chairs wedding 2 我希望对count列进行加和，并将数据按产品分组为occasion列，如下面所示： Product occasion count 1 cake wedding 2 2 chairs wedding|funeral 5 现在，我正在使用两个组，并加入结果

浏览 5提问于2020-01-10得票数 2

回答已采纳

1回答

如何通过跨列匹配对列值求和？

、

浏览 1提问于2016-04-15得票数 2

1回答

在python中使用groupby进行计算

、、、

我有一个示例数据帧，如下所示，我正在使用Python语言中的groupby来解决四列col alpha lambda n_fold相等的问题，然后求count列的和并执行类似(score*count)/sum(count)的数学运算 df = col fold alpha lambda score n_fold count 0 0.5 0 0 1 -0.424915241 1 3966 1 0.5 1 0 1 -1.669508557 1 10182 2 0

浏览 3提问于2018-07-25得票数 0

回答已采纳

4回答

在python中对dataframe每一列中的非零值进行计数

、、

我有一个python-pandas-dataframe，其中第一列是user_id，其余的列是标记(从tag_0到tag_122)。我有以下格式的数据： UserId Tag_0 Tag_1 7867688 0 5 7867688 0 3 7867688 3 0 7867688 3.5 3.5 7867688 4 4 7867688 3.5 0 我的目标是为每个user_id实现Sum(Tag)/Count(NonZero(Tags)) df.groupby('user_id').sum()给了我sum(tag)，但是我对计算非零值一无所知是否可以在一条

浏览 9提问于2014-09-26得票数 75

2回答

不同指标的优化计数

、

我已经对我的问题有了解决方案，但我正在寻找一种更快的方法来完成它。有一个只有两列的DataFrame。 In[1]: import pandas as pd In[2]: temp = pd.DataFrame({'id':['a','a','a','b','b','b'],'col1':[1,2,3,1,2,5],'col2':[1,2,4,1,3,4]}).set_index('id') In[3

浏览 4提问于2017-08-09得票数 1

回答已采纳

1回答

一列python pandas的条件和

、、

我是python和pandas的新手，正在寻找一些帮助。我正在使用CSV，并尝试使用pandas根据中间列的值计算每个名称的总和。我想要将'GEN‘和'NPR’的每个名称的'count‘之和相加。这是我的CSV数据集： StartingCSV.csv： Name, Specialty, Count Smith, GEN, 1 Smith, INT, 2 Smith, NPR, 5 Smith, PSC, 4 Zane, GEN, 3 Zane, PSC, 4 Zane, NPR, 4 Charles, NPR, 4 Charles, AUD, 4 所需输出： Smith

浏览 2提问于2021-02-24得票数 0

1回答

Pandas DataFrame中列值的求和

、、

在熊猫DataFrame中，是否有可能折叠具有相同值的列，并在另一列中对值进行汇总？码 data = {"score":{"0":9.397,"1":9.397,"2":9.397995,"3":9.397996,"4":9.3999},"type":{"0":"advanced","1":"advanced","2":"advanced","3":"newbie

浏览 1提问于2013-11-24得票数 17

回答已采纳

1回答

列计算的For循环

我是Python的新手，不知道如何为多列计算创建for循环。我需要对多个列进行以下计算： cal_1=df1.groupby(['Type'])['Ind_1'].sum()/df1.groupby(['Type'])['ID'].count() cal_2=df1.groupby(['Type'])['Ind_2'].sum()/df1.groupby(['Type'])['ID'].count() .... cal_20=df1.groupby(['

浏览 7提问于2020-01-23得票数 0

1回答

Pandas DataFrame中的多步聚合

、、

在Pandas中，如何在同一个数据集中进行多步/顺序聚合？好像每个步骤都是下一个步骤的“子查询”。在SQL中，我可以这样想： SELECT x.A, COUNT(x.B) as B_COUNT, SUM(x.C_SUM) as C_SUM FROM ( SELECT df.A, df.B, SUM(df.C) as C_SUM FROM df GROUP BY df.A, df.B ) x GROUP BY x.A 在Python3.4和Pandas0.19.2中工作，我有这样一个数据框架： import pandas import numpy numpy.rand

浏览 0提问于2016-12-30得票数 1

回答已采纳

1回答

通过使用pandas提取和分组列来汇总数据帧

、、

我想总结一个csv文件中的列。相当多地提取列数据，并将其与相关评级和计数相匹配。另外，你知道我应该如何匹配预期的数据帧和网站图像吗？ website rate 1 two 5 2 two 3 3 two 5 4 one 2 5 one 4 6 one 4 7 one 2 8 one 2 9 two 2 website rate(over 5) count appeal(rate over 5 / count >= 0.5) one 0

浏览 17提问于2019-01-22得票数 0

1回答

用“群”概括大熊猫中的collections.Counter对象

、、、、

我试图将words_count列按essay_Set和domain1_score进行分组，并在words_count中添加计数器，以添加计数器结果，如下所示： >>> c = Counter(a=3, b=1) >>> d = Counter(a=1, b=2) >>> c + d # add two counters together: c[x] + d[x] Counter({'a': 4, 'b': 3}) 我使用以下命令对它们进行分组：words_freq

浏览 1提问于2020-12-31得票数 2

回答已采纳

1回答

Dataframe groupby到新数据帧

、、

我有一个表格，如下所示。 Month,Count,Parameter March 2015,1,40 March 2015,1,10 March 2015,1,1 March 2015,1,25 March 2015,1,50 April 2015,1,15 April 2015,1,1 April 2015,1,1 April 2015,1,15 April 2015,1,15 我需要从上面创建一个新表，如下所示。 Unique Month,Total Count,<=30 March 2015,5,3 April 2015,5,5

浏览 1提问于2020-03-10得票数 0

1回答

在用户定义的python函数中的groupby，不工作

、、

我已经在Python中创建了自己的用户定义函数。输入是一些参数和数据。首先，将一些新变量添加到输入数据中。然后，我尝试在dataframe上创建一个groupby，然后将结果加入到dataframe。但是dataframe不需要添加groupby变量。 def test(df, params): df['b']=df['a']*params['some_parameter'] df['c']=df['b']*df['total'] aaa=df.groupby([&#

浏览 0提问于2019-03-07得票数 1

回答已采纳

1回答

将DataFrame (长格式数据)重塑为“摘要”DataFrame

、、、、

总之，我是python的新手。我正在尝试自动重塑我通常在excel中执行的操作，如下所示。 #Import long form data from CSV into pandas data frame In 1: Data = [My Long Form DataFrame imported from a CSV file] City Population Chicago 1,245 Los Angeles 2,457 New York 998 Chicago 1,854 New York 1,654 Los Angeles 2,478 Los An

浏览 1提问于2014-07-31得票数 1

1回答

熊猫群在一列名单上

、、、

我有一个包含pandas的列的lists数据 df = pd.DataFrame({'List': [['once', 'upon'], ['once', 'upon'], ['a', 'time'], ['there', 'was'], ['a', 'time']], 'Count': [2, 3, 4, 1, 2]}) Count List 2 [once, upon] 3 [onc

浏览 3提问于2018-03-22得票数 7

回答已采纳

1回答

Pandas DataFrame中列的和

、

我有一只熊猫DataFrame。 LeafId pidx pidy count 1 x y 10 1 x y 20 1 x z 30 3 b q 10 1 x y 20 我们可以看到有多行pidx = x and pidy = y 我希望将count列和起来，并获得dataframe df2，如： LeafId pidx pidy count 1 x y 50

浏览 1提问于2017-01-12得票数 1

回答已采纳

1回答

在apache中查找groupby后的总计数和项数

、

我需要找到每个deviceType实体的平均数量。我已经将数据读取到一个csv文件中，并从该csv文件中创建了一个包含category和deviceType的dataframe。我读过数据文件： test_df.groupby('category').count().show() 它显示“类别”列和“计数”列。我如何得到：分组“类别”栏的项目总数，以及计数列中所有项的总和。我需要：读这两个，然后取计数列所有行中的项目总数，以及除以类别栏中的项目数

浏览 3提问于2017-11-03得票数 1

回答已采纳

1回答

如何将熊猫群组合在一起？

、、、

我有两个数据文件，我想用Python...How连接群的结果，我能这样做吗？ df1=pd.DataFrame({'Country':["US","CN","GB","US","DE","AU","CM","CU","CM"],'July Volume': [2541,3766,3071,1881,4653,1890,3203,1820,1411], 'July Sales':

浏览 0提问于2018-10-16得票数 0

回答已采纳

1回答

如何查询同一个表中不同分组的count()？

、

我有下表： CREATE TABLE COST1 ( REGION, IS_SERVICED, ) IS_SERVICED是正确的还是错误的。区域并不是唯一的。我想返回一个包含3列的数据集: REGION、COUNT_TRUE、COUNT_FALSE。如果我需要放置位置/有条件来识别其中的一个查询，那么如何编写一个查询来生成true和false的计数(按区域分组)。我可以对多个CTE这样做，具体如下： WITH TRUE_COUNT_TABLE (REGION, TRUE_COUNT) AS (SELECT REGION, count(*) FROM TABLE1 WHERE

浏览 4提问于2021-06-29得票数 0

回答已采纳

1回答

按groupby的最大值限制数据集

、

在postgres sql中，如何执行涉及groupby (2列)上的计数的分析，但将数据集的输出限制为groupby中仅有1列的最大x行？ | Groupby_1 | Groupby_2 | |-----------|-----------| | a | x | | a | y | | b | x | | b | x | | b | z | 限制前的预期输出 | Groupby_1 | Groupby_2 | Count | |--

浏览 11提问于2020-04-04得票数 0

1回答

根据某些特定列合并数据，熊猫

、、、

假设我有两个数据帧，t1h和t2h。我希望以这样的方式合并该数据帧，对于特定的列列表(如果这些行似乎类似)，我需要对其余列的内容执行加法操作。 t1h timestamp ip domain http_status \ 0 1475740500.0 192.168.1.1 example.com 200 1 1475740500.0 192.168.1.1 example.com 200 2 1475740500.0 192.168.1.1 example.com 201 3 14

浏览 1提问于2016-10-06得票数 2

回答已采纳

1回答

如何在一个数据帧中创建一个列，该列是基于公共列的另一个数据帧中另一个列的总和？

、、、

我有一个数据帧(df1)，看起来像这样： Character Word Count Leslie Knope 58 Child 9 Leslie Knope 13 Child 63 和另一个数据帧(df2)，看起来像这样： Character Line Count Leslie Knope 81 Child 1 我正在尝试在df2中创建一个新列，它是df1中基于两个数据集中通用的“字符名称”列的“Word Count”列的总和。输出应如下所示： Character Line Count

浏览 17提问于2021-07-04得票数 0

回答已采纳

1回答

使用元组列时.groupby和.agg中的错误

、、

我在使用元组列使用.groupby和.agg时遇到了问题下面是.info() account_aggregates.info() <class 'pandas.core.frame.DataFrame'> Int64Index: 9713 entries, 0 to 9712 Data columns (total 14 columns): NATIVEACCOUNTKEY 9713 non-null int64 (POLL, sum) 9713 non-null int64 num_cancellations

浏览 1提问于2015-08-14得票数 0

回答已采纳

2回答

如何在Pandas中引用.agg()函数创建的列

、

我已经创建了使用Groupby()和.agg()的代码，以便新的DataFrame具有Total中值的sum、mean和count列。 test = df.groupby('Sector').agg({'Total': ['sum', 'mean', 'count']}) 这段代码已经正常工作，并在必要时产生了结果。但是在尝试使用sort_values()对sum列进行降序排序时。我遇到了一个问题。 test.sort_values('sum', axis="columns", a

浏览 22提问于2020-10-29得票数 1

回答已采纳

2回答

熊猫:分组和总和数据，同时增加最小和最大年。

、、

请考虑以下数据： import pandas as pd from pandas import DataFrame df = pd.DataFrame({'ID': ['A','A','A','B','B','B','C','C','C'], 'YEAR': [2000,2001,2002,2007,2008,2009,2015,2016,2017], 'ITEM-A'

浏览 7提问于2022-02-21得票数 1

回答已采纳

2回答

按Pandas中的数据子集和除以列

、

我有一只熊猫DataFrame，如下所示： pd.DataFrame({'ID': {0: 'A', 1: 'B', 2: 'C', 3: 'D', 4: 'E'}, 'Count': {0: 1, 1: 2, 2: 3, 3: 4, 4: 5}, 'Group': {0: 'A', 1: 'A', 2: 'A', 3: 'B', 4: 'B'}}) 看起来是这样的： Change Co

浏览 4提问于2022-06-01得票数 0

回答已采纳

3回答

如何获取列pandas中连续1的最大计数

、、、

我有一个数据帧，其中包含列Flag1，我想检查列中的标志值1是否连续出现最大次数以下是数据帧和输出格式 df = pd.DataFrame({'flag':[1, 1, 0, 1, 1, 1, 0, 1, 1, 0, 1, 1, 1]}) df_out = pd.DataFrame({'max_count':[3]})

浏览 64提问于2021-07-23得票数 2

回答已采纳

3回答