GroupBy列和筛选具有最大值的行_使用pyspark中的groupby根据筛选的行创建具有最大值的新列_筛选列最大值和相应的行值pandas - 腾讯云开发者社区

python、pandas、dataframe

我有数千只熊猫的dataframe df，每个熊猫有1.2亿行，如下所示： a b c d e 111 10 100 200 300 james 112 11 110 210 310 june 112 11 140 210 312 dune 234 12 120 220 333 dane 重复索引是自定义索引为112。我希望保留列'b‘的最大值行以及自定义索引'112’。所以输出看起来就像 a b c d e 111 10 100 200 300 j

浏览 6提问于2022-08-28得票数 3

2回答

熊猫:如何删除重复行，但保留所有行的最大值

python、python-3.x、pandas、dataframe、pandas-groupby

如何删除重复行，但保留最大值的所有行。例如，我有一个4行的dataframe： data = [{'a': 1, 'b': 2, 'c': 3},{'a': 7, 'b': 10, 'c': 2}, {'a': 7, 'b': 2, 'c': 20}, {'a': 7, 'b': 2, 'c': 20}] df = pd.DataFrame(data) 在这个dataframe中，我想要一个类似的数据(3

浏览 0提问于2018-11-02得票数 4

回答已采纳

1回答

Python熊猫:检索带领带的每一行的最高值

python、pandas、dataframe

我有一张能产生这张桌子的数据。 Row Number Rank 0 702 20 1 702 20 2 702 6 3 100 5 4 100 5 5 100 1 我希望能够过滤这个数据，以便它只保留每个行号中"Rank“(包括领带)中值最高的行。就像这个例子： Row Number Rank 0 702 20 1 702 20 2 100 5 3 100

浏览 3提问于2021-09-25得票数 1

回答已采纳

1回答

如何使用python根据列特定值从数据中提取行

python、pandas、group-by、pandas-groupby

目前，我有一个庞大的数据集和一个非常小的例子如下所示。我想要做的是基于shift列提取行，并为的最后3行从score列中找到最大值，然后将整行提取到一个新的数据帧中。例如:每一天有两班(白天和晚上)，每班我都想为每班最后3行找到最高分数(例如:6月26日，shift>日，我想从last 3 score of the day shift，26 jun )中找到最高分数。我不想取每一个移位最大的分数并提取那一行)，并提取整行并将其设置为新的dataframe。我想每天两班都这么做。预期的dataframe输出如下：我试图使用groupby来解决这个问题。但是，我不

浏览 3提问于2020-10-21得票数 0

1回答

如果符合条件，熊猫可以分组填写。

python、pandas、dataframe、pandas-groupby

我有一个DataFrame，我希望在一个列中根据它们的分组填充值。如果要填充的列中只有一个唯一值，我只希望填充这些值(通过使用ffill和bfill传播非NaN值)；否则，应该保持原样。下面的代码有一个示例数据集，我尝试这样做，但是我得到了一个错误。代码： df = pd.DataFrame({"A": [1, 1, 2, 2, 2, 3, 3, 3, 3, 4, 4, 5, 6, 6], "B": ['a', 'a', np.nan, 'b', 'b',

浏览 7提问于2022-03-15得票数 1

回答已采纳

1回答

如何使用最近的日期过滤行，保持与输入相同的结构？

scala、apache-spark

我试图在Scala中创建一个函数来过滤最近的日期。我想保持它的一般性，因此，无论我输入的数据，只要它有列“日期”，将返回我的最新行的数据。值得注意的是，我的date列通常被定义为一个字符串，格式为yyyy。我很确定这里的代码是有缺陷的，但我想它说明了这个想法。 def fixDate(table: DataFrame): DataFrame = { table .withColumn("date", from_unixtime(unix_timestamp(col("date"), "yyyy-MM-dd"), "

浏览 3提问于2022-08-07得票数 0

1回答

删除另一列中具有多个唯一值的组。

python、pandas、dataframe、group-by、pandas-groupby

我有一个优秀的 Name X Y A 5 9 B 5 10 C 7 9 D 7 9 E 5 10 F 5 8 我希望删除Y列中有重复值但X列中有不同值的行。(换句话说，如果Y的一个值有多个X值，则删除所有这些行)结果应该是： Name X Y B 5 10 E 5 10 F 5 8

浏览 0提问于2019-01-04得票数 0

回答已采纳

2回答

如何使用键组合行并保持最高值Pandas

python、pandas、dataframe

我有一个有几个行和几个列的dataframe，我需要将其他列a、b、c的值组合成相应键的一行。 Key, ColA, ColB, Colc 111 0 12 0 111 12 0 0 111 0 0 12 222 12 0 0 222 0 0 12 我想要的输出是 key, ColA, ColB, ColC 111 12 12 12 222 12 0 12 谢谢你的帮助

浏览 2提问于2022-05-02得票数 1

回答已采纳

1回答

忽略大熊猫中不同行的最小值

pandas、dataframe、pandasql

我在熊猫下面 Name | Value1 | Value2 User 1 | 1 | 15 User 1 | 2 | 35 User 1 | 3 | 35 User 1 | 3 | 35 User 2 | 4 | 23 User 2 | 5 | 25 User 3 | 6 | 45 User 3 | 7 | 50 我只想选择那些在Value2列中值最大的行。如下所示： Name | Value1 | Value2 User 1 | 2

浏览 4提问于2020-03-14得票数 1

回答已采纳

2回答

从pandas多索引数据帧获取最大值

python、pandas、pandas-groupby

我正在尝试从具有多个索引的pandas数据帧中仅检索最大值(包括多个索引值)。我拥有的数据帧是通过groupby和列选择('tOfmAJyI')生成的，如下所示： df.groupby('id')['tOfmAJyI'].value_counts() Out[4]: id tOfmAJyI 3 mlNXN 4 SSvEP 2 hCIpw 2 5 SSvEP 2 hCIpw 1 mlNXN

浏览 8提问于2018-02-24得票数 8

2回答

熊猫在单独的列中从值最高的数据中选择行

python、pandas、dataframe

我正在寻找一种方法来选择在一个单独列中标识的组中具有最高值的数据value的行。 DataFrame： Group Value 0 A 0 1 A 12 2 A 22 3 A 63 4 B 0 5 B 24 6 B 66 7 B 78 期望的DataFrame： Group Value 0 A 63 1 B 78

浏览 4提问于2022-08-04得票数 0

回答已采纳

1回答

熊猫按一列分组，然后在其他列值的所有行相同时过滤(如所有行=“是”)

pandas、pandas-groupby

问题陈述:我想用一个特定的列(我的示例col "Name")组成一个dataframe，然后与其他列一起进一步过滤所有行值= "yes“。预期产出如下

浏览 3提问于2022-05-08得票数 0

4回答

Python熊猫-在群后过滤行

python、pandas、filter、lambda、group-by

例如，我有下表： index,A,B 0,0,0 1,0,8 2,0,8 3,1,5 4,1,3 按A分组后 0: index,A,B 0,0,0 1,0,8 2,0,8 1: index,A,B 3,1,5 4,1,3 我需要的是从每个组中删除行，其中列B中的数字小于组列B中所有行的最大值。嗯，我在把这个问题翻译成英语的过程中遇到了问题，下面是一个例子：组B中列0中行的最大值：8 因此，我想使用索引0删除行，并保留具有索引1和2的行。组B中列1中行的最大值：5 因此，我想用索引4删除行，用索引3保留行。我试过使用熊猫过滤功能，但问题是它同时对所有行进行分组操作： data = <

浏览 6提问于2014-12-15得票数 69

回答已采纳

2回答

如何通过ID从Pandas dataframe获取每年最大日期的行？

python、pandas、dataframe

示例dataframe看起来： ID Date Value 2 2020-06-30 124 1 2020-09-30 265 1 2021-12-31 140 1 2020-12-31 142 2 2020-12-31 147 1 2019-12-31 677 1 2

浏览 2提问于2022-06-18得票数 1

2回答

基于大熊猫群的最大值创建新栏目

python、pandas

我试图创建一个基于groupby函数的新列，但是我遇到了一个错误。在下面的示例数据中，我希望创建一个新的列，其中只有在与每个用户的最大seq变量对应的行中才有一个新的整数。因此，例如，user122在第3行中只有一个数字，其中seq是3(这个用户最高的seq号)。 df = pd.DataFrame({ 'user': {0: 'user122', 1: 'user122', 2: 'user122', 3: 'user124', 4: 'user125', 5: &#

浏览 7提问于2022-10-11得票数 0

1回答

Pandas Dataframe (内部)在同一Dataframe上加入

python、pandas、dataframe、join、merge

我正在研究如何对patstat (参考数据库)数据库进行集群。使用我自己的算法，我想出了一个数据框架，它显示了参考文献的作者、开始页、结束页、卷和publication_year。运行： dfhead = df.head(10) 向我展示 ? 现在我想要:使用相同的数据帧显示内部连接，例如，author，beginpage和endpage是相同的。(行之间至少有3个相似之处) 我试过了： c = ['author', 'beginpage','endpage', 'volume','publication y

浏览 12提问于2020-12-07得票数 0

1回答

功率BI将秩或行号添加到列中

powerbi、dax、powerbi-desktop

我试图添加一个简单的排名编号或行号到列，但没有运气。我有一个简单的测试表，包括2列-名称和房间号。我附加了房间号来过滤，这样就可以过滤了。我的目标是在结果的raws中增加一个数字。我使用dax测量，但没有运气。这是我的DAX测量代码：访问者num = RANKX('myTab'，计算(计数(‘myTab’名称)) 但是它对每一行只返回1。

浏览 5提问于2022-11-30得票数 1

回答已采纳

2回答

如何合并来自上下文相关的两列的数据？

python、pandas、dictionary、if-statement、merge

在具有以下数据结构的文件中：输入文件在数据下面，直到列(PB). contig pos GT PGT PID PG PB updated_Block 2 5426 0/1 0|1 5398 1|0 1311 1311 2 5427 0/1 0|1 5398 0/1 . 1311 2 5434 0/1 0|1 5398 1|0 1311 1311 2 5454 0/

浏览 4提问于2016-12-23得票数 0

2回答

Pandas groupby获取其中行匹配条件的组的第一个元素

python、pandas、group-by、aggregate

我有一个dataframe，其中一些行除了一列之外，所有的值都是相同的。我希望删除重复的行，只保留该列中值为1的每个组中的第一行，或者如果该列中没有值为1，则保留任意一行。示例数据： df = pd.DataFrame({'a': [1, 1, 1, 2, 2, 3, 3], 'b': [0, 1, 2, 3, 4, 5, 6], 'c': [0, 1, 0, 0, 0, 1, 1]}) 我想要的输出是这样的 df.groupby(['a']).firs

浏览 2提问于2018-02-14得票数 1

回答已采纳

1回答

如何从pandas dataframe中删除连续的重复行，同时更新列值？

python、pandas、dataframe

我有以下数据结构： |a |b |start_time |end_time 0 |aaba |d |11:26 | 11:27 1 |aba |c |11:27 | 11:32 2 |aba |c |11:32 | 11:34 3 |cab |ab |11:34 | 11:35 4 |aba |c |11:35 | 11:40 我想合并列a和b上重复的连续行，然后将新行的start_time和en

浏览 16提问于2019-06-14得票数 3

2回答

在dataframe中按唯一ID值放置列

python、pandas、dataframe、sorting、filter

我有一个带有ID列的dataframe，以及另外两个名为“合法雇主”和“传统合法雇主”的列，如下所示： ID Legal Employer Legacy Legal Employer 1 Warehouse Warehouse 4 1 Pool Warehouse 4 1 Drive Warehouse 4 2 Warehouse 2 Drive Warehouse 3 Warehouse Drive 3 Pool 4 Drive Driv

浏览 5提问于2022-08-28得票数 1

回答已采纳

1回答

如何选择列中具有相同绝对值的行

python、pandas

我希望选择行0、1、3和4以及具有相同赦免值的其他行。注意，假设我们不知道值(可能有-25，25，-2356,2356，等等) test = pd.DataFrame({'id':[1, 2, 3, 4, 5], 'quantity':[20, 30, 40, -30, -20]}) id quantity 0 1 20 1 2 30 2 3 40 3 4 -30 4 5 -20 ..... 做这件事最好的方法是什么？

浏览 2提问于2022-02-05得票数 0

回答已采纳

1回答

如何计算特定列值的最小最大平均值并将其存储在新列中？

scala、apache-spark、apache-spark-sql

我是Spark/Scala的新手，所以我有很多问题，其中之一就是。我有一个数据帧，其中包含代码，描述，depdelay。列code有重复的值示例(EA)我想在新列中使用code的不同值和depdelay的min，max，avg。

浏览 0提问于2019-08-28得票数 0

1回答

比较Pandas中的数据

python、pandas、matplotlib、pandas-groupby

我只是想得到一些数据然后重新整理一下。这是我的数据集，显示食物和他们在不同年份得到的分数。我想做的是找出平均得分最低和最高的食物，并追踪这些年的得分。下一部分是我被困的地方:我需要显示原始数据集中显示所有列的最大和最小的食物--食物，年份，分数。这是我试过的，但不起作用： menu[menu.Food == Max & menu.Food == Min] 基本上，我希望它能在数据图中显示类似下面的内容，这样我就可以绘制一些图表(也就是说，我想要绘制一个线图，它将显示x轴上的年数、y轴上的分数，并绘制得分最低的食物和得分最高的食物：如果你们知道其他的方法，请告诉我

浏览 8提问于2022-03-21得票数 1

回答已采纳

2回答

大熊猫在每一组的条件都成立后，就会保持排行。

python、pandas、dataframe、pandas-groupby

我现在有一个问题，在满足条件之前，我希望在熊猫数据中放置行。我想删除每一行之前，条件为10或更高的条件是满足列“数字”，这取决于名称列。假设dataframe (df)有两个名为'Name‘和'Number’的列。我希望在满足条件之前删除每个唯一名称的所有行，然后保留所有行。 Name Number Matt 4 Matt 5 Matt 13 Matt 4 Sophie 5 Sophie 14 Sophie 18 Steve 5 Steve 4 Steve 21 Desired output: Name Number Ma

浏览 6提问于2022-02-03得票数 0

回答已采纳

3回答

通过列的vlalue映射Pandas dataframe中的重复行？

python、python-3.x、pandas、dataframe

在具有2列[id][string]的dataframe中，我需要根据列[string]的值知道哪些行是重复行。我的dataframe有数千行，但只有2列。输入数据的示例： id,string 0,"A B C D" 1,"D B C D E Z" 2,"A B C D" 3,"Z Z Z Z Z Z Z Z Z Z Z Z" 4,"D B C D E Z" 5,"A B C D" 在这个示例中，行0、2、5是彼此重复的。此外，行1和4是彼此重复的。(id是唯一的) 我需要以下输出： [["

浏览 5提问于2022-05-19得票数 1

回答已采纳

2回答

基于自定义条件的csv中的行过滤

python、pandas、filter

假设我有一个csv，如下所示 +-----+-----------+---------+ | ID | state | city | +-----+-----------+---------+ | 101 | READY | | | 101 | DELIVERED | NEWYORK | | 101 | DELIVERED | LONDON | | 102 | READY | | | 102 | DELIVERED | LONDON | | 103 | READY | | | 103 | DELI

浏览 1提问于2020-08-03得票数 2

回答已采纳

1回答

从groupby创建DataFrame列

python-3.x、pandas、dataframe、pandas-groupby

假设我有一个DataFrame import pandas as pd df = pd.DataFrame({ 'Id' : [1,2,3,4,5,6,7,8,9], 'Group' : [1,1,2,2,2,2,3,3,3], 'Value_to_compare' : [2,1,5,8,2,3,10,23,17], 'Other_value' : [0,3,2,6,3,4,2,7,1] }) 我想要创建一个新的列，比如Value_of_Highest，为具有最高Value_to_compar

浏览 1提问于2020-10-14得票数 0

回答已采纳

2回答

删除与某些行相关的所有重复行。

python、pyspark、apache-spark-sql、pyspark-sql

我见过几个这样的问题，但对我的情况不是一个令人满意的答案。下面是一个示例DataFrame： +------+-----+----+ | id|value|type| +------+-----+----+ |283924| 1.5| 0| |283924| 1.5| 1| |982384| 3.0| 0| |982384| 3.0| 1| |892383| 2.0| 0| |892383| 2.5| 1| +------+-----+----+ 我只想通过"id"和"value"列来识别重复项，然后删除所有实例。在这

浏览 0提问于2018-07-25得票数 1

回答已采纳

3回答

组中最后一行的python筛选组为负数。

python、pandas、dataframe、filter、pandas-groupby

我想根据某些组条件分割我的数据帧，并得到其上一条记录值为负值的所有组。 A B C D 1 a a 1 1 a a 2 1 a a 3 2 a a 1 2 a a -1 3 a a -1 3 a a -2 3 a a -3 假设这是我的数据框架，一列一组A。我想得到D列中最后一个负值的所有组： A B C D 2 a a 1 2 a a -1 3 a a -1 3 a a -2 3 a a -3 B和C列与过滤器无关。但是我需要每个组中的所有行，而不仅仅是最后的行。怎么做？

浏览 14提问于2022-04-30得票数 1

2回答

大熊猫在大型数据平台上的GroupBy

python、pandas、dataframe

我有一个包含150列的dataframe。在150列中，有15列类型为string，其余都是浮动列。 dataframe包含15个字符串列组合的相同记录，rest中的值可能不同。我想在这15个字符串列上做groupby，并对所有浮动列做一个和。如何在Python中轻松地做到这一点，而无需指定groupby语句中每个列的名称，因为dataframe是巨大的。

浏览 1提问于2019-09-22得票数 0

回答已采纳

1回答

熊猫:只为特定的id和日期找到列的最大值。

python、pandas、numpy

我正在尝试创建一个新列，并根据“差异”列的最大值分配一个值"x“，具体考虑到契约号和ref_date的特定组合： Dataframe：当合同代码为'1‘且Ref_Date = 28-02-2021时，则取列“difference”的最大值，并针对difference= 3指定一个值'x’(某种标志)，因为对于该特定契约和ref_date，最大值为3。我试过：但以这种方式，所有其他行都在消失。我希望所有行都在那里，例如contract=1和ref_date = 29-02-2021和Difference = -2的行。

浏览 9提问于2021-04-04得票数 1

回答已采纳

1回答

如果第二列中的值不相等，如何删除重复的行？

python、python-3.x、pandas、dataframe

我有一个pandas dataframe，我想在其中找到列Title中唯一值的数量，并删除所有有重复的行(keep=False逻辑)，但前提是第二个列Format不相同。应忽略其他列(Publisher、Year)。原始df： Title Format Publisher Year T1 F1 P1 2010 T1 F1 P2 2014 T2 F2 P1 2012 T3 F1 P3 2016

浏览 24提问于2021-11-03得票数 1

回答已采纳

4回答

归一化/调整时间序列数据帧

python、pandas

我是Python和Pandas的新手；我已经寻找了几天的解决方案，但没有成功……这就是问题所在：我有一个类似下面的数据集，我需要剔除一些行的前几个值，以便每行中的最高值在列A中。在下面的示例中，第0行和第3行将丢弃列A中的值，第4行将丢弃列A和B中的值，然后将所有剩余的值向左移动。 A B C D 0 11 23 21 14 1 24 18 17 15 2 22 18 15 13 3 10 13 12 10 4 5 7 14 11 所需 A B C D 0 23 21 14 NaN 1

浏览 45提问于2020-07-23得票数 1

回答已采纳

3回答

删除dataframe中每个in的前n行

python、pandas、dataframe、filter

我有一个DataFrame，有两列。我想删除每个ids的前3行值。如果id的小于或等于三行，也要删除这些行。和下面的一样，id的3和1有3行和2行，应该删除它们。对于id的4和2，只保留行4、5。 import pandas as pd df = pd.DataFrame() df ['id'] = [4,4,4,4, 4,2, 2,2,2,2,3,3,3, 1, 1] df ['value'] = [2,1,1,2, 3, 4, 6,-1,-2,2,-3,5,7, -2, 5] 这是我想要的DataFrame。

浏览 8提问于2022-03-09得票数 3

回答已采纳

3回答

查找组内差异最大的组名

python、pandas

Suppose we have a dataframe like this: name value 'hi' 1 'hi' 2 'hi' 3 'hello' 5 'hello' 6 'hello' 8 如何找到组内差异最大的组名？ (在上面的示例中，组内的最大差异是3，那么如何从name列中选择'hello‘？)

浏览 0提问于2020-02-25得票数 1

1回答

Pd.concat(数组).groupby(‘date’).sum()返回意外行为

python、pandas

我有8个相同长度的数据帧，有一个"date“列，看起来都是一样的(虽然我不把它用作索引)。 >>> _dataframes[0].tail(3) date trade_number 4122 2019-07-15 678 4123 2019-07-16 678 4124 2019-07-17 678 它们都以索引4124结尾，日期为2019-07-17，并且有一个trade_number列，该列的值是可变的，但它始终按升序排序。 max = 0 for df in _data

浏览 16提问于2019-07-25得票数 2

回答已采纳

1回答

基于具有数百万行的数据帧中的匹配条件来更快地识别和比较行

python、pandas、dataframe

我有一个如下的数据框架。 Date Fruit level_0 Num Color 0 2013-11-25 Apple DF2 22.1 Red 1 2013-11-24 Banana DF1 22.1 Yellow 2 2013-11-24 Banana DF2 122.1 Yellow 3 2013-11-23 Celery DF1 10.2 Green 4 2013-11-24 Orange DF1 8.6 Orange 5 201

浏览 0提问于2020-06-08得票数 0

3回答

根据python中选定的列查找前三个免费应用程序

python、pandas

我想写一个功能，找到前三个免费应用程序的基础上‘审查’，‘评级’，‘安装’。它应该返回一个数据框架，其中包含前两列的类别和应用程序，第三列是评级、安装和评论。现在，我的代码如下所示：投入： def topthree(column): Googleapps_df["Reviews"] = pd.to_numeric(Googleapps_df["Reviews"]) Googleapps_df["Installs"] = pd.to_numeric(Googleapps_df["Installs"])

浏览 9提问于2022-04-19得票数 0

2回答

如何从Pandas dataframe中获得另一列的最大值组

python-3.x、pandas

我有以下数据。我想得到每个pipeline_name的日期为最大值的行这是数据文件： +----+-----------------+--------------------------------------+----------------------------------+ | | pipeline_name | runid | run_end_dt | |----+-----------------+----------------------------------

浏览 6提问于2021-03-14得票数 1

回答已采纳

1回答

根据c#中数据表中的几个列筛选不同的行后，选择所有列

我在这里经历了类似的问题，但没有找到解决问题的办法。我在C#中有一个数据表，它包含重复的行，如下所示：现在，我必须应用一个筛选器，根据Last2突出显示的列查找所有不同的行，但在最后的结果集中，我必须返回所有列。还会得到一个ADDRESS_ID，它的对应行应该被返回，重复的应该被删除。 DataView view = new DataView(ds.Tables[0]); DataTable distinctValues = view.ToTable(true, "ADDR_LINE_1", "ADDR_LINE_2",

浏览 1提问于2019-10-17得票数 0

1回答

根据两列删除重复项，同时删除不一致的数据

python、python-3.x、pandas

我有这样一只熊猫： a b c 0 1 1 1 1 1 1 0 2 2 4 1 3 3 5 0 4 3 5 0 其中前2列('a‘和'b')是is，而最后一个列('c')是验证(0 = neg，1= pos)。我知道如何根据前2列的值删除重复数据，但是在这种情况下，我也希望消除不一致的数据，即被验证为正和负的重复数据。因此，例如，前2行是重复的，但不一致，因此我应该删除整个记录，而最后2行既重复又一致，所以我保留其中一条记录。预期的结果是： a b c 0 2 4 1 1 3 5 0

浏览 2提问于2019-04-09得票数 3

回答已采纳

2回答

熊猫数据过滤数据以获得唯一的最大行和最小行

python、pandas、dataframe、replace、duplicates

我有一个dataframe，它包含以下4个数字列：['ID', 'A', 'B', 'C'] 我希望过滤数据以获得数据，其中，对于列ID中的每个唯一值，我得到行，而不是重复的，它们对应着A、B、C列的最大值和最小值。下面的图像显示输入数据和所需的输出数据。我还报告了df #2，它用蓝色突出显示与简单的max/min搜索不同的行。因为其中一些是重复的，然后应该用第二个/第三个替换。最大/最小行。例如，df2的第三行被替换为B (63)列中包含第二个最大值的行，后者是df1的第三行。同样，df2的第四行被替换为df1的第四行，因

浏览 2提问于2018-03-03得票数 2

2回答

链式分组、过滤和聚集

python、python-3.x、pandas、dataframe、grouping

DataFrameGroupby.filter方法筛选组，并返回包含传递筛选器的行的DataFrame。但是在过滤之后，我能做些什么来获得一个新的DataFrameGroupBy对象而不是一个DataFrame呢？例如，假设我有一个DataFrame df，它有两个列A和B。我希望获得列B的每个值的平均值，只要该组中至少有5行： # pandas 0.18.0 # doesn't work because `filter` returns a DF not a GroupBy object df.groupby('A').filter(lambda x: len(x

浏览 2提问于2016-04-03得票数 7

回答已采纳

3回答

按一列删除行组，所有行在熊猫/ python的另一列中具有nan值

python、pandas、dataframe

我希望按一列(id)分组，并检查其他列day的所有值是否为'nan'，在本例中，删除所有对应的行。我本来是这样的： output = entry.iloc[entry.groupby['id'].day.isnull()] 但这行不通..。 entry = pd.DataFrame([ [1,],[1,],[1,],[1,],[2,3],[2,],[2,4]],columns=['id','day']) output = pd.DataFrame([[2,3],[2,],[2,4]],columns=['id'

浏览 0提问于2017-10-21得票数 1

回答已采纳

1回答

在熊猫数据分区中选择最大值

python、pandas、subset

我有一只熊猫。我的目标是只选择列C在组B中具有最大值的行。例如，当B是“1”时，C的最大值是311，所以我想要C= 311和B= "one“的行。 import pandas as pd import numpy as np df2 = pd.DataFrame({ 'A' : 1., 'A' : pd.Categorical(["test1","test2","test3","test4"]), 'B' : pd.Categorical(["on

浏览 3提问于2014-12-16得票数 2

回答已采纳

2回答

使用字符串检查一列，并从第二列(pythonic方法)获得值和。

python、python-3.x、pandas

鉴于这一数据框架： d = {'SITE':['AB', 'ON', 'YO', 'YO', 'AB'], 'MARK':['ss', 'ss', 'tt', 'ss', 'tt'], 'SIZE': [4, 5, 2, 3, 4]} ex_df = pd.DataFrame(data=d) 要获得只有column['SITE'] == 'AB

浏览 10提问于2022-05-10得票数 0

回答已采纳

1回答

如何在具有特定值的SSRS中级联参数

reporting-services、ssrs-2008、ssrs-2008-r2、ssrs-tablix、ssrs-grouping

我的报告中有两个参数' Groupby1‘和' Groupby2’，对于第一个参数，我指定了一些值，如A列、B列、C列。现在我需要使第二个参数级联在第一个参数的基础上，如果我在Groupby1参数中选择列A，它应该只显示B列和Groupby2 parameter.Is中的列C。

浏览 0提问于2014-09-17得票数 0

回答已采纳

2回答

只保留来自dataframe列的具有重复值的行

scala、apache-spark、dataframe

我在跟斯卡拉学习火花。我有一个由两列组成的数据格式。 col1 col2 a 1 b 1 b 2 c 1 c 3 b 4 d 5 我想删除col2中值只出现一次的所有行(2、3、4和5)。基本上，我想要做的是做与dropDuplicates相反的事情。

浏览 0提问于2018-02-02得票数 2

回答已采纳

1回答

标识导致两个数据文件之间不匹配的列

python、pandas、dataframe、pandas-groupby、pandas-merge

我比较了两个DataFrames (df1和df2)，对于给定的键组合，每个行都应该有唯一的行。这意味着不存在Col1和Col2等键的复制。 import pandas as pd # OK NOK NOK df1 = pd.DataFrame({'Col1': ['A', 'A', 'B'], 'Col2': ['J', 'K', 'M'],

浏览 5提问于2022-03-11得票数 0

回答已采纳