pandas groupby列列出并保留特定值_Pandas groupby sum，在结果数据框中保留特定列_Pandas groupby，sum保留第三列 - 腾讯云开发者社区

python、python-3.x、pandas、group-by、pandas-groupby

teacher222 analyst111 driver 444 lawyer 我创建了一个新列，其中包含所有职业的列表： new_df['occupation_list'] = df['id'].map(df.groupby('id')['occupations'].agg(list)) 如何在occupation_list中仅包含teacher和student值

浏览 41提问于2021-02-11得票数 1

回答已采纳

1回答

Groupby熊猫数据格式保留一些列的唯一值，并列出其他列

python、pandas

我希望通过material_id对以下输出进行分组，保留material_description和MPN的唯一值，但列出plant_id。='@search.score'].groupby('material_id').agg({lambda return df_ref 此当前按material_id分组，并列出其他列下面的代码用于保持按material_id分组的唯一值，但现在我缺少了plant_i

浏览 7提问于2022-09-21得票数 0

回答已采纳

3回答

如何在Pandas中groupedBy中不保留分组列

python、pandas、dataframe

我有一个数据，在pandas中，我想按电子邮件分组，获取date的最大值，并保留status列。但是status没有在groupby上使用。status列，但我不知道如何保留。df.groupby([email]).aggregate({'date': max})+-------------------------------+| test3

浏览 4提问于2018-07-23得票数 3

回答已采纳

3回答

python，pandas:如何指定多列并仅合并重复行的特定列

python、pandas、dataframe

可以通过执行以下操作连接多列重复行中的特定列值，但groupby中指定的列以外的所有列都将消失。列title, thumbnail, name, created_at存在。检索具有重复title和thumbnail的行，如下所示，并连接重复行的name列的值，同时保留第一行。我想为它创建一个新的专栏。但是，如前所述，groupby中指定的列以

浏览 201提问于2021-11-22得票数 2

回答已采纳

11回答

在pyspark dataframe中显示不同的列值。

python、apache-spark、pyspark、apache-spark-sql

有了Pandas，您如何实现与Pandas df['col'].unique()相当的功能。不是SQL类型方式(寄存器模板然后是SQL查询不同的值)。另外，我不需要groupby，然后是countDistinct，而是想在该列中检查不同的值。

浏览 21提问于2016-09-08得票数 176

回答已采纳

1回答

Dask中的基本groupby操作

python、pandas、dask

通常，我会将其加载到内存中并使用Pandas。我想按两列"A“和"B”分组，每当"C“列以一个值开头时，我想为那个特定的组重复该列中的值。在熊猫中，我会做以下事情：Dask中的等价物

浏览 7提问于2016-08-12得票数 3

3回答

python大熊猫栏和平均数

python、pandas、mean

我有一个在"A“列位置和"B”列值中的数据。位置在这个DataFrame中多次出现，现在我想添加第三列，在该列中存储"B“列的平均值，该列在"A”列中具有相同的位置值。-I知道.mean()可以用来获得平均值我可以在A列中列出所有唯一的值，并通过一个for循环来计算所有这些值的平均值。

浏览 12提问于2022-07-20得票数 0

回答已采纳

3回答

Pandas groupby:在pandas groupby groupby中根据另一列的数据选择行后如何选择相邻的列数据？

python、pandas、dataframe、pandas-groupby

对于每个日期，都有针对持续时间的条目(每个日期1-20个)，并列出每个持续时间的项目(100)。每个项目在相邻的列中都有几个关联的数据点，包括一个标识符。对于每个日期，我希望选择最大的持续时间。然后，我希望找到与给定输入值最接近的项。然后我想获得该项目的ID，以便能够在数据库中跟踪该项目的值。groupby函数非常适合创建日期/持续时间组：df = df.groupby('Date')['Duration'].max() #cr

浏览 17提问于2019-02-22得票数 2

回答已采纳

2回答

我如何在这个带有熊猫的数据框中找到唯一的值？

database、dataframe

列出了每个地点的邻域名称，以及地点类型(我去掉了其他所有内容)。我需要找到一种方法来获取每个社区中独特的场地类型的总数。例如，如果有8家咖啡店和2家餐厅，返回值应该是2。如果有1家咖啡店，1家餐厅和1家自助洗衣店，返回值应该是3，依此类推。有人知道怎么做吗？ ?

浏览 19提问于2020-09-08得票数 0

回答已采纳

1回答

如何对Pandas中的最后两行进行分组和删除

pandas、dataframe

在pandas数据框中，我想按一列( ID )分组，然后删除每个ID的最后两行。我知道这段代码将为每个ID保留最后两行，但我希望删除最后两行，并保留其余行。df.groupby('ID').nth(-2) 感谢你的帮助

浏览 45提问于2021-04-06得票数 0

回答已采纳

2回答

Python Pandas groupby删除列

python、pandas

time_of_day"] = "default value" #Formed a new column named time of the day for timestamps 因此，我在项目开始时创建了这些列，用于绘图和我编辑的数据分组，并使用某些值填充这些列，我想在data_c上执行manipulaton.After操作。avg_d = data_c.groupby(by = 'distance').sum().reset_index()

浏览 22提问于2019-03-20得票数 0

回答已采纳

1回答

Pandas GroupBy聚合不保留数据类型

pandas

我通过使用sum、max和min等函数将Pandas GroupBy和Groupby.agg用于我的数值列，但我注意到以前强加给我的列的数据类型(如np.int8、np.int16、np.int32)在GroupBy聚合后不会保留，实际上每一列都被覆盖为int64。Pandas版本1.1.5 我目前的解决方案是在完成groupby聚合后重新转换，这是一个已知的问题和/或有更好的解决方案吗？

浏览 19提问于2021-03-16得票数 1

回答已采纳

3回答

防止在大型DataFrame、Pandas中使用group()和agg()语句的前导和尾随逗号

python、pandas、dataframe

我有一个很大的DataFrame，我需要根据其中一个ID列进行groupby()，并将其他所有内容放在一个csv列表中。我有一种方法可以很好地利用agg()方法。但是，我注意到，在单元格中有一个空(null)值的情况下，这种方法将保留带有前导或尾随逗号的空(null)。我需要防止这种情况发生。由于DataFrame的性质，用.lstrip('，')或.rstrip('，')一次替换每一列可能是不可能的。我还需要在源数据中保留空(null)，所以我不

浏览 18提问于2021-05-21得票数 0

回答已采纳

2回答

pandas在执行groupby并保留选择性列后重置索引

python、pandas

我想要取一个pandas数据帧，按列计算唯一元素，并保留其中的2列。但是我在groupby之后得到了一个多索引数据帧，我不能(1)展平(2)只选择相关列。下面是我的代码：df = pd.DataFrame({'Ticker':['AA','BB','CC','DD',&

浏览 1提问于2018-09-14得票数 4

回答已采纳

1回答

熊猫群函数的一个特定值的提取/细分

pandas

我有一个数据框架，在这个框架中，我希望使状态列中的特定值可见，例如“已传递”和/或“确认”。orders.groupby(by=['status','size'])['id'].count() 我以前从来没有这样做过，所以我查阅了正式的Pandas文档，我怀疑这种方法是使用.get_grouporders.groupby(by=['status','size']).get_gro

浏览 3提问于2022-05-29得票数 1

回答已采纳

1回答

Python Pandas- Groupby列以获取Pandas dataframe列中的两个峰值

python、pandas

我使用Python Pandas对一个名为"Trace“的列进行分组。对于每个跟踪，都有一个包含两个峰值的"Value“列，我试图将它们传输到不同的数据帧中。第一个问题是，当我使用groupby时，它不会保留我想要选择的值所在行的其余数据。例如，如果一个Pandas数据帧有6列，那么我想在使用groupby之后保留所有6列。第二个问题是，我想要的两个最大值不是<

浏览 54提问于2018-08-05得票数 0

回答已采纳

2回答

附加和处理重复

python-3.x、pandas

将附加的数据包含新列和重复值。因此，我通过在追加后删除重复的值来清理。有更好的办法吗？目前，它运行得很好，但我害怕在大型DataFrames上重复搜索。

浏览 2提问于2021-02-16得票数 0

1回答

如何根据groupby对dataframe中的行值进行求和？

python、pandas

我有一个使用案例，我得到了更大的csv文件，需要在三列标签上执行groupby，并且需要对特定列的匹配行值求和，如果它是一个整数，如果它是一个应该替换为“NA”的字符串，我尝试使用pandas来继续，Import pandas as pddata = df.groupby([‘X’,’Y’,’Z’])[‘ADJ’].sum() print

浏览 44提问于2020-04-29得票数 0

回答已采纳

1回答

如何创建新的pandas列，该列是索引范围中不包括行值的每个值的列表

python、pandas、list、dataframe、indexing

我想知道是否可以在pandas dataframe中创建一个新列，它是每个值的列表，不包括行本身的值。例如，在下面的df中，对于列'list‘中的第一行，值b，c，以及行本身的值'a’。我已经尝试过了，但它返回了每个索引组合的所有值的列表：d = {'index': [1, 1, 1, 2, 2, 3], 'col1': [

浏览 13提问于2020-05-29得票数 0

回答已采纳

1回答