python pandas:在行上按条件分组

在Python的Pandas库中，按条件对行进行分组通常涉及使用groupby方法结合布尔索引。以下是一些基础概念和相关操作的详细解释：

基础概念

DataFrame: Pandas中的主要数据结构，类似于Excel表格或SQL表。
groupby: 一种方法，用于将DataFrame的行分组，这些行具有相同的值（根据某些标准）。

类型与应用场景

单列分组: 根据某一列的值进行分组。
多列分组: 根据多列的组合值进行分组。
条件分组: 根据某些条件筛选后再进行分组。

示例代码

假设我们有一个DataFrame，包含学生的成绩信息：

import pandas as pd

data = {
    'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Eva'],
    'Subject': ['Math', 'Math', 'Science', 'Science', 'Math'],
    'Score': [85, 90, 88, 78, 92]
}

df = pd.DataFrame(data)

单列分组

按科目分组并计算平均分：

grouped = df.groupby('Subject')['Score'].mean()
print(grouped)

多列分组

同时按姓名和科目分组：

grouped_multi = df.groupby(['Name', 'Subject'])['Score'].mean()
print(grouped_multi)

条件分组

只考虑数学成绩大于85的学生，然后按科目分组：

filtered_df = df[df['Score'] > 85]
grouped_condition = filtered_df.groupby('Subject')['Score'].mean()
print(grouped_condition)

遇到的问题及解决方法

问题: 分组后数据丢失或格式不正确。

原因: 可能是由于分组键中存在NaN值，或者分组后的索引未正确重置。

解决方法:

使用dropna()删除包含NaN的分组键。
使用reset_index()重置索引。

# 删除包含NaN的分组键
df_clean = df.dropna(subset=['Subject'])

# 分组后重置索引
grouped_reset = df_clean.groupby('Subject')['Score'].mean().reset_index()
print(grouped_reset)

通过这些方法，你可以有效地使用Pandas进行条件分组，并处理可能出现的问题。

页面内容是否对你有帮助？

有帮助

没帮助

python pandas:在行上按条件分组

、

因此，我只想在它们在数据帧中彼此精确定位的情况下对它们进行分组(因此，组应该最多包含两个条目)。我真的很难做到这一点，因为groupby函数中没有比较行的选项。有什么建议吗，我应该尝试哪个方向？

浏览 16提问于2019-02-28得票数 1

1回答

Pandas按条件分组

、、

A B 300为了澄清，如果A --> B是第2行和第1行(IN表示从TO传输到FROM，OUT表示从FROM传输到TO) 我在使用.groupby()的方式上遇到了麻烦

浏览 6提问于2018-07-30得票数 1

回答已采纳

1回答

Python/Pandas过滤器groupby聚合和并返回所有匹配的行数据

、

pandas/python新手入门。如果groupby ('year','month,'Unit','Name')的总和小于1000，我会尝试过滤csv中的所有数据。理想情况下，我希望返回满足该条件的所有数据。pd.pivot_table(df,index=['year', 'quarter','month','Unit'], values = ['Name'],

浏览 4提问于2020-03-21得票数 0

2回答

使用mongoDB从用户构建基于JSON的JSON查询

、

用户可以选择“结果列”、“条件”、“按”分组和按“排序”。让我用SQL语言解释一下。col1，col2 --结果列列计数、

浏览 3提问于2012-04-18得票数 4

回答已采纳

1回答

熊猫时间石斑鱼:定制恒河

、

根据datetime索引的条件，pd.TimeGrouper("AS")按日历年对数据进行分组。有一个随pandas一起提供-但是如果我想要我自己的那一个呢？例如，如果我想按两年或16个月的时间分组呢？我该怎么处理呢？

浏览 1提问于2015-03-04得票数 3

回答已采纳

1回答

如何使用groupby完成此操作？

、、

我在试着比较pandas.DataFrame.pivot_table()和pandas.DataFrame.groupby。我有一个关于tips的经典数据集：url = 'https://raw.github.com/pandas-dev/pandas/master/pandas/tests/data/tips.csv' tips

浏览 1提问于2017-03-05得票数 3

1回答

对同一测试行的计数列进行降序排序

、、

我不知道如何在python中使用pandas来实现它。这就是我想要做的。按测试列分组，然后按计数列排序，但这不起作用。

浏览 1提问于2017-11-29得票数 0

1回答

列上的Pandas* Multiindex Groupby*

、、、

我知道您可以在行上，在这方面有很好的。然而，我似乎不能在列上分组。我唯一的解决方案就是调换数据帧。#generate data (copied from pandas example)df = pd.DataFra

浏览 7提问于2016-11-22得票数 10

回答已采纳

1回答

在Python3.6中，我在for循环的帮助下遍历了pandas dataframe中的groupby列。这样做的问题是，如果我有很多数据，它就会变得很慢。这是我的代码：dataDict = {} for metric, df_metric in frontendFrame.groupby('METRIC'): #我的最终目标基本上是创建一个字典，其中每个指标都有一个键，其中包含与其连接的所有数据。我现在应该可以用lambda或map来做这件事，但是我不能用多个

浏览 0提问于2018-03-01得票数 0

回答已采纳

1回答

当列介于两个值之间时，汇总Pandas数据

、

在python中，我有一个Pandas dataframe (df)，可以在下面进行复制。import pandas as pd enddate = '2021-09-1

浏览 1提问于2021-09-21得票数 1

回答已采纳

1回答

Python Pandas按列表分组

、、、、

我是Python的新手，正在尝试将我在两个单独的程序中创建的功能结合起来，这两个程序对我来说是有效的。我想评估的描述之一是在数据集中每个点的给定距离内求平均值。到目前为止，我一直使用邮政编码作为位置描述来近似这一点。Yellow 604505 5 846 Yellow 60450 这是我目前

浏览 0提问于2015-09-19得票数 0

2回答

Python Pandas按功能分组

、、、、

a 73 Ahmad b 25 Mohamad c 7我想按uname和side进行分组，并有usage列= group.max - group.min。

浏览 3提问于2016-09-07得票数 2

回答已采纳

2回答

熊猫pivot_table不分组

、、

在不提供分组的情况下，使用pandas.pivot_table计算整个表上的聚合函数的最佳方法是什么？例如，如果我想将A、B、C的和计算成一个有一行的表，而不按任何列进行分组：>>>(keys) File "/tool/pandora64/.pac

浏览 10提问于2015-07-01得票数 2

回答已采纳

1回答

标记数据的Numpy逻辑条件

、、、、

我正在尝试创建另一个标签列，它基于现有数据中的多个条件。40 0 na 3 2 23 30 0 na import numpy as np 然后尝试按照以下条件在行上添加标签 df['label'] = np.where(np.logical_anddf.v

浏览 0提问于2019-03-27得票数 0

回答已采纳

1回答

如何使用python/mysql处理重复数据？

、

它从我的表Person中返回重复项的列表及其id：43 hudson34 roger89 kerry使用Python

浏览 3提问于2012-10-07得票数 0

1回答

熊猫，数据，群，性病

、、

我想按主机分组，然后按host+operation分组，计算每个主机执行时间的std偏差，然后根据host+operation对计算std偏差。看起来很简单？它适用于按单个列进行分组：Out[360]:Int64Index: 132564 entries, 0 to 132563_wrap_agged_blocks(new_blocks) 1619

浏览 0提问于2013-12-03得票数 7

回答已采纳

2回答

Pandas:按满足条件的列分组

、、、、

import pandas as pd 'dog'')['rating'].mean().where(dog == True)NameError: name 'dog' is not defined 但是，当我尝试添加where条

浏览 97提问于2018-06-03得票数 5

回答已采纳

1回答

熊猫群的混乱--难以驾驭的类型

、、、、

使用Pandas数据帧按特性分组，我希望按列c_b分组，并计算列c_a和列c_c的唯一计数。输入文件，hello,python,numpy,0.0ho,c++,vector,0.0go/site-packages/pandas/core/frame.py", line 1997

浏览 1提问于2016-08-27得票数 0

回答已采纳

1回答

按日期绘制分组数据

、

我正在尝试绘制一些pandas数据帧列的计数，按日期分组：数据是正确的，但是我指定的data.index.day不适合绘图：有没有一种方法可以指定我想按Python Date对象分组，或者我这样做是完全错误的？

浏览 1提问于2013-05-03得票数 2

回答已采纳

1回答

熊猫-多栏群

、

我试图按多个列进行分组，并将它们聚合，使它们在分组后成为一个列表。/dist-packages/pandas/core/groupby.pyc in _python_agg_general(self, func, *args, **kwargs) /usr/local/lib/python2.7/dist-packages/pandas/c

浏览 0提问于2015-11-13得票数 3

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

python pandas:在行上按条件分组

基础概念

相关优势

类型与应用场景

示例代码

单列分组

多列分组

条件分组

遇到的问题及解决方法

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐