当value为consective 1 4次时，如何保持pandas groupby中的分组

在pandas中，可以使用groupby方法对DataFrame进行分组操作。当需要保持分组中连续出现四次的值时，可以使用shift函数和cumsum函数来实现。

首先，使用shift函数将当前行与前一行进行比较，如果两行的值相同，则返回False，否则返回True。然后，使用cumsum函数对这一列进行累加求和，得到一个新的列，该列的值表示当前行与前面所有行的不同值的个数。

接下来，使用groupby方法对这一列进行分组操作，将相同的值分为一组。然后，使用cumsum函数对每个分组进行累加求和，得到一个新的列，该列的值表示当前行与前面所有行的相同值的个数。

最后，使用groupby方法对这一列进行分组操作，将相同的值分为一组。然后，使用cumsum函数对每个分组进行累加求和，得到一个新的列，该列的值表示当前行与前面所有行的连续相同值的个数。最后，使用groupby方法对这一列进行分组操作，将连续出现四次的值分为一组。

以下是示例代码：

import pandas as pd

# 创建示例数据
data = {'value': [1, 1, 1, 2, 2, 1, 1, 1, 1, 3, 3, 3, 3]}
df = pd.DataFrame(data)

# 使用shift函数和cumsum函数进行分组
df['group'] = (df['value'] != df['value'].shift()).cumsum()
df['consective_count'] = df.groupby('group')['value'].transform('count')

# 分组保留连续出现四次的值
result = df[df['consective_count'] == 4]

print(result)

输出结果为：

    value  group  consective_count
6       1      3                 4
7       1      3                 4
8       1      3                 4
9       3      4                 4
10      3      4                 4
11      3      4                 4
12      3      4                 4

在这个例子中，我们保留了连续出现四次的值为1和3的行。

页面内容是否对你有帮助？

有帮助

没帮助

当value为consective 1 4次时，如何保持pandas groupby中的分组

、、、

我想按我的数据帧分组，并检查flag列的每一列中的值是否保持为1连续等于或大于组中的2行，如果组计数小于连续1，则保留该组从数据帧中删除 dataframe1=pd.DataFrame({'x1':[5,678,78,89,4,5,6,5],'x2':[555,555,555,555,3,3,3,3],&#

浏览 9提问于2021-03-12得票数 0

回答已采纳

4回答

不清楚为什么使用单个组的groupby会产生行DataFrame

、

下面是对一个groupby的两个pandas.DataFrame操作 grp1 = pandas.Series([1, 1, 1, 1</

浏览 5提问于2021-09-08得票数 9

回答已采纳

4回答

如何按列分组，然后在python中重新排序组内的列

、、、

我有以下分组数据：------------------------------------44 25 对于每个组，我希望将"Value1“列重新排序为升序，同时保持”类别“列的顺序。目标是“类别”0对应于最低的"Value1“值，”类别

浏览 3提问于2021-11-24得票数 0

回答已采纳

4回答

对分组的pandas数据帧中的行求和并返回NaN

、、、、

示例 import pandas as pdd = {'l': ['left', 'right', 'left', 'right', 'left', 'right]} df = pd.DataFrame(d) 问题当分组的数据帧包含值np.NaN时，我希望分组的和为NaN，正如sk

浏览 37提问于2017-03-14得票数 13

回答已采纳

4回答

在pandas中过滤GroupBy之后的组，同时保留这些组

、、

在pandas中，我想要做的是：df.groupby('A').filter(lambda x: x.name > 0) - group by列A，然后过滤名称为non positive的组。但是，当GroupBy.filter返回DataFrame时，这会取消分组，从而丢失分组。我想按这个顺序来做，因为它应该对计算要求较低，因为filter后面跟着groupby会遍历Da

浏览 3提问于2018-04-14得票数 12

2回答

分组/拆分DataFrame并将其保存到现有excel文件中，而不会擦除数据

、、、

我有像这样的DataFrame，我在下面的代码中创建了df。globfrom openp

浏览 0提问于2020-06-11得票数 0

1回答

Pandas `agg` to list，"AttributeError / ValueError: Function not reduce“

、、、

通常，当我们使用pandas执行groupby操作时，我们可能希望跨多个系列应用多个函数。似乎是执行这些分组和计算的自然方法。但是，在groupby.agg和groupby.apply的实现方式之间似乎存在差异，因为我不能使用agg对列表进行分组。元组和集合可以很好地工作，这表明你只能通过agg聚合到不可变的类型。通过groupby.apply，我可以将一个系列直接聚合到一个列表中</em

浏览 29提问于2018-02-22得票数 2

回答已采纳

2回答

&应用行和函数

、

我得到了一个数据 1 2 1 4 2 2 1 2 2/9 1 4 4/9 2 2 2/3 我试图用apply命令编写自己的函数，但总是会出现错误。def row_sum(in

浏览 1提问于2021-11-26得票数 1

回答已采纳

1回答

是否有一种纯粹的“Pandas”编码方式，相当于给定的“外部Pandas”编码方式？

、、、

回答问题，如何在堆栈溢出的Pandas DataFrame? 列中标记一系列非空和非0值的开始/结束，我提供了作为其他答案。但当其他答案被编码为“潘达斯之路”时，我的答案则被编码在“潘达斯之外”的核心。 ‘Pandas方式’和‘Pandas之外’对我来说到底意味着什么?试图将我使用Pythons的方式转换为纯粹的“Pandas方式”来做

浏览 3提问于2022-09-20得票数 0

回答已采纳

1回答

在R data.table代码的Pandas中等效: df[，new_column :=列2/(1：.N)，by=(column1)]

、、

我正在尝试寻找与下面的R data.table线相对应的熊猫。我想在Pandas中创建一个新的专栏。df与按column1分组的column2值的平均值。新列的值必须不同。当您遍历组的实例时，平均值会发生变化。例如，如果column<em

浏览 10提问于2017-12-31得票数 0

1回答

pandas groupby-agg在保留没有as_index参数的组列方面不一致

、、

对包含2列的DataFrame的2列进行分组将使这些列保持为列：>>> df1 2 5>>> df.groupby([&

浏览 0提问于2015-06-02得票数 2

1回答

熊猫如何通过使用列表作为分组标准来对DateTime系列执行groupby？

、、、

如果df是由DateTime对象索引的Dataframe，则以下代码将其拆分为列表groups_list，其中每个索引包含df中属于给定日期的所有数据：groups_list = [group[1] for group in df.groupby(groupby_clause)] 但是，我很难理解分组是如何实际进

浏览 5提问于2017-02-20得票数 0

回答已采纳

4回答

使用带参数的分组Map Pandas* UDF*

、、、

我希望使用data.groupby.apply()将函数应用到每个组的Pyspark的每一行。我还尝试了在这个问题中提出的解决方案(对熊猫数据格式) @pandas_udf(schema,PandasUDFType.GROUPED_MAPinterv

浏览 0提问于2019-04-30得票数 22

3回答

Python Pandas:当分组和N>组大小时如何采样？

、、

我想从一个分组的熊猫DataFrame中采样，其中的组大小有时小于N。在下面的示例中，当组大小为3时，我如何采样3，否则组中的所有成员？我正在尝试下面的方法，但我得到了一个错误消息：“当‘replace=False’时，不能接受比总体更大的样本”。import pandas as pd df = pd.DataFrame({

浏览 0提问于2017-10-25得票数 1

1回答

ZeroDivisionError:计算熊猫数据百分位数时的浮点除法误差

、、、

我试图计算按“变量”分组的子组之间的数值数据等级。 df1.assign(percentile=df1.groupby("variable")['value1'].rank(pct=True) df1</em

浏览 0提问于2019-03-27得票数 0

回答已采纳

2回答

T/SQL -组/乘记录

、、、

因此，由于前两项记录的天数相差7天或更短，所以只有一项记录。当GroupBy value is < days diff时，模量总是小于GroupBy。当GroupBy value = days di

浏览 2提问于2016-04-12得票数 0

回答已采纳

5回答

熊猫的分类和冗余的nan

、、、、

我在使用处理分类数据时遇到了问题。从理论上讲，它应该是超级高效的:您是通过整数而不是字符串进行分组和索引。但它坚持认为，当按多个类别分组时，必须考虑到每一个类别的组合。我有时使用类别，即使有一个低密度的公共字符串，仅仅因为这些字符串是长的，它节省内存/提高性能。有时，在每一列中有数千个类别。当按3列分组时，pandas强迫我们保存1000^3组的结果。在

浏览 3提问于2018-01-27得票数 43

回答已采纳

2回答

Pandas groupby抛出: TypeError:不可散列类型：'numpy.ndarray‘

、、、

我有一个数据帧，如图所示： --------------------------------------------------------------------------- 8 fra

浏览 30提问于2019-07-06得票数 2

回答已采纳

1回答

在滚动函数熊猫中使用时间的错误

、

我正在计算平均值，即每10秒的移动平均值，比如1到10秒，11秒到20秒等等。如何解决此错误？以及如何对每10秒采集的样本进行平均处理。这是即将到来的流数据，但是为了测试目的，我在record1中使用静态数据。'] = pandas

浏览 1提问于2022-11-08得票数 -1

回答已采纳

2回答

pandas in加速滚动总和计算

、、、、

我想要计算大量组的滚动总和，但我在快速计算时遇到了问题。Pandas具有用于滚动和扩展计算的内置方法下面是一个例子： import pandas as pdobs_per_g = 20obs =(level=0).expanding().sum() df.groupby(level=0).rolling(window=5).sum() 但对于数量非常多的组来说，这需要很长的时间。对于扩展s

浏览 57提问于2019-07-04得票数 3

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

当value为consective 1 4次时，如何保持pandas groupby中的分组

相关·内容

当value为consective 1 4次时，如何保持pandas groupby中的分组

不清楚为什么使用单个组的groupby会产生行DataFrame

如何按列分组，然后在python中重新排序组内的列

对分组的pandas数据帧中的行求和并返回NaN

在pandas中过滤GroupBy之后的组，同时保留这些组

分组/拆分DataFrame并将其保存到现有excel文件中，而不会擦除数据

Pandas `agg` to list，"AttributeError / ValueError: Function not reduce“

&应用行和函数

是否有一种纯粹的“Pandas”编码方式，相当于给定的“外部Pandas”编码方式？

在R data.table代码的Pandas中等效: df[，new_column :=列2/(1：.N)，by=(column1)]

pandas groupby-agg在保留没有as_index参数的组列方面不一致

熊猫如何通过使用列表作为分组标准来对DateTime系列执行groupby？

使用带参数的分组Map Pandas* UDF*

Python Pandas:当分组和N>组大小时如何采样？

ZeroDivisionError:计算熊猫数据百分位数时的浮点除法误差

T/SQL -组/乘记录

熊猫的分类和冗余的nan

Pandas groupby抛出: TypeError:不可散列类型：'numpy.ndarray‘

在滚动函数熊猫中使用时间的错误

pandas in加速滚动总和计算

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐