要获取Pandas数据帧(DataFrame)中重复行的聚合统计,可以使用以下步骤:
sum()
、mean()
、count()
等。以下是一个示例代码,展示如何获取Pandas DataFrame中重复行的聚合统计:
import pandas as pd
# 创建一个示例DataFrame
data = {
'A': [1, 2, 2, 3, 4, 4],
'B': [10, 20, 20, 30, 40, 40],
'C': [100, 200, 200, 300, 400, 400]
}
df = pd.DataFrame(data)
# 找出重复行
duplicates = df[df.duplicated(keep=False)]
# 对重复行进行聚合统计
aggregated_stats = duplicates.groupby(df.columns.tolist()).agg({
'A': ['sum', 'mean'],
'B': ['sum', 'mean'],
'C': ['sum', 'mean']
})
print(aggregated_stats)
duplicated(keep=False)
方法找出所有重复的行。groupby
方法对重复行进行分组,并使用agg
方法进行聚合计算。dropna()
方法去除缺失值,或者在聚合函数中使用min_count
参数来处理缺失值。aggregated_stats = duplicates.dropna().groupby(df.columns.tolist()).agg({
'A': ['sum', 'mean'],
'B': ['sum', 'mean'],
'C': ['sum', 'mean']
})
agg
方法传入自定义的聚合函数。def custom_agg(x):
return x.max() - x.min()
aggregated_stats = duplicates.groupby(df.columns.tolist()).agg({
'A': ['sum', 'mean', custom_agg],
'B': ['sum', 'mean', custom_agg],
'C': ['sum', 'mean', custom_agg]
})
通过以上步骤和示例代码,可以有效地获取Pandas DataFrame中重复行的聚合统计。
领取专属 10元无门槛券
手把手带您无忧上云