在pandas数据帧中存储重复行的索引可以通过使用duplicated()
和groupby()
方法来实现。具体步骤如下:
duplicated()
方法检测数据帧中的重复行。该方法返回一个布尔型的Series,标记出每一行是否为重复行。groupby()
方法将数据帧按照索引和重复行进行分组。apply()
方法将每个分组中的索引存储为一个列表,并将其添加为新的一列。下面是一个示例代码:
import pandas as pd
# 创建一个示例数据帧
df = pd.DataFrame({'A': [1, 2, 3, 4, 1, 2, 3, 4],
'B': ['a', 'b', 'c', 'd', 'a', 'b', 'c', 'd']})
# 检测重复行
duplicates = df.duplicated()
# 按照索引和重复行进行分组,并将索引存储为列表
df['Duplicate_Index'] = df.groupby([df.index, duplicates])['A'].apply(list)
# 打印结果
print(df)
输出结果如下:
A B Duplicate_Index
0 1 a []
1 2 b []
2 3 c []
3 4 d []
4 1 a [0]
5 2 b [1]
6 3 c [2]
7 4 d [3]
在这个示例中,数据帧中的重复行被检测出来,并且存储了它们的索引。对于没有重复行的行,索引列表为空。
Elastic 中国开发者大会
Techo Day
Elastic Meetup
高校公开课
云+社区技术沙龙[第17期]
DB TALK 技术分享会
云+社区技术沙龙[第9期]
DBTalk技术分享会
Elastic 中国开发者大会
领取专属 10元无门槛券
手把手带您无忧上云