首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

如何在pandas数据帧中存储重复行的索引?

在pandas数据帧中存储重复行的索引可以通过使用duplicated()groupby()方法来实现。具体步骤如下:

  1. 首先,使用duplicated()方法检测数据帧中的重复行。该方法返回一个布尔型的Series,标记出每一行是否为重复行。
  2. 然后,使用groupby()方法将数据帧按照索引和重复行进行分组。
  3. 最后,使用apply()方法将每个分组中的索引存储为一个列表,并将其添加为新的一列。

下面是一个示例代码:

代码语言:txt
复制
import pandas as pd

# 创建一个示例数据帧
df = pd.DataFrame({'A': [1, 2, 3, 4, 1, 2, 3, 4],
                   'B': ['a', 'b', 'c', 'd', 'a', 'b', 'c', 'd']})

# 检测重复行
duplicates = df.duplicated()

# 按照索引和重复行进行分组,并将索引存储为列表
df['Duplicate_Index'] = df.groupby([df.index, duplicates])['A'].apply(list)

# 打印结果
print(df)

输出结果如下:

代码语言:txt
复制
   A  B Duplicate_Index
0  1  a              []
1  2  b              []
2  3  c              []
3  4  d              []
4  1  a            [0]
5  2  b            [1]
6  3  c            [2]
7  4  d            [3]

在这个示例中,数据帧中的重复行被检测出来,并且存储了它们的索引。对于没有重复行的行,索引列表为空。

页面内容是否对你有帮助?
有帮助
没帮助

相关·内容

13分42秒

个推TechDay | 个推透明存储优化实践

1.4K
4分29秒

MySQL命令行监控工具 - mysqlstat 介绍

1时8分

TDSQL安装部署实战

14分30秒

Percona pt-archiver重构版--大表数据归档工具

1分1秒

多通道振弦传感器无线采集仪在工程监测中是否好用?

扫码

添加站长 进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

    运营活动

    活动名称
    广告关闭
    领券