如果任何行包含单列(‘Addresses’)中的重复值,我希望使用熊猫函数drop_duplicates()删除它们。每当我尝试使用drop_duplicates()并将我的数据帧打印或保存到一个新的.csv时,重复的行/值仍然存在。81212th St619 81212th St
如您所见,仍然有几行包含地址中的重复项
我使用pandas.DataFrame.drop_duplicates()删除所有列值相同的行的重复项,但是对于数据质量分析,我需要生成一个带有删除的重复行的DataFrame。如何识别要删除的行?我想到了比较原始的DF和没有重复的新的DF,并识别缺少的唯一索引,但是有更好的方法来做到这一点吗?示例
data =[[1,'A'],[2,'B