首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

从合并的数据帧中移除重复项,同时将重复项保留在原始数据集中

,可以使用Pandas库来实现。

首先,我们需要导入Pandas库:

代码语言:txt
复制
import pandas as pd

然后,我们可以创建两个数据帧df1和df2,用于合并:

代码语言:txt
复制
df1 = pd.DataFrame({'A': [1, 2, 3, 4], 'B': ['a', 'b', 'c', 'd']})
df2 = pd.DataFrame({'A': [3, 4, 5, 6], 'B': ['c', 'd', 'e', 'f']})

接下来,我们使用concat函数将两个数据帧合并,并设置参数ignore_index为True,以重新索引合并后的数据帧:

代码语言:txt
复制
merged_df = pd.concat([df1, df2], ignore_index=True)

现在,我们可以使用duplicated函数找到重复项的索引:

代码语言:txt
复制
duplicates = merged_df.duplicated()

然后,我们可以使用drop_duplicates函数移除重复项,并设置参数keep为False,以保留重复项在原始数据集中的位置:

代码语言:txt
复制
merged_df.drop_duplicates(keep=False, inplace=True)

最后,我们可以打印出移除重复项后的数据帧:

代码语言:txt
复制
print(merged_df)

完整的代码如下:

代码语言:txt
复制
import pandas as pd

df1 = pd.DataFrame({'A': [1, 2, 3, 4], 'B': ['a', 'b', 'c', 'd']})
df2 = pd.DataFrame({'A': [3, 4, 5, 6], 'B': ['c', 'd', 'e', 'f']})

merged_df = pd.concat([df1, df2], ignore_index=True)
duplicates = merged_df.duplicated()
merged_df.drop_duplicates(keep=False, inplace=True)

print(merged_df)

这样,我们就从合并的数据帧中移除了重复项,并将重复项保留在原始数据集中。

页面内容是否对你有帮助?
有帮助
没帮助

相关·内容

没有搜到相关的合辑

领券