我目前正在使用Python Record Linkage Toolkit对工作中的数据集执行重复数据消除。has ideas for doing record linkage with two large data sets using numpy split,它对我的使用来说很简单,但不提供任何在单个数据帧内进行重复数据删除的功能我实际上将这个子集建议合并到了一个方法中,用于将多索引拆分成多个子集并运行这些
我有4个csv文件具有相同的格式和标题行作为第一行在每个文件。我使用下面的代码将它们合并到一个数据帧中: df = pd.concat(map(pd.read_csv, [file for file in glob.glob('data/*.csv')])) 现在,我意识到每个文件的头文件都在数据中,这会导致分析中出现问题。有没有办法删除除第一个以外的所有头文件?