如何用pandas从2个CSV文件中删除所有重复的行？

使用pandas库可以很方便地从两个CSV文件中删除所有重复的行。下面是一个完善且全面的答案：

首先，我们需要导入pandas库，并使用read_csv()函数读取两个CSV文件的内容，并将它们分别存储在两个DataFrame对象中。

import pandas as pd

# 读取两个CSV文件的内容
df1 = pd.read_csv('file1.csv')
df2 = pd.read_csv('file2.csv')

接下来，我们可以使用drop_duplicates()函数来删除重复的行。该函数会返回一个新的DataFrame对象，其中不包含重复的行。

# 删除重复的行
df1 = df1.drop_duplicates()
df2 = df2.drop_duplicates()

如果你想要在两个DataFrame对象中删除重复的行，并将结果保存到新的CSV文件中，可以使用to_csv()函数。

# 删除重复的行，并保存到新的CSV文件中
df1 = df1.drop_duplicates()
df1.to_csv('new_file1.csv', index=False)

df2 = df2.drop_duplicates()
df2.to_csv('new_file2.csv', index=False)

在这个过程中，我们使用了drop_duplicates()函数来删除重复的行，并使用to_csv()函数将结果保存到新的CSV文件中。其中，index=False参数用于禁止保存索引列。

至于pandas的具体使用方法和更多功能，你可以参考腾讯云的数据分析产品TDSQL，它是一种高性能、高可用的云数据库产品，支持pandas等数据分析工具，可以帮助你更好地处理和分析数据。

腾讯云TDSQL产品介绍链接：https://cloud.tencent.com/product/tdsql

如何用pandas从2个CSV文件中删除所有重复的行？

、、

我必须保存CSV文件。数据结构是相等的，看起来像ip、cve。我需要删除两个文件中都存在的所有行，只留下唯一的行。(左反连接)我认为，这可以用左连接来完成，但它不起作用。有没有更简单的方法来解决这样的问题？import pandas as pd patrol = pd.read_csv('parse_results_MaxPa

浏览 109提问于2019-06-10得票数 0

回答已采纳

2回答

使用python pandas删除2个不同文件中的重复行

、

我正在尝试用panda从csv文件中删除重复的行。我有两个文件，A.csv和B.csv，我想删除A中存在于B中的所有行。文件A.csv：Mirta,15,azul 文件B.<em

浏览 0提问于2020-01-30得票数 0

5回答

熊猫to_csv("filename.csv")保存原始进口CSV，而不是更新，清洁CSV？我做错了什么？

、

我导入了CSV数据集，清理了它(例如删除了副本)，然后尝试导出更新的CSV。但是，导出的CSV文件包含与原始文件相同的数据，而不是更新的DataFrame。我试过df.to_csv('out.csv')和df.to_csv(r'out.csv') 将数据从csv文

浏览 2提问于2019-02-13得票数 0

回答已采纳

2回答

被pandas读取后删除CSV文件中的行

、、

因此，我希望有一个脚本连续写入CSV文件，另一个脚本定期从同一个CSV文件中读取。我正在寻找一种方法来删除我刚刚从CSV文件(而不是从我的pandas数据帧)中读取的行。有人能帮上忙吗？# Read data in to dataframe deviceInfo = pd.read_csv("sa

浏览 33提问于2019-06-08得票数 2

2回答

如果两个文件具有相同的列值，则合并这些文件中的行

、、

目前，我正在亚马逊的网站上搜寻一些数据。我遇到的问题是，我不能真正从同一个页面获得一个产品的所有数据。我最终得到的是两个文件，它们具有相同的列标题，但列本身的数据不同。例如，在一个.csv文件中，产品包含信息的“代码”、“名称”、“url”、“大小”，而在另一个文件中，它包含“代码”、“价格”、“image1”、“image2”等等。如果fil

浏览 10提问于2019-02-01得票数 1

回答已采纳

1回答

当CSV内容读取为列表时，pandas* read_csv()返回带有.1和.2的重复条目*

、

我正在使用pandas read_csv()方法将CSV文件的第一行读入列表，如下所示。想象一下，expected_columns="NewYork"，“悉尼” 现在，目标CSV文件也具有相同的列，如"NewYork“、"Sydney”、"Sydney“、"Sydney”。如上所述，当我使用Pandas read_csv(

浏览 2提问于2021-07-15得票数 1

1回答

从csv* [headers + Content]删除重复行*

、、、、

我有一个数据集，它的大小超过100 of，文件数量也很多。这些文件有20多个列和大约100万行。数据的主要问题是：不用担心哪一列或多少列..。只需要保持第一次出现，然后删除其余的。我确实找到了太多<e

浏览 2提问于2017-09-22得票数 1

回答已采纳

2回答

如何比较两个CSV文件并得到区别？

、、

我有两个CSV文件，city,state,linkAguila,Arizona,http://www.co.apache.az.us/planning-and-zoning-division/zoning-ordinances

浏览 0提问于2018-02-08得票数 2

回答已采纳

1回答

大熊猫在CSV中丢弃复制体

、、

我有两个CSV。它们包含相同的列和数据。一个CSV增加了额外的记录。我希望有一个CSV包含新的附加记录，并删除所有重复的记录。= False时，所有记录都被删除，只有列名被保留。在我附上CSV后，有谁对删除重复记录有什么建议？UPDATE -修改代码如下，将新行从“rowsadded”<em

浏览 0提问于2018-09-20得票数 0

回答已采纳

1回答

熊猫MemoryError read_csv

、、、、

我有1.csv文件，这个文件有5GB的内存。我也有熊猫用来移除重复的。但是每次我运行脚本时，我都会得到内存错误。 df.to_csv('2.csv'

浏览 0提问于2019-08-27得票数 0

1回答

pandas read_csv()从CSV内容返回带有.1和.2的重复条目

、、

我正在使用pandas read_csv()方法将CSV文件的第一行读入列表，如下所示。imagine, expected_columns=["NewYork","Sydney","Sydney","Sydney"] 现在，目标CSV文件也具有相同的列，如"NewYork“、"Sydney如上所述，当我使用Pa

浏览 3提问于2021-07-23得票数 0

1回答

无法读取带有分号的CSV文件。无法在熊猫中使用drop函数删除行

、、

我正在尝试读取一个csv文件，该文件在行中有一些分号。当我试图读取该文件但无法继续时，会出现一个错误。包含这些分号的前8行对我没有任何用处，所以我想删除前8行。以下是我要删除的CSV文件的前8行; Proficy Historian SDK Data

浏览 1提问于2019-08-18得票数 1

1回答

删除带有附加条件的pandas* where中的“重复行”*

、、

在Jezrael的帮助下，我可以编辑我的python脚本：import globos.chdir("files") combined_csv_final.to_csv("combined_csv</e

浏览 0提问于2020-01-02得票数 1

1回答

如何使用文件列表作为输入来删除数据行？

、

我有多个包含数百万行数据的文件(20+)，它们都以一个文件名/路径开头。我已经生成了一个重复文件列表，需要从数据中删除这些文件。我正在尝试学习更多关于Pandas和Python的知识，但不知道如何使用重复的文件列表作为输入。import pandas as pd df = pd.read_csv('C:\\D

浏览 19提问于2019-09-10得票数 0

回答已采纳

1回答

在Python中操作CSV文件

、、、

import csv writer=csv.writer(open('Names_NoDuplicates.csv', 'w'),delimiter=',') for row in reader: if row[0] n

浏览 1提问于2015-11-17得票数 0

1回答

在安装pandas之后，我得到了"no module named pandas:“错误

、

我正在尝试使用以下脚本从CSV文件中删除重复项：deduped.to_csv('LCGc.csv') 但我得到的错误是“没有命名为

浏览 4提问于2016-12-06得票数 0

1回答

熊猫read_csv真的比蟒蛇开放得慢吗？

、、、、

我的要求是从csv文件中删除重复的行，但是文件的大小是11.3GB。所以我把熊猫和python文件生成器做了标记。Python文件生成器： with open(r'D:\my-file.csv') as fp, open(r'D:\mining.csv

浏览 9提问于2016-10-08得票数 0

回答已采纳

0回答

无法将excel行与pandas* dataframe行数匹配*

、、、

我尝试对文件中的Unicode字符进行编码，并将其传递到pandas数据帧中。但是，我在Jupyter notebook中使用df.column.value_counts()获得的唯一行数与同一文件的excel行数不匹配(在删除重复值之后)。我如何解决这个问题？我加载了一个文本文件(以制表符分隔)，并使用encoding = 'ISO-8859-1‘将其转换为p

浏览 13提问于2019-01-21得票数 0

2回答

如何删除pandas* dataframe列中的换行符？*

、、

我想缩短并清理CSV文件，以便在ElasticSearch中使用它。但是在一些数据帧(单元)中有换行，并且不可能将CSV解析为ElasticSearch。我现在用pandas缩短了CSV，并尝试删除换行符，但它不起作用。代码如下： keep_col = ["Plugin ID","CVE&q

浏览 3提问于2019-04-04得票数 3

回答已采纳

2回答

使用python脚本从文件夹中的csv文件中删除重复行

我是蟒蛇的初学者。我正在写一个剧本：守则：import os import pandasfile_list = os

浏览 0提问于2020-06-06得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何用pandas从2个CSV文件中删除所有重复的行？

相关·内容

如何用pandas从2个CSV文件中删除所有重复的行？

使用python pandas删除2个不同文件中的重复行

熊猫to_csv("filename.csv")保存原始进口CSV，而不是更新，清洁CSV？我做错了什么？

被pandas读取后删除CSV文件中的行

如果两个文件具有相同的列值，则合并这些文件中的行

当CSV内容读取为列表时，pandas* read_csv()返回带有.1和.2的重复条目*

从csv* [headers + Content]删除重复行*

如何比较两个CSV文件并得到区别？

大熊猫在CSV中丢弃复制体

熊猫MemoryError read_csv

pandas read_csv()从CSV内容返回带有.1和.2的重复条目

无法读取带有分号的CSV文件。无法在熊猫中使用drop函数删除行

删除带有附加条件的pandas* where中的“重复行”*

如何使用文件列表作为输入来删除数据行？

在Python中操作CSV文件

在安装pandas之后，我得到了"no module named pandas:“错误

熊猫read_csv真的比蟒蛇开放得慢吗？

无法将excel行与pandas* dataframe行数匹配*

如何删除pandas* dataframe列中的换行符？*

使用python脚本从文件夹中的csv文件中删除重复行

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐