仅使用pandas isin函数和out for循环比较2个csv文件

pandas isin函数是一个用于判断数据是否在给定值列表中的函数，它可以用于比较两个CSV文件中的数据。而out for循环是一个循环语句，用于遍历CSV文件中的每一行数据。

在比较两个CSV文件时，可以使用pandas库中的read_csv函数将两个文件读取为DataFrame对象，然后使用isin函数进行比较。具体步骤如下：

导入pandas库：

import pandas as pd

使用read_csv函数读取两个CSV文件，并将它们存储为DataFrame对象：

df1 = pd.read_csv('file1.csv')
df2 = pd.read_csv('file2.csv')

使用isin函数比较两个DataFrame对象的特定列：

result = df1['column_name'].isin(df2['column_name'])

其中，'column_name'是要比较的列名。

可以根据需要对比较结果进行进一步处理，例如筛选出匹配的数据行：

matched_data = df1[result]

如果需要将结果保存到新的CSV文件中，可以使用to_csv函数：

matched_data.to_csv('matched_data.csv', index=False)

需要注意的是，isin函数默认返回一个布尔值的Series对象，表示每个元素是否在给定的值列表中。如果需要获取匹配的数据行，可以使用布尔索引或者将结果转换为DataFrame对象。

关于pandas isin函数的更多信息，可以参考腾讯云文档中的介绍：pandas isin函数。

以上是使用pandas isin函数和out for循环比较两个CSV文件的方法，适用于数据量较小的情况。如果数据量较大，可以考虑使用其他更高效的方法，如使用数据库进行比较或者使用分布式计算框架进行并行处理。

页面内容是否对你有帮助？

有帮助

没帮助

仅使用pandas isin函数和out for循环比较2个csv文件

python、pandas

output = f2[~f2['column1'].isin(f1['column1'].unique())] + f2[~f2['column2'].isin(f1['column2'].unique())] 如何使用运算符实现，我尝试了&&，但它也不起作用，我只是想将每一列的唯一值存储到++变量中，只有这样我才需要这样做，所以我对使用运算符感到困惑 f2[~f2['column1'].isin<

浏览 27提问于2020-04-02得票数 0

回答已采纳

2回答

np.select在两个不同文件的两列中写入唯一值行

python、pandas

我认为熊猫和小矮人将是完成这项任务的最佳人选，但可能不是最简单的：列2 (POS)中的值与从每一行写入新文件的行不匹配。第2列(POS)中的值在两个文件中都匹配，但是第13 (GT)列中的值不会从每一行写入一个单独的新文件中。我试图拼凑出np.select的条件和选择，但是我对将每个文件读入内存所需的语法很差，然后指定哪一列与哪个文件匹

浏览 2提问于2018-08-22得票数 0

0回答

将输入值与Pandas创建的列列表进行比较

python、python-3.x、csv、pandas、import-csv

我正在使用Pandas访问我创建的CSV文件。我使用名为“ID”的data.name.tolist()函数创建了一个列表，用于存储所有用户的ID号(当前这些ID是1-6，但稍后将变为5位数字)，我希望做的是将输入的ID号与ID列表进行比较，并根据输入的干杯 import pandas colnames = ['name', 'ID', '

浏览 0提问于2017-06-12得票数 0

回答已采纳

3回答

熊猫使用str替换将未在国籍列表中的国家替换为'other‘

python、pandas

ValueError：(‘长度必须匹配才能比较’，(51575，)，(9，))'Saudi Arabia', 'Canada', 'Other'我可以运行for循环

浏览 0提问于2021-03-07得票数 0

1回答

如何使用DataFrame.isin而不需要同时匹配索引和值？

python、pandas

因此，我有两个文件，一个包含600万个条目，另一个包含大约500万个条目。我想要比较两个数据帧中的特定列值。这是我使用的代码： print(df1['Col1'].isin(df2['col3']).value_counts()) 这对我来说很重要，因为我希望看到True(相同)和False(不同)的数量。我使用to_csv提取这些数据，并使用vimdiff比较这些列，它们都是相同的，那么为什么

浏览 8提问于2019-10-16得票数 0

2回答

需要帮助查找CSV行，其中包含数组中的值。

python、arrays、csv

我有一个数组LiveTick = ['ted3m index','US0003m index','USGG3m index']，我正在读取一个CSV文件book1.csv。我必须找到包含csv中的值的行。 with open('C:\\blp\\book1.csv', &#

浏览 0提问于2018-08-08得票数 0

回答已采纳

2回答

从csv* DataFrame行中删除nltk停止字*

python、pandas、csv、nltk、corpus

我试图从下面从一个DataFrame读取的.csv中删除停止词。在洗发水标签的数据集中，它基本上是一长串的bigram和出现频率的列表。我使用的代码是基于前面一个问题回答的。import pandas as pd我得到的错误是: AttributeError

浏览 0提问于2018-06-20得票数 1

回答已采纳

1回答

数组:将稀疏数组合并为一个人口更密集的数组。

python、pandas

+------------+---------++------------+---------+|| A | || A | X |使用df[["LX ID", "ISIN"]].drop_duplicates()生成下面的内容，去掉相

浏览 0提问于2017-02-03得票数 1

回答已采纳

3回答

Pandas to_csv另存为NoneType并提高TypeError

python、python-3.x、pandas

我正在尝试创建一个上传工具，该工具获取.xls文件，然后将其转换为pandas数据帧，最后将其保存为csv文件进行处理和分析。在文件从下面的代码中出来之后： def xls_to_csv(data): #Converts the formatted file into a <e

浏览 94提问于2018-06-02得票数 1

1回答

熊猫/ odo / bcolz从大型CSV文件中选择性加载行

python-3.x、pandas、blaze、bcolz、odo

假设我们有大型csv文件(例如200 GB)，其中只有一小部分行(例如0.1%或更少)包含感兴趣的数据。odo或Pandas是否为这种类型的有选择地将行加载到数据仓库的方法提供了便利？

浏览 5提问于2016-02-04得票数 0

回答已采纳

3回答

如何在两个大文件中找到重复名称？

python、parsing

我有两辆CSV。一个是一个名字档案。(大约1000行)另一个选项卡用不同的人的各种信息分隔，其中第7列-他们的名字被保存。(~2000000行)otherList = [] for l

浏览 1提问于2019-05-22得票数 0

回答已采纳

1回答

改进性能处理Pandas* dataframe (isin)*

python、performance、pandas

(对小部分记录很好~10K) 如果company_name在file1和file2中是相同的，那么将uuid字段从文件1复制到competitor_companies dataframe。如果网站在file1和file2中是相同的，那么将uuid字

浏览 1提问于2018-08-01得票数 0

1回答

在时间戳边界之间填充Pandas列

python、pandas、autocomplete、sections

13,54,68,94,31,68,46,46,31,53,54,85,75,42,69]} df.loc[df["Time"].isin(out), "Observati

浏览 12提问于2020-10-31得票数 0

回答已采纳

1回答

Python -如何用引用表替换列中的所有匹配文本-这需要替换单元格中的多个匹配文本

python、excel、pandas

D2-D32-dog |Brown ||MG3-K454-bird |Red ||Pets | -----------------------------仅供参考-我没有任何编程经验，通常使用Excel，但被告知Python将

浏览 1提问于2019-10-31得票数 0

2回答

编辑此代码以运行文件夹中的所有CSV文件？

python、pandas、dataframe、csv

我想以我对蟒蛇和熊猫的全新认识作为开场白。我创建了下面的代码来运行CSV文件并根据列值解析行，然后创建并保存到5个CSV中。我现在面临的挑战是我有50个文件。我希望找到一种方法，我可以使用我拥有的，然后添加一个循环，将运行整个文件夹；而不是进入每个文件的路径单独。谢谢你的帮助。import pandas as pd df=pd.read_csv(r"C:\Users\Kris\Data\

浏览 6提问于2022-03-16得票数 -1

回答已采纳

2回答

如何使用嵌套的for循环和熊猫的iloc定位具有1的行和列

python、pandas、dataframe

我对蟒蛇和熊猫比较陌生。我想复制一个战舰游戏。我的目标是定位有1的行和列，并将该位置存储为战舰位置。我创建了一个CSV文件，它看起来如下0,0,0,0,0,00,0,0,0,0,00,0,0,0,0,00,0,0,0,0,0 df = pand

浏览 3提问于2020-08-13得票数 3

回答已采纳

2回答

熊猫read_csv将数据加载到错误的列中

python、pandas、csv

我有一个CSV文件，包含四列。第一列中的每一行包含一条tweet，第二列包含相应的标签( A/N/Q/S -分别表示可操作/非可操作/查询/建议)。因此，第二列基本上包含目标类。第三栏和第四栏尚不相关。问题是分类器也把一些tweet当作标签。所以在预测的输出中，虽然我应该只得到A，N，Q或S，但我也得到了一些推特和这些标签。下面是分类器代码：dtree_csv.py from sklearn.tree import D

浏览 2提问于2017-09-07得票数 0

回答已采纳

1回答

Python 3 Pandas多个数据框列比较

python、pandas、dataframe

我希望比较我在Bloomberg中使用特定标准过滤的姓名列表，看看在我的第一个数据集中是否有匹配的名字。我首先将股票代码从Bloomberg导出到csv文件中。我还将我的风险信息(有一列报价器)导出为csv文件。我将这两个文件都读取到pandas数据帧对象中，并隔离了我想要比较的列。= china_names['EQY_FUND_CRNCY'].isin(values) data['In

浏览 34提问于2020-01-30得票数 0

2回答

批量将csv转换为excel

python、python-3.x、csv、xlsxwriter、bulk-load

此过程接收一个文件夹，并迭代所有将这些文件转换为.xlsx的.csv文件import globfrom pathlibimport Path wb = Workbook() CSV_SEPARATOR = &qu

浏览 7提问于2020-01-11得票数 0

1回答

提高运行大文件的性能

python、pandas、memory、chunked-encoding

我使用的是安装了pandas 0.24.0的spyder版本。输入文件目前大约需要一个小时才能生成一个10MB左右的输出文件。该文件的内存使用详细信息如下：Data columns (total 17 columns)但是每个文件的标头是不同的，所以我使用<

浏览 13提问于2020-05-18得票数 3

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

仅使用pandas isin函数和out for循环比较2个csv文件

相关·内容

仅使用pandas isin函数和out for循环比较2个csv文件

np.select在两个不同文件的两列中写入唯一值行

将输入值与Pandas创建的列列表进行比较

熊猫使用str替换将未在国籍列表中的国家替换为'other‘

如何使用DataFrame.isin而不需要同时匹配索引和值？

需要帮助查找CSV行，其中包含数组中的值。

从csv* DataFrame行中删除nltk停止字*

数组:将稀疏数组合并为一个人口更密集的数组。

Pandas to_csv另存为NoneType并提高TypeError

熊猫/ odo / bcolz从大型CSV文件中选择性加载行

如何在两个大文件中找到重复名称？

改进性能处理Pandas* dataframe (isin)*

在时间戳边界之间填充Pandas列

Python -如何用引用表替换列中的所有匹配文本-这需要替换单元格中的多个匹配文本

编辑此代码以运行文件夹中的所有CSV文件？

如何使用嵌套的for循环和熊猫的iloc定位具有1的行和列

熊猫read_csv将数据加载到错误的列中

Python 3 Pandas多个数据框列比较

批量将csv转换为excel

提高运行大文件的性能

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐