匹配两个csv文件中的字符串，但第二个文件太大，无法读取到列表中

匹配两个CSV文件中的字符串，但第二个文件太大，无法读取到列表中。

在这种情况下，可以采用一种称为"流式处理"的方法来解决这个问题。流式处理是一种逐行读取和处理数据的方式，可以有效地处理大型文件而不会占用过多的内存。

以下是一个可能的解决方案：

打开第一个CSV文件，逐行读取每个字符串。
打开第二个CSV文件，逐行读取每个字符串。
对于第二个文件中的每个字符串，将其与第一个文件中的所有字符串进行比较。
如果找到匹配的字符串，可以根据需求进行相应的处理，比如记录匹配的行号或将匹配的字符串写入新的CSV文件中。

在这个过程中，由于第二个文件太大无法一次性读取到列表中，我们需要逐行读取并进行比较。这样可以避免将整个文件加载到内存中，从而节省内存资源。

对于这个问题，可以使用Python编程语言来实现。以下是一个简单的示例代码：

import csv

def match_strings(file1, file2):
    with open(file1, 'r') as f1, open(file2, 'r') as f2:
        reader1 = csv.reader(f1)
        reader2 = csv.reader(f2)
        
        for row1 in reader1:
            string1 = row1[0]  # 假设第一个文件中每行只有一个字符串
            
            f2.seek(0)  # 将第二个文件的读取位置重置为开头
            
            for row2 in reader2:
                string2 = row2[0]  # 假设第二个文件中每行只有一个字符串
                
                if string1 == string2:
                    # 找到匹配的字符串，进行相应的处理
                    print("找到匹配的字符串:", string1)
                    # 可以记录行号或将匹配的字符串写入新的CSV文件中
                    
                    break  # 如果只需要找到第一个匹配的字符串，可以添加break语句来提前结束循环

# 调用函数进行匹配
match_strings('file1.csv', 'file2.csv')

请注意，上述代码仅提供了一个基本的思路和示例，具体实现可能需要根据实际情况进行调整。另外，对于大型文件的处理，可能需要考虑性能优化和并行处理等方面的技术手段。

在腾讯云的产品中，可以使用对象存储（COS）来存储和处理大型文件，使用云函数（SCF）来实现流式处理的函数逻辑。具体的产品和使用方法可以参考腾讯云官方文档：

希望以上信息对您有所帮助！

匹配两个csv文件中的字符串，但第二个文件太大，无法读取到列表中

、

下面的代码适用于最大为300万条记录的文件，但是超过这个大小，我会耗尽内存，因为我正在将数据读取到列表中，然后使用列表循环并查找匹配项。从以前的文章中，我已经了解到我应该通过循环一次处理每一行，但是没有找到任何关于如何从CSV文件中一次获取一行并通过两次迭代循环来处理它的文章，如下面的代码所示。 # ope

浏览 13提问于2020-05-09得票数 1

回答已采纳

1回答

使用pandas将多个csv文件读取到单独的数据帧中

、、

我喜欢将特定文件夹中的两个csv文件读取到两个单独的数据帧中。这两个文件名是: 23314621_MACI_NAV.CSV和23314623_MACI_Holding.CSV 文件名的第二部分是固定的MACI_NAV.CSV和MACI_Holding.CSV

浏览 1提问于2018-08-29得票数 4

6回答

Python逐行比较两个CSV文件

、、、

我目前有一个版本的脚本，可以通过将两个csv文件逐个读取到列表/集合中来比较它们。但是，csvs目前对于内存来说太大了，所以我想逐行迭代并打印出不同的行。我不能做csvreaders的两个循环，因为然后内部循环将读取整个文件，而外部循环将在第一行编辑:到目

浏览 11提问于2014-07-03得票数 0

4回答

在散列映射列表中搜索键值对

、、、

我正在读取包含一组属性的两个csv文件File 2 attributes = rollno, city,town我需要匹配这两个文件，对于每个匹配的rollno，我必须将File2属性附加到File1中，并创建一个csv文件，格式为rollno，name，class，city，town 到目前

浏览 3提问于2011-04-28得票数 0

回答已采纳

1回答

如何添加不同索引和列的Dask数据帧

、、、

我有两个csv文件。第一个可能很大，第二个可能很小。每一个都保存一些值，比如pandas.DataFrame。因为第一个文件可能太大而无法读取到内存中。我决定使用Dask来处理这两个文件。我想要做的是合并这两个文件。如果索引和列相同，那么我将把这两个值相加。而添加新列或索引。例如，我有两个这样的</em

浏览 3提问于2020-04-07得票数 1

3回答

java文件列表

、

有人能帮我读一张csv文件列表吗？喜欢希望读取每个列表中的所有文件内容以进行处理，但无法与可使用的循环结构相匹配。谢谢。更新:我想从每个内部文件列表同时加载文件。就像一次从每个内部列表读取第一个文件一样，比较内容，然后移动到特定<

浏览 4提问于2013-07-30得票数 0

回答已采纳

7回答

在R中，如何逐行读取CSV文件，并将内容识别为正确的数据类型？

、

我想读一个CSV文件，它的第一行是变量名，后面的行是这些变量的内容。有些变量是数字变量，有些是文本变量，有些甚至是空变量。file = "path/file.csv"varnames = strsplit(readLines(f,1),",")[[1]]既然数据包含了所有变量，

浏览 2提问于2011-05-25得票数 6

回答已采纳

1回答

Oracle 11 pl/sql将值从CSV文件读取到临时表

、、、、

我需要用CSV文件中的值更新现有表中的值。只有原始CSV文件才能进行匹配。使用现有的加载过程，我需要读取的值不会被解析。我有两个CSV文件，在x列中有不同的内容。在将第二个CSV文件加载到DB之前，我想根据文件2中x列的数据更新DB

浏览 8提问于2017-08-19得票数 1

1回答

在包含字符串的字典列表中查找整数列表

、、、

我们得到了一长串DNA (AGATC.)并有望为AGA出现10次、GTC出现4次等几个短串联重复序列找到匹配。包含短串联重复的CSV文件看起来有点像这样，标题行位于顶部：Ted, 4, 5, 9根据我使用的文件，可以有更多或更少的单个重复来查找我已经提取了在长字符串中找到的匹配的短串联重复序列，直到存储在列表</em

浏览 5提问于2022-02-15得票数 1

1回答

当“不匹配”发生时，d3 .filter函数在两个数组中匹配字符串值时停止

、、、、

意图:将来自localStorage的字符串与来自.csv的数组中的字符串匹配，并在有匹配时更改样式。所有可用的单词都在两个不同的.csv文件中。在localStorage中，一些单词存储在文件1或文件2中。在页面刷新中，显示cs

浏览 2提问于2015-01-02得票数 0

回答已采纳

2回答

如何选择非空的CSV单元，并将它们放入Powershell中的数组中？

、

例如：Col1 Col22 "adsf"__我想要的结果： $array

浏览 1提问于2020-10-13得票数 1

回答已采纳

1回答

对太大而无法在excel中打开的数据库执行VLOOKUP

、、

我正在尝试对一个Excel文件(文件1)执行VLOOKUP查询，其中包含来自另一个csv文件(文件2)的大约500,000行，该文件大约有450万行。第二个文件太大，无法在Excel中完全加载，因此我不确定如何继续。我正在尝试根据匹配两个文件中B列中的唯一PointID标识

浏览 0提问于2017-01-18得票数 0

1回答

如何从文本文件中提取语言列表？

假设你有很多文本文件，它们都包含这样的一行：Italienisch 我构造了一个正则表达式：但是它在列表的第二个单词之后无法匹配。如果第二个

浏览 0提问于2021-02-24得票数 0

1回答

如何超越比较，按名称而不是顺序比较匹配列的数据文件

、、、

我有两种情况：在上述两种情况下，BC3都无法自动匹配</em

浏览 0提问于2012-10-03得票数 6

1回答

用于存储n维列表的DataFrame

、

我对pandas很陌生，所以如果这看起来很傻，请原谅，假设我们有两个参数x和y，对于每一对(x，y)，我有多个数据列表需要存储。x1 x2 x3y2 P21 P22 P23P11是list的列表。是否可以将这些类型的数据存储到DataFrame中并存储为csv文件？或者你有没有更好的存储数据的方

浏览 0提问于2018-04-25得票数 0

2回答

备用CSV行删除

我有如下csv文件：1237我错误地把每个元素打印了两次。如何删除每个重复的行，并得到以下结果：13 7

浏览 0提问于2012-04-18得票数 0

回答已采纳

2回答

在Python中逐步遍历CSV文件

、、

我正在尝试加快将大型CSV文件加载到MySQL数据库的速度。使用此代码加载一个4 4GB的文件大约需要4个小时： with open(source) as csv_file: csv_reader = csv.reader(csv_file, delimiter为此，您必须将元组列表传递给第二个参数。如果我在每次行迭代中构建列表，它就会变得太大<

浏览 11提问于2019-05-06得票数 0

2回答

空多个.csv日志文件，但保留标头

、

我在一个顶级目录的两个子目录中有一些.csv日志文件，我希望清空每个目录中的所有.csv日志文件，但保留标题，以便通过创建它们的应用程序重新填充它们。我可以使用for file in /path/to/file/*; do > $file;done来清空文件，但是头也会被删除！

浏览 0提问于2018-06-12得票数 0

2回答

如何读取多个csv文件并合并它们？

、、、

下面是我的csv文件，它们存在于特定的目录中： output0output3out1out3 我应该合并output0和out0，合并output1我只合并了output0和out0，但我没有找到一种方法来处理文件的其余部分 PS:这只是一个例子，我的目录中有100个csv文件这是我的代码： import pandas as pd imp

浏览 31提问于2019-06-13得票数 1

1回答

使用.CSV DLL编写LinqtoCSV文件

、、、

我试图使用在LinqToCSV上找到的库从列表中写入CSV文件。 { output = ne

浏览 3提问于2013-05-30得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

匹配两个csv文件中的字符串，但第二个文件太大，无法读取到列表中

相关·内容

匹配两个csv文件中的字符串，但第二个文件太大，无法读取到列表中

使用pandas将多个csv文件读取到单独的数据帧中

Python逐行比较两个CSV文件

在散列映射列表中搜索键值对

如何添加不同索引和列的Dask数据帧

java文件列表

在R中，如何逐行读取CSV文件，并将内容识别为正确的数据类型？

Oracle 11 pl/sql将值从CSV文件读取到临时表

在包含字符串的字典列表中查找整数列表

当“不匹配”发生时，d3 .filter函数在两个数组中匹配字符串值时停止

如何选择非空的CSV单元，并将它们放入Powershell中的数组中？

对太大而无法在excel中打开的数据库执行VLOOKUP

如何从文本文件中提取语言列表？

如何超越比较，按名称而不是顺序比较匹配列的数据文件

用于存储n维列表的DataFrame

备用CSV行删除

在Python中逐步遍历CSV文件

空多个.csv日志文件，但保留标头

如何读取多个csv文件并合并它们？

使用.CSV DLL编写LinqtoCSV文件

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐