如何比较和更新2个包含大量项目的列表?

内容来源于 Stack Overflow,并遵循CC BY-SA 3.0许可协议进行翻译与使用

  • 回答 (2)
  • 关注 (0)
  • 查看 (14)

我需要比较源列表中的列表值(如果它存在于目标列表中),如果是,则将其保存到第三个列表。

我编写的代码确实有效,但由于我的源列表有30k项目,并且它将每个项目值与1500万的目标列表进行比较需要花费大量时间,因此需要花费很多时间。因为它每次都会遍历整个列表(30k * 1500万次)

查看显然不是最佳但完成工作的代码。

        // The below code will generate the lists from CSV file
        The lists are below for sample

        **Source List**
        FileId  FilePath      FileChecksum
        1       somepath A    check1
        2       somepath AA   check2
        3       somepath AAB  check3
        4       somepath B    check4
        5       somepath BB   check5

        **Destination List**

        StepId  StatusID  JobId ProjectId FileId     FilePath
        5        6         4    2091      577206853  somepath A
        5        6         4    2092      577206853  somepath AA
        5        6         4    2093      577206853  somepath AAA
        5        6         4    2094      577206853  somepath AB
        5        6         4    2095      577206853  somepath A
        5        6         4    2096      577206853  somepath B
        5        6         4    2097      577206853  somepath BB

        List<Source> SourceList = File.ReadAllLines(@"D:\source.csv").Skip(1).Select(v => Source.SourceFromCSv(v)).ToList();

        List<Destination> DestinationList = File.ReadAllLines(@"D:\Destination.csv").Skip(1).Select(d => Destination.FromDestinationCSV(d)).ToList();

        //This will compare and create a new list
        var result1 =
            from s in SourceList
            from d in DestinationList
            where (d.FilePath.ToLower() == s.FilePath.ToLower())
             select (d.StepId + "," + d.StatusId + "," + d.JobId + "," + 
             d.ProjectId + "," + d.FileId + "," + d.FilePath + "," + 
             s.FileChecksum);



             Expected Result:
             StepId StatusID  JobId ProjectId FileId    FilePath      FileChecksum
             5       6         4    2091      577206853 somepath A    check1
             5       6         4    2092      577206853 somepath AA   check2
             5       6         4    2095      577206853 somepath A    check1
             5       6         4    2096      577206853 somepath B    check4
             5       6         4    2097      577206853 somepath BB   check5
提问于
用户回答回答于

你可以反过来做。您可以迭代超过3000万个条目,而不是选择30k源条目中的一个。如果您找到所有30k条目,或者在最坏的情况下,在3000万条目之后,您可以停止。多数民众赞成仍然优于30K * 15M。

用户回答回答于

您原则上所做的只是将文件校验和附加到目标列表的末尾。

从源列表中创建一个哈希或字典,然后您的新列表看起来像这样。

//create dictionary SourceDictionary<string,string> with key = filepath.tolower and value = checksum
var newList = DestinationList.select(d => $"{d.thing1},{d.thingN}" + SourceDictionary[d.filename.tolower()])

应该快得多

扫码关注云+社区

领取腾讯云代金券

年度创作总结 领取年终奖励