使用grep或python比较大文件_使用Python进行图像比较或分类_如何使用Python或Grep处理包含RST文件的find+replace - 腾讯云开发者社区

python、linux、bash

示例： listA.txtstring2 string1 string3 然后我比较两个列表，以了解列表B中的新字符串： grep -w -f listA.txt-v listB.txt 或者 cat listA.txt | grep -Fxvf - listB.txt 最终结果： string3 问题是我有数百万个字符串，所以运行这个命令会消耗我PC上的所有资源并崩溃有没有办法用python (它消耗的资源更少，速度更快)做到这一点？谢谢

浏览 21提问于2017-08-08得票数 1

回答已采纳

1回答

如何使用perl比较两个文件

file、hash、grep、compare

如何使用perl比较两个大文件？在大文件上使用grep非常慢。例如: less file1 |grep -f file2 > file3例如: content in file1: 123;456;789 234;567;890 789; 345 ;123 context

浏览 5提问于2014-02-27得票数 0

1回答

基于文本文件中比较的文件读取、比较和替换

awk、python、perl

然后转到23美元的文件中，使用value ~进行计数，并将其与值0进行比较。这要写在同一个文件中。我试过使用awk，但无法看到用python或awk编写什么东西的任何选项，无论哪种方式最适合大文件。cat sampletext.dat |grep "^6999"|awk 'BEGIN{FS=OFS="~"}$23 -gt "0"{$24=&qu

浏览 0提问于2019-06-25得票数 0

1回答

GREP从另一个文件中的文件行到某个字符出现为止。

linux、bash、grep

grep -A 10 -f smallfile bigfile是否可以使用另一个标志而不是-A来继续对以下行进行打号，直到在大文件中出现一个字符(例如@)，并且我需要对小文件中的数百行行这样做，而且我不知道从smallfile到grep的行后面有多少行，每个行都会发生变化。示例只是举例说明其中的一行：@123大文件：abcghjsdfrzxyui@435

浏览 1提问于2017-03-14得票数 3

回答已采纳

2回答

如何在python上运行sh脚本？

python、bash、python-2.7、window

假设我有一个python程序，我想执行以下操作 grep "username" accounts.txt 在1行中 accounts.txt和我的py文件在同一个文件夹中。我知道在C中有一些像System(grep "username“accounts.txt)这样的函数，我想知道在python中是否有类似的函数。通常情况下，python读取accounts.txt太慢，因为它是一个大文件。然而，在bash或linux中它要快得多，所以我想

浏览 22提问于2019-09-08得票数 0

回答已采纳

3回答

如何从大文件中获取最小前缀

shell、awk

我有一个大文件，它的条目如下所示。输入：111345612345123从这些条目中，我需要找出能够表示所有这些条目的最小前缀数量。预期输出：123194567 如果我们有1113，那么就不需要使用1113456或1113457。我已经尝试过的事情:我可以使用grep -v ^123和与输入文件进行比较，并将唯一的结果存储在输出文件中。如果我使用while循环，我不知道如何从输入文件中删除

浏览 35提问于2019-07-30得票数 1

1回答

用大型过滤器过滤大文件

shell-script、text-processing、grep、performance、gnu-parallel

这两个文件的最大行长都远低于1000，它们使用LC_ALL=C排序，$file1可以包含除\0之外的任何附加字符。出乎意料地，这个命令消耗大量的内存并被操作系统杀死。如果限制线程数，则该命令可以工作：对于最后一个命令，htop显示每个grep -Ff $file2我假设这个需求来自于从$file2构建的字典grep</e

浏览 0提问于2019-02-14得票数 3

回答已采纳

1回答

比较unix file1(200万个数字/行/行)、file2(2,000,480个数字/行/行)中的2个文件

unix、compare

如何在unix中比较这两个大文件。我已经尝试使用'grep -Fxvf file1.txt file2.txt | wc -l‘，但是输出是2,000,480，当切换file1和file2时，输出是1,999,999。我也尝试过使用diff/cmp命令，但是输出太复杂了。

浏览 0提问于2016-03-21得票数 0

2回答

如何在while循环中使用grep命令时使用并行

grep

while read line; do echo "$line2" >> exclusion_list_$.txt echo "grep我是新来的，请告诉我，如果这是正确的方式，或如果任何其他方式将是有效的。

浏览 0提问于2020-07-30得票数 1

回答已采纳

1回答

如何在linux终端中将数据从长尺寸csv文件中分离出来？

linux、sed、grep、terminal

我想要grep一些行，应该遵循多个字符串匹配条件。使用grep、awk或sed的正确方法是什么？我尝试了以下命令，它返回结果，但它也显示了较早的日期数据。grep -w "for-outbound-sports\|2019-05-16" Master.csv 是否有其他方法可以更快地使用awk或sed或其他什么方法来加快速度？

浏览 0提问于2019-05-22得票数 0

2回答

带有管道的水洗机及如果条件产生误差

linux、bash、shell、if-statement、pipe

我试图使用if条件在bash中查找特定进程的数目，如我得到的输出是no_error 如果我使用管道，一行似乎会中断，如果我省略管道，则不会抛出错误，如果使用grep<

浏览 4提问于2017-10-15得票数 5

回答已采纳

3回答

比较两个文件和删除部分匹配的有效方法

linux、perl、file、awk

我正在寻找最有效的方法，我是比较数百万行文件。 typo artial我用python进行了测试，但是它非常慢。也是用grep测试的，它几乎和python一样慢。用于测试的文件： # time grep -v -f

浏览 4提问于2016-06-22得票数 2

回答已采纳

4回答

perl: grep和map在一个操作中

list、perl

在perl中的单个操作中有执行grep和map的方法吗？类似于python执行列表理解的方式： 'size':123},my $files = [ { path=>'/path/t

浏览 4提问于2017-06-27得票数 3

回答已采纳

1回答

使用python lib从FTP获取大文件

python、ftp

我需要从FTP服务器下载一些大文件(每个文件大于30 to )。我使用的是python standardlib中的ftplib，但是有一些缺陷:如果我下载了一个大文件，如果文件结束，我就不能再使用连接了。之后我收到EOF错误，因此连接关闭(由于超时？)我还读到ftplib (和其他python ftp库)不适合大文件，可能只支持大约1 1GB的文件。这里有一个与这个主题类似的问题：，它并不完全相同，因为我的文件比较起来很大。fd, "wb&q

浏览 2提问于2015-05-12得票数 4

1回答

你在Cygwin的GREP有多快？

linux、performance、cygwin、grep

我使用Cygwin在一个非常快的个人电脑，但我发现它是荒谬的慢，当我想使用grep。当我想要处理一个大文件(比如25 It )时，它也会变慢。这里我用一个例子来证明我的情况。> time for i in $(seq 1000); do grep "$i" .; done real 75.865 user 5.442 sys 14.542 pcpu你是否有过类似的问题，如缓慢的cygwin或GNU grepHow，你能改进perfo

浏览 0提问于2011-12-06得票数 1

1回答

PYTHON命令:输出错误，退出状态2

python、grep、binary、subprocess、encode

我试图在子文件夹中的特定大文件(GB)中找到一个模式。tried....是的另一种方式 grep -a 'TEXT‘/folder1 1/file.txt-按需要输出OK _ path =/folder1 1/FILE.txt- OK，绝对路径STATUS=(subprocess.check_output("grep -a \'TEXT\‘“+str(FILE_PA

浏览 6提问于2022-11-10得票数 0

回答已采纳

4回答

使用bash shell自动中断由关键字分隔的by行的最快方法是什么？

perl、bash、shell、sed、awk

例如，给定a11b12c22d322 e...字段为数字或空格的行，我们希望将其转换为bd...谁能解释一下grep、tr、Awk、perl和python在读取大文件时是如何操作内存的？它们一次读入内存的内容是什么，有多少内容？

浏览 2提问于2013-01-28得票数 4

回答已采纳

1回答

在序列化程序Django中验证文件扩展名的安全方法

django、image、django-rest-framework

我创建了一个可以存储产品图像的应用程序。在数据库中，我只存储指向指定文件夹中的图像的方向。在我的序列化程序中，我需要验证文件名，并检查扩展名是否为照片扩展名。我在下面写了这样的东西，这是检查它的最好方法吗？有没有更安全的方法？ ALLOWED_IMAGE_EXTENSIONS = ["png", "jpg", "jpeg", "bmp", "gif"] class Meta:

浏览 10提问于2021-09-04得票数 1

3回答

计数字出现在非常大的文件中(内存在运行时耗尽) grep* -o foo \ wc -l*

grep、large-files、word-count

高达300 or左右(40000次)的事故做得很好但超过这个尺寸，我就会“记忆枯竭”。

浏览 3提问于2014-07-10得票数 3

回答已采纳

1回答

在python中从多个urls检查文件下载持续时间的最好方法(线程或异步)？

python、multithreading、asynchronous

我想使用我的整个带宽从每个文件下载，我应该使用多线程还是协同例程，或者只是简单的老式同步方式？为什么？

浏览 17提问于2016-08-11得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云