对于非常大的文件，grep和pandas TextFileReader哪个更快？

文章/答案/技术大牛

发布

1回答

python、pandas、grep

我需要在一个无法加载到内存或创建数据帧的非常大的文件中搜索特定的正则表达式。在这种情况下，grep和在TextFileReader上迭代哪个更快？遗憾的是，我没有时间学习、配置和运行Hadoop。

浏览 4提问于2016-08-16得票数 1

回答已采纳

4回答

比较awk和grep

awk、grep

对于一个非常大的文件，我运行了以下两个命令执行死刑花费了几

浏览 0提问于2015-11-04得票数 4

2回答

javascript和php中字符串和数组的处理速度，数组可以不经过操作就传递给php吗？

php、javascript、arrays、string

在php和JS (或任何其他语言)中，通常哪种格式处理或搜索文本(对于非常大的数组或文本字符串)更快。示例：使用哪个更快的搜索来查看xyz是否存在/匹配？在确定xyz的索引位置时，哪个更快？ <

浏览 0提问于2011-09-09得票数 2

回答已采纳

2回答

使用正则表达式高效地搜索IP地址

regex、grep、zgrep

我想找到最有效的正则表达式来在一次搜索中找到三个IP地址，但我不确定是否有更有效(更快)的语法可以使用。我试着一次搜索一个地址，但我很好奇是否有更快的方法。我真的只是想知道是否有更快的语法可以使用。

浏览 42提问于2019-05-25得票数 1

2回答

存储大文本的字符串与向量

c++、text、storage

对于数据压缩，我需要打开文件(这里是文本文件)，并将其所有内容存储在变量中。使用字符串或字符向量来存储非常大的文本(数百万个或更多字符)哪个更好？所谓更好，我的意思是更快地遍历每个字符，并且更快地使用count函数来计算给定字符在文本中出现的次数。大小在这里并不是问题，因为字符串和向量都可以存储大量字符，如果有必要，我可以将文本分解为几个子文本。

浏览 0提问于2017-02-20得票数 0

2回答

指定文件名模式的递归Grep

grep、find

可以使用递归搜索和给定的文件模式进行搜索吗？find ./ -name "*.[c|h]" -exec grep -Hn PATTERN {} \;grep -Hn -r PATTERN *.c 它只查找当前目录中的*.c文件，而不是递归查找。我发现了这一点，但它没有提到指定文件名：-

浏览 0提问于2017-01-12得票数 2

5回答

用于Pandas和/或Numpy的读写操作的最快文件格式

python、numpy、pandas

我在非常大的DataFrames中工作了一段时间，我一直使用csv格式来存储输入数据和结果。我注意到，在读取和写入这些文件时花费了大量时间，例如，这些文件大大减慢了数据的批处理速度。我想知道文件格式本身是否相关。是否有更快读取/写入Pandas DataFrames和/或Numpy数组的首选文件格式？

浏览 9提问于2014-04-08得票数 33

回答已采纳

1回答

管理MySQL数据的最快方法是什么？pandas vs fetch_row

python、mysql、python-3.x、pandas、mysql-python

我想知道我从MySQL得到的管理数据的常用和更好的方法是什么。passwd="####", db="####", charset='utf8')result = db.use_result()df = pd.rea

浏览 1提问于2018-04-02得票数 1

2回答

gz文件中的几个字符串

bash、grep、gunzip

从匹配第二个文件中多个字符串的非常大的gz文件中提取行的最佳方法是什么？我试过了，它适用于字符串和周围环境：

浏览 0提问于2017-11-06得票数 1

回答已采纳

4回答

用于重置数组索引的array_merge与array_value

php、arrays、indexing、array-merge

我发现和函数都可以完成这项工作( array_merge函数不需要两个数组即可工作)。对于非常大的数组，哪个更快？我会对此进行基准测试，但我不知道如何实现，也还没有大型数组。

浏览 0提问于2010-05-31得票数 7

回答已采纳

2回答

Julia Dataframes vs Python pandas

python、pandas、dataframe、julia

我目前正在使用python pandas，我想知道是否有一种方法可以将熊猫的数据输出到julia Dataframes中，反之亦然。(我想你可以用Pycall从Julia调用python，但我不确定它是否能处理数据帧)有没有办法从python调用Julia并让它接收panda的数据帧？(不保存为其他文件格式，如csv) 什么时候使用Julia Dataframes比使用Pandas更有优势，除了非常大的数据集和运行许多循环的东西(比如

浏览 0提问于2014-04-27得票数 16

回答已采纳

3回答

找到定义C/C++函数/宏的文件比“grep”更简单的方法

c++、c、emacs

我开始做一个有C和C++文件音调的大型项目，这已经是别人写的了。是否有任何更快/更简单的方法可以在除grep -r之外的哪个文件中定义宏或函数？有点长。在某些IDE中，有一种神奇的东西，比如右击和“进入定义”。但我现在用的是emacs。我不知道是否有任何定制可以做到这一点？每次，我必须复制我的终端中的名字，运行一个<

浏览 0提问于2018-10-08得票数 2

回答已采纳

2回答

通过剥离前n行来创建csv文件的副本

python、powershell

我有一组巨大的csv文件(每个大约30 in )，在前2行有乱码的标题(这个数字是可变的)。我想剥离这些标题行并创建一个干净的文件副本。我尝试使用以下Powershell脚本首先获取原始文件中的行数，然后运行tail命令将这些行(减去标题)写入新文件。然而，我认为tail命令试图读取内存中的所有内容，对于非常大的文件，机器在一个小时后变得没有响应

浏览 2提问于2020-11-13得票数 0

3回答

如何使用pandas在用户输入后打开.csv文件？

python、pandas、python-2.7

我对Python非常陌生，这将是一个非常基本的问题。我希望用户输入csv文件的名称，我希望使用pandas打开该文件，以便轻松地访问其行和列。这是我写的代码： import pandas as pd dataset = pd.read_csv(DATAFIN) dataset.head() 然而，我似乎在做一些错误的</e

浏览 36提问于2021-01-13得票数 0

5回答

使用grep* vs awk*

linux、awk、grep、performance

要捕获特定的模式，可以使用awk和grep。我们为什么要用一个而另一个呢？哪个更快，为什么？如果我有一个日志文件，并且我想获取一个特定的模式，我可以执行以下操作之一或 grep 'pattern' /var/log/messages很高兴知道这两种工具的</

浏览 0提问于2013-08-28得票数 26

回答已采纳

1回答

如何通过Vi或gedit查看巨大的文本文件

text-editor

我已经通过wordlist.txt生成了一个11 GB的crunch-3.6。当我尝试用Vi或gedit打开文件时，由于文件大小，我遇到了问题。如何查看此文件？

浏览 0提问于2017-11-09得票数 27

回答已采纳

1回答

set_value和=在熊猫中有什么区别？

python、pandas

在编写pandas中的数据文件时，我们看到我们有几种方法可以实现它，就像和提供的那样。哪个更快？要么是副本？

浏览 1提问于2017-04-26得票数 2

回答已采纳

2回答

递归目录中的快速字符串替换

replace、recursive

如何用递归目录和带有空格和单引号的文件名替换快速文本？最好使用标准的UNIX工具，或者是众所周知的软件包.对于许多文件来说，使用find非常慢，因为它会为每个文件生成一个新的进程，因此我正在寻找一种将目录遍历和字符串替换集成为一个操作的方法。find .-name '*.txt' -exec grep foo {} \; 快速搜

浏览 0提问于2018-03-29得票数 0

回答已采纳

2回答

如何在pandas中读取非常大的制表符分隔文件

python、pandas

我需要在pandas中读取一个非常大的文件，并添加一个新列。因为这个文件对于我的系统来说太大了(7500万行，超过3 3GB)，所以我决定分块读取。我知道skipfooter和skiprows，但是虽然skiprows似乎可以工作，但我对skipfooter有问题。例如，当我尝试：我的系

浏览 0提问于2017-01-07得票数 0

2回答

哪个更高效: ls -l ABC * vs ls -l | grep ABC*

linux、bash、unix

至少有两种方法可以做同样的事情:) ls -l *ABC*和ls -l | grep ABC 但是哪一个更有效呢？还有没有其他更高效的？

浏览 2提问于2017-11-02得票数 0

点击加载更多