在循环中以块为单位读取大型文本文件

文章/答案/技术大牛

发布

1回答

、、、

我试图逐行逐块地读取它，因为它不能加载到内存中。read lines 201:300...如果我可以指定要读入的确切行，我可以在循环中这样做例如，如果文件包含1000行：跳过第一个100，最后一个800将在101-200中读取

浏览 3提问于2019-07-15得票数 0

1回答

以块为单位读取大型文本文件

如果我能够一次读取文件，例如10K行，然后将每个块保存为RDS文件，我将能够循环结果并获得我需要的结果，尽管只是稍微慢一点，比在内存中保存整个内容更不方便。也许通过将其分成多个片段并读取每个片段，将其保存为数据帧，然后将其保存到rds？或者其他选择？

浏览 5提问于2018-10-08得票数 0

1回答

Python:以块为单位读取大型CSV

要求:以块为单位读取大型CSV文件(>100万行) 问题:有时，即使文件具有唯一的行，生成器也会生成两次相同的行集。但在一些运行中，它看起来很好，没有重复看起来我在代码中遗漏了什么，我不能弄清楚我想确保它不会一遍又一遍地产生具有不同内容的相同对象代码： def gen_chunks(self,reader, chunksize

浏览 13提问于2020-09-30得票数 0

1回答

在大型二进制文件(2 GB或更大)中使用regex搜索字符串

、、、

使用正则表达式在大型二进制文件(2 GB或更大)中搜索(多个)字符串的最佳方式是什么？A我如何搜索二进制数据？一个简短的例子是非常感谢的。

浏览 0提问于2015-03-15得票数 4

1回答

Python读取大型文本文件的最快方法(几GB)

、、、、

我有一个很大的文本文件(~7 GB)。我正在寻找是否存在读取大型文本文件的最快方法。我一直在读一些关于使用几种方法来逐块读取以加快进程的文章。在示例中建议 lines = file.readlines(在循环中使用它将以n行的形式给出文件

浏览 0提问于2013-02-19得票数 37

1回答

全, 因此，我将一个文本文件从C#上传到IBM大型机。使用C#库将文件转换为ebcdic，它运行良好，因为我可以读取大型机上的数据。问题是新的路线。文本文件有10行数据，在大型机环境中查看它时，所有数据都是存在的。但是没有新的行，因为它将文本文件中的每一行转换为0D25，即CRLF。此段显示为..。在屏幕上。我不希望这两个点的十六进制读数为0D25，因为我需要它实际上将数据放在下一行，因为它是<em

浏览 3提问于2010-08-30得票数 2

1回答

以块为单位读取文本文件--丢失数据？

、、

我有一个巨大的文本文件，可以在任何地方从2到20 GB。内容是给定查询列表的结果列表。我试图将它以块的形式发送到我的“parse”脚本中，因为我需要将每组结果读取到内存中，以便我可以对它们进行索引操作。

浏览 3提问于2014-11-17得票数 0

1回答

从大型request_body中以块为单位读取数据

、、、

如何以块的形式阅读这个“img_data”？

浏览 34提问于2020-06-09得票数 0

回答已采纳

3回答

处理大型SQL select查询/以块为单位读取sql数据

、、、

我正在运行一个大型SQL select查询，它返回数百万个结果，并且需要很长时间才能完全运行。有人知道如何在不等待整个查询完成的情况下只读取查询返回的部分结果吗？换句话说，我希望在查询仍在运行并获得下一个结果的同时，通过10,000个记录块读取第一个记录。

浏览 1提问于2011-04-20得票数 9

回答已采纳

3回答

ExtAudioFileOpenURL泄漏

、、、、

我正在打开一个音频文件来读取它，每次我都会从这个调用者那里得到一个废弃的malloc块。在一个循环中，我设置了这样的数据(在仪器中标记为内存使用率为99.7%) data = (short*)malloc(kSegmentSize*sizeof(short));仪器跟踪：

浏览 22提问于2013-03-18得票数 2

回答已采纳

3回答

hadoop是否并行地创建InputSplits？

、、、

我有一个大约13 of大小的大文本文件。我想使用Hadoop处理文件。我知道hadoop使用FileInputFormat来创建分配给映射任务的InputSplits。我的意思是，它是按顺序读取单个主机上的大型文本文件，然后创建拆分的文件，然后分发给datanodes，还是并行读取块(例如50 in )？hadoop是否在多个主机上复制大文件，然后再将其拆分？是否建议我将文件分割成50 to块以加快处理速度？对于映射器任务的适当拆分大

浏览 2提问于2015-08-27得票数 1

回答已采纳

2回答

C:如何正确地从.txt文件中输出结构？

但是，当文本文件显示时，它如下所示：记录2:年龄: 23相反，我希望它按如下方式阅读： Age: 23

浏览 0提问于2013-02-25得票数 0

回答已采纳

1回答

流并从AWS Node.JS压缩到S3

、、、、

我的目标是创建一个大型goal文本文件并将其放入S3中。由于该文件的大小，我无法将所有数据保存在内存中，因此需要同时将其直接流到S3和ZIP。我理解如何使用常规的fs在Node.JS中执行这个技巧，但我不知道是否可以使用AWS中的S3执行同样的技巧？我知道s3.putObject streamObject，但在我看来，在执行putObject操作时，这个流应该已经完成，什么会导致超出允许的内存。

浏览 2提问于2017-10-18得票数 5

1回答

我需要写一个python程序来打印从较大尺寸的文本文件中输入的重复次数的单词

需要写一个python程序来打印“在较大尺寸的文本文件中重复的单词，给输入一个数值”。示例task.txt苹果篮苹果橙子苹果篮柠檬篮文本文件包含以空格分隔的不同单词 my python program string = f.readnumber :3apple basket 代码工作正常，但问题是如果文件大小为</

浏览 10提问于2021-02-05得票数 0

2回答

如何在Swift中处理来自C语言的缓冲字符串？

、、、

我正在使用libxml2的sax解析器来读取大型xml文件。大多数回调处理程序都提供了一个以NULL结尾的字符指针。使用String.fromCString，这些字符串可以在Swift中转换为常规字符串。但是，sax使用缓冲区来读取字节，因此可以使用字符串的一部分(即缓冲区的大小)来调用其中一个回调(characters)。这个部分字符串甚至可能在Unicode代码点的中途开始/结束。回调将被多次调用，直到提供了完整的字符串(以块为单

浏览 22提问于2015-12-19得票数 3

2回答

Azure函数通过http触发器请求以块为单位读取大文件

、、

我在Azure函数中有一个API，它使用Http触发器接收数据并将其发送到本地应用程序。我们有UI前端，在那里用户可以上传大文件大小(没有限制)，这将发送数据块到API。然而，对于同步进程，我们希望通过API实现这一点(避免在中间进程中将数据存储在blob存储中)。有没有办法通过Http触发器请求接收分块数据？例如: UI ->以块为单位发送数据-> API (使用HttpTrigger)读取数据块并以

浏览 12提问于2021-07-14得票数 1

2回答

Asp.net c# sql server以块的形式读取二进制sql字段数据。

、、、

在我的数据库中，我们有一个varbinary字段，它以字节为单位存储文件内容。因为文件很大，一次读取所有内容会导致超时，所以我希望以块的形式读取数据，就像我们在sql中有write函数来使用块写入数据一样。谢谢

浏览 0提问于2012-06-14得票数 2

2回答

计算我的阅读速度

挑战输入用户发出的开始和结束信号，单击或按下您选择的某个键。输入文本块。上面定义的用户的读取速度。读取速度值可以在元post找到

浏览 0提问于2017-03-10得票数 -2

回答已采纳

2回答

matlab中的大型数据文件不能加载/导入

、、

这里有人能解释一下，如果最大可能的数组大小是19.6 GB，那么为什么matlab在导入大约3 GB的数据数组时会抛出内存错误。如果这对有经验的人来说是一个简单的问题，我很抱歉，因为我在进程/应用程序内存管理方面几乎没有经验。谢谢。

浏览 2提问于2012-10-10得票数 2

3回答

Python 3:将x表示为字节数

、

我有一个python3脚本，它用以下命令将数据读入缓冲区 fp = open("filename", 'rb')# then later... inside a loop for ...我想以字为单位(也就是2字节块)遍历read()返回的对象。目前，脚本包含了这样的for循环 f

浏览 7提问于2021-03-24得票数 1

点击加载更多