并行读取一个大文件系统_并行读取大文件系统_c 并行读大文件系统 - 腾讯云开发者社区

、

我正在从用户模式应用程序将一个大文件写入磁盘。与此并行，我正在编写一个或多个较小的文件。大文件不会在短期内被读取，但是小文件可能会被读取。我有足够的RAM用于应用程序+较小的文件，但对大文件不够。我能否告诉操作系统，在将部分大文件写入磁盘后，不要将它们保存在缓存中，这样就可以为较小的文件提供更多的缓存？我仍然希望写入大文件的速度足够快。

浏览 5提问于2020-09-21得票数 0

回答已采纳

1回答

用大型过滤器过滤大文件

、、、、

出乎意料地，这个命令消耗大量的内存并被操作系统杀死。如果限制线程数，则该命令可以工作：对于最后一个命令，htop显示每个grep -Ff $file2

浏览 0提问于2019-02-14得票数 3

回答已采纳

2回答

如何在while循环中使用grep命令时使用并行

我有一个包含所有搜索字符串的文件，我从该文件中获取所有字符串，并将它们逐个添加到另一个文件中，现在这需要很长时间才能实现并行命令。line2" >> exclusion_list_$.txt fi我在想，也许把所有的内部命令都放在一个函数中，然后并行地调用这个函数。

浏览 0提问于2020-07-30得票数 1

回答已采纳

3回答

计数字出现在非常大的文件中(内存在运行时耗尽) grep -o foo \ wc -l

、、

在本例中，我有一个1.7GB的xml文件，并试图快速计算其中的一些内容。我发现这篇文章是的，这种方法在一定的范围内适用于我。

浏览 3提问于2014-07-10得票数 3

回答已采纳

2回答

在java中处理大文件

、、

我有一个大约10 GB的大文件。我必须在Java中对文件进行排序、过滤等操作。每个操作都可以并行完成。目前，我正在串行执行操作，大约需要20分钟来处理这样的文件。谢谢,

浏览 6提问于2012-03-15得票数 8

回答已采纳

1回答

HDFS并行读取大文件

、

我想从我有5个节点的hadoop集群中读取一个500 my大小的大文件。我可以并行读取这些块，还是必须逐个读取这些块？

浏览 0提问于2015-01-23得票数 1

6回答

并行读取大文件？

、、

我有一个很大的文件，我需要阅读和制作一本字典。我希望这个能尽快完成。但是，我在python中的代码太慢了。下面是一个很小的例子，说明了这个问题。先做些假数据现在，这里有一个很小的python代码来读取它并制作一个字典。real 0m1.702s 我的CPU有8个核心，能不能在python中并行化这个程序来加速它？一种可能的方法是读取</em

浏览 8提问于2013-08-07得票数 23

回答已采纳

1回答

如何测量文件(硬盘) I/O的特性？

、、、

例如，在具有硬盘(具有速度X)和cpu i7 (或任何数目的核)和Y数量的ram (具有Z Hz BIOS)的机器上，(在Windows上)将是什么：如果以前有这

浏览 6提问于2011-01-28得票数 1

4回答

并发读取文件(首选java)

、、、

我有一个大文件，需要几个小时才能处理。因此，我正在考虑尝试估计数据块并并行读取数据块。是否可以对单个文件进行并发读取？

浏览 0提问于2012-08-08得票数 27

1回答

xargs -P使标准输出混乱

、、、

我试图实现并行查找，以减少大文件系统遍历时间：运行良好，但五个(-P5)“查找”进程并行运行，弄乱了它们的输出，因此字符串有时会断开。这应该是аxargs的常见问题，但似乎没有人使用它的并行特性。

浏览 0提问于2014-11-30得票数 2

2回答

(在Windows上复制和粘贴数百个GBs到同一个驱动器，平均约为2,5GB/s，因此我认为CDM与实际值相差不远。)一个简单的dd if=/dev/nvme0n1 of=/dev/null bs=1M count=10k只报告1.5GB/s。在另一个NVME (都是海盗部队MP600 1TB) dd报告1.4GB/S。我希望这样的顺序访问是从任何存储设备读取的最好的情况，所以我真的不知道这里发生了什么。注意:如果我没有弄错的话，CrystalDisk

浏览 0提问于2020-04-30得票数 4

回答已采纳

1回答

在完成函数本身的所有操作之前，Node是否可以从函数调用中返回一个值？

、、

我很难理解Node是如何进行并行处理和从函数调用中返回值的。仅供参考:下面的gulp函数只是作为这个问题的一个示例创建的。函数有没有可能在Read a large file语句完成处理之前返回流(大文件已从文件系统完全读取，流已被添加)，或者节点是否足够智能，可以在返回之前完成所有语句？

浏览 0提问于2017-02-07得票数 0

1回答

如何使用hadoop流和ruby映射器/缩减程序设置分布式map-reduce作业？

、、

不过，我对分布式系统的行为并不清楚。对于生产系统，我在两台机器上设置了一个HDFS。我知道如果我在HDFS上存储一个大文件，它在两台机器上都会有一些块，以允许并行化。另外，我如何开始实际运行流作业，以便它在两个系统上以并行方式运行？

浏览 2提问于2012-04-30得票数 0

回答已采纳

1回答

使用多线程读取30文件

、

我正在尝试读取一个30 25(2500万行)的大文件。我想写一个代码，它将创建一个线程池，每个线程将并行读取1000行(第一个线程将读取第一个1000行，第二个线程将读取下一个1000行，依此类推)。我已经读取了整个文件并创建了线程池，但现在我被困在如何确保每个线程只读取1000行，并跟踪已读取的行号以便下一个

浏览 0提问于2016-07-08得票数 1

1回答

S3并行读写性能？

、、、

考虑一个场景，其中Spark (或任何其他Hadoop框架)从S3读取一个大文件(比如1TB)。多个火花执行器如何从S3并行读取非常大的文件。在HDFS中，这个非常大的文件将分布在多个节点上，每个节点都有一个数据块。在对象存储中，我假定整个文件将位于单个节点(忽略副本)。这将大大降低读取吞吐量/性能。类似地，HDFS中的大文件写入也应该比S3快得多，因为HDFS中的写入将分布在多个主机上，而所有数据都必须通过S3中的

浏览 2提问于2019-01-15得票数 12

回答已采纳

1回答

M正则表达式的GNU并行n行

、、

GNU并行M正则表达式的n行示例声明如下：如果CPU是限制因素，那么应该在regexp上进行并行化: cat regexp.txt _ -L1000 -管道-L1000-循环循环grep -f --这将启动每个CPU一个grep，并且每个CPU读取一次大文件，但由于这是并行进行的，除第一个读取之外，所有读取都将在内存中缓存。因此，在这个实例中，GNU parallel循环在并行grep实例上运行来自regex.tx

浏览 0提问于2014-10-03得票数 4

回答已采纳

3回答

如何与Python并行读取/处理大型文件

、、

我有一个大文件(几乎是20GB )，超过20百万行，每一行代表单独序列化的JSON。我使用Python3.6.X

浏览 0提问于2018-06-01得票数 5

1回答

unixODBC可以处理的最佳进程数是多少？

、、、、

我的应用程序过去常常从大文件的不同部分读取数据并更新表。数据的每个部分都与一个单独的表相关联。更新过程可以包含多个insert、update和delete语句。我试图将文件分割成多个文件，并运行应用程序的3、4或n个实例来实现并行执行。我希望这能改善我们的表现。 unixODBC能够处理并行的最大(最优)允许的进程是什么？

浏览 4提问于2014-03-10得票数 0

回答已采纳

2回答

服务/ IntentService用于将大型(2GB)文件上载到android服务器

、、

我应该使用什么来将大文件上传到服务器，即服务或intentservice。我觉得Intententservice是上传大文件的正确方法，因为2)不需要停止服务，上传后自动停止。如果我要去服务，我们确实有一些优点提到如下：2)在需要的情况下，可以在并行中执行任务。3)假设在上传操作系统时出现内存不足(OUM)，可以重新创建我们的服务，但是对于IntentService，我们没有这个特权，我想，所以伙计们，请建议你的观点

浏览 2提问于2018-03-23得票数 1

回答已采纳

3回答

hadoop是否并行地创建InputSplits？

、、、

我有一个大约13 of大小的大文本文件。我想使用Hadoop处理文件。我知道hadoop使用FileInputFormat来创建分配给映射任务的InputSplits。我想知道hadoop是按顺序还是并行地创建这些InputSplits。我的意思是，它是按顺序读取单个主机上的大型文本文件，然后创建拆分的文件，然后分发给datanodes，还是并行读取块(例如50 in )？hadoop是否在多个主机上复制大文件，然后再将其拆分？

浏览 2提问于2015-08-27得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

告诉Linux在将文件写入磁盘时不要将其保存在缓存中。

用大型过滤器过滤大文件

如何在while循环中使用grep命令时使用并行

计数字出现在非常大的文件中(内存在运行时耗尽) grep -o foo \ wc -l

在java中处理大文件

HDFS并行读取大文件

并行读取大文件？

如何测量文件(硬盘) I/O的特性？

并发读取文件(首选java)

xargs -P使标准输出混乱

NVME SSD在Linux上性能缓慢

在完成函数本身的所有操作之前，Node是否可以从函数调用中返回一个值？

如何使用hadoop流和ruby映射器/缩减程序设置分布式map-reduce作业？

使用多线程读取30文件

S3并行读写性能？

M正则表达式的GNU并行n行

如何与Python并行读取/处理大型文件

unixODBC可以处理的最佳进程数是多少？

服务/ IntentService用于将大型(2GB)文件上载到android服务器

hadoop是否并行地创建InputSplits？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐