linux大文件分割与合并_linux 大文件分割_linux将大文件分割 - 腾讯云开发者社区

、、、

我们正在使用spring批处理和spring集成实现一个远程分区作业。对于这项工作，我们将得到一个大文件，我们使用unix命令分割该文件，并使用这些文件运行批处理。是否有方法可以为大文件编写自定义分区逻辑而不分割文件。请帮助某人..。提前谢谢。 -MK

浏览 2提问于2014-12-01得票数 1

回答已采纳

1回答

使用Python &nntplib将大文件发布到usenet :如何拆分大文件？

、、

我对uBackup很感兴趣，它使用Usenet来备份大文件。我认为使用python是个好主意，但我在理解发布大文件的正确协议时遇到了问题。我知道你需要压缩你的文件，最好把它们分成更小的部分。但当你真正将文件上传到usenet时，它会对它们进行yencode，并将它们分割成更小的部分(因为每篇文章的大小都是有限的)。但是，大文件实际上是如何以这种方式拆分成较小的部分的呢？

浏览 5提问于2011-04-12得票数 0

1回答

unixODBC可以处理的最佳进程数是多少？

、、、、

我的应用程序过去常常从大文件的不同部分读取数据并更新表。数据的每个部分都与一个单独的表相关联。更新过程可以包含多个insert、update和delete语句。我试图将文件分割成多个文件，并运行应用程序的3、4或n个实例来实现并行执行。我希望这能改善我们的表现。问题： unixODBC能够处理并行的最大(最优)允许的进程是什么？环境:红帽Linux 64位，C++，unixODBC (32位)，OTL，Oracle 10,11

浏览 4提问于2014-03-10得票数 0

回答已采纳

1回答

用POI读写非常大的pptx文件

、、

我们在项目中使用Apache (版本3.9)创建PowerPoint (pptx)文件。但是，其中一些会变得非常大(2000+幻灯片中每张幻灯片上都有很多形状)，因此生成的GC overhead limit exceeded会产生错误。堆空间大小不在我们的控制范围之内，因为我们只为RCP的父应用程序开发了一个插件。有办法写(读)这么大的文件吗？我们在Excel文档中使用了流API，取得了很大的成功，而pptx却没有流API。我的第一个想法是将大文件(关于创建)分割成更小的块，这样可以工作。但是，不可能将这些文件合并到一个大文件中(在POI现在读取大文件时再次获得GC错误)。我在谷歌上搜

浏览 4提问于2016-03-08得票数 0

回答已采纳

1回答

fix在虚拟内存管理中的VMA操作中意味着什么？

、

我在读戈尔曼写的“理解Linux虚拟内存管理器”。在第四章进程地址空间中，当引入VMA操作(例如创建、锁定和解锁)时，文本中提到“修复区域”。“修理”具体是什么意思？它是否同样适用于不同的VMA操作？详细报价： Linux可以通过系统调用mlock()将地址范围的页面锁定到内存中，系统调用mlock()是由sys_mlock()实现的，其调用图如图4.10所示。在较高级别上，该函数很简单；它为要锁定的地址范围创建一个VMA，在其上设置VM_LOCKED标志，并强制所有页面都使用make_pages_present()。还提供了映射到sys_mlockall()的第二个系统调用mlockal

浏览 0提问于2021-08-11得票数 1

回答已采纳

1回答

如何分割CSV或JSON文件以获得最佳的雪花摄取？

、、、

雪花建议在进食前分割大文件：为了优化一个负载的并行操作的数量，我们建议产生大约100到250 MB (或更大)大小压缩的数据文件。分割我的大文件并压缩它们的最好方法是什么？

浏览 3提问于2021-08-09得票数 4

回答已采纳

1回答

mhddfs不支持文件拆分。如果文件大小超过单个存储设备的限制

、、、、

我正在使用mhddfs组合多个驱动器，通过网络安装使用NFS。有三台机器 Server Name Dir Space Server 1 /home 10 GB Space Server 2 /home 10 GB Space Server 3 /home 10 GB Space 使用NFS，我挂载了以下内容： Server 1 /home to Server 3 /home/mount1 Server 2 /home to Server 3 /home/mount3 然后使用mhddfs合并或统一mount1和挂载2。 mhddfs /home/serv

浏览 1提问于2013-10-31得票数 0

回答已采纳

3回答

自定义并行提取器-U

、、

我尝试创建一个自定义的并行提取器，但是我不知道如何正确地实现它。我有一个大文件(超过250 MB)，每一行的数据存储在4行中。一个文件行存储一个列的数据。这有可能为大型文件创建并行提取器吗？恐怕一行的数据，在文件分割后会有不同的程度。示例： ... Data for first row Data for first row Data for first row Data for first row Data for second row Data for second row Data for second row Data for second row ... 对不起我的英语。

浏览 2提问于2016-04-01得票数 0

回答已采纳

2回答

按偏移量引用拆分/引用大文件

、

split将文件分割成碎片，这些碎片总共占用相同的存储空间(将消耗的磁盘空间加倍)。 ln可以创建到其他(目标)文件的符号链接(符号链接)，同时不复制该文件，因此不会占用目标文件的两倍空间。由于缺乏存储空间，一个文件是否可以通过引用/象征性地分割(即实际上分割文件)来指向大文件中的特定偏移量？例如，给定一个2MB的文件将其分解为2块，其中每个片段引用大文件的1mb (在符号链接工作的相同概念中)，这样每个片段：不重叠其他部分(片段将不引用大文件中的相同数据) 不使用与它引用的大文件部分相同的存储大小。 piece_1.file -> 2mb.file 1st MB piece_2.

浏览 0提问于2023-03-14得票数 9

回答已采纳

4回答

当我使用ofstream时，我如何知道我已经达到了文件的最大大小？

、

在使用ofstream写入文件时，我如何知道文件大小何时达到操作系统的最大文件大小--更确切地说，是linux的最大文件大小?？

浏览 5提问于2008-09-25得票数 3

回答已采纳

1回答

如何高效地读取和绑定大型CSV文件？

、

我有20个大的CSV文件(每个100-150MB)，我想在R中加载它们，并将它们重新绑定到一个大文件中，然后执行我的分析。读取每个CSV文件仅在一个内核上执行，大约需要7分钟。我使用的是64位8核linux，内存为16 be，所以资源应该不是问题。有没有更有效地执行这个过程的方法？我也对其他(开源linux)软件(例如，在不同的程序中绑定CSV文件并在R中加载)或任何可以使此过程更快的东西持开放态度。非常感谢

浏览 2提问于2012-09-06得票数 2

回答已采纳

1回答

通过FFMPEG重新编码

、、

如何在拆分文件时运行此命令，但如何将其重新编码为MP4，如前面的帖子所示？当分割文件时，我如何避免占用系统的资源(特别是如果它是一个大文件)？

浏览 0提问于2015-07-07得票数 0

6回答

如何将较大的文件分割成较小的部分？

、、

我有一个大文件(例如8GB)。我如何将它分割成多个部分，比方说3个相等的部分，然后如何在以后集成它们？

浏览 0提问于2011-07-26得票数 218

回答已采纳

2回答

使用winHttpApi或套接字发送大文件是否明智？

、、、、

我需要使用HTTP协议发送文件，但问题是我是否应该使用套接字，因为我有大文件？或者我可以使用WinHttpApi，如下所示： BOOL HttpSendRequest( __in HINTERNET hRequest, __in LPCTSTR lpszHeaders, __in DWORD dwHeadersLength, __in LPVOID lpOptional, __in DWORD dwOptionalLength ); 并使用我想要的文件的lpOptional？我应该分离文件还是这个API处理大文件？如果我使用HTTP，对文件大小有限制吗?我应该对

浏览 0提问于2012-01-15得票数 1

回答已采纳

1回答

如何在多台计算机上分发大量下载？

、、

我需要下载一个大文件(1GB)。我还可以访问多台运行Linux的计算机，但每台计算机都被管理策略限制为50 is /S的下载速度。如何在多台计算机上分发下载此文件，并在下载完所有段后将它们合并，以便更快地接收该文件？

浏览 0提问于2014-08-31得票数 39

回答已采纳

2回答

通过浏览器上传大文件(100 GB)

、、

有没有办法通过网络浏览器上传大文件(大于80 Gb)？以前我一直在用plupload上传文件(img，png，jpg)，但它似乎不适用于更大的文件。我也想知道如何实现一个网页，用户可以上传像Mega.co.nz或Drive.google.com。如果使用web开发工具是不可能的，有人能指导我如何分割和上传一个文件吗？谢谢。

浏览 0提问于2014-10-08得票数 5

回答已采纳

3回答

如何使用一些Linux命令复制一个大文件的前几行，并在其末尾添加一行文本？

如何使用一些Linux命令复制一个巨大文件的前几行，并在其末尾添加一行文本？

浏览 3提问于2009-08-25得票数 105

回答已采纳

2回答

多cpu核心gzip一个大文件

、、、

如何通过OpenVZ使用服务器中的所有cpu核心(有4个核心) linux Debian到gziping更快的一个大文件我正在尝试使用这些命令，但我不能把这些部分放在一起。获取CORES=$(grep -c '^processor' /proc/cpuinfo)核数这用于在更多的split -b100 file.big中拆分大文件这是用于多核心find /source -type f -print0 | xargs -0 -n 1 -P $CORES gzip --best的gzip命令。我不知道这是否是优化大文件gzip处理的最佳方法。

浏览 6提问于2014-06-24得票数 1

回答已采纳

1回答

Linux按块分割大文件

我有一个大文件(15 in )位于我的主机。我想把这个文件分割成200 of的块。目前，我使用： split -a 3 -d -b 200MB my_big_file /tmp/chunk_ 问题是，现在我只有10 7GB的空闲空间，我想用偏移量来分割它，这意味着第一步是从大文件7GB读取，使用split拆分它，删除拆分的文件，然后从7GB拆分到15GB。我该怎么做呢？

浏览 3提问于2022-05-26得票数 0

回答已采纳

3回答

bash -拆分，但只使用某些数字

、

假设我想将一个大文件分割成文件，例如，其中有50行 split <file> -d -l 50 prefix 但是，如何使这一点忽略<file>中的第一个m行和最后一个m行呢？

浏览 6提问于2016-10-19得票数 1

回答已采纳

2回答

有没有一种方法可以把一个大文件分成随机大小的块？

、

我知道您可以使用split拆分文件，但出于测试目的，我想将一个大文件拆分成大小不同的块。这个是可能的吗？或者，如果上面提到的文件是一个压缩文件，有没有办法将它分割成大小不等的卷？欢迎任何建议！谢谢!

浏览 3提问于2013-04-16得票数 0

回答已采纳

2回答

如何打开.001 .002 .003和.r01 .r02 .r03 RAR文件

、、、、

WinRAR与Linux rar相同吗？附加功能？缺失的特征？处理文件的特殊方式？软件可用于Microsoft (名为WinRAR)、Linux. -wikipedia 上下文是文件是分裂的：有时，您会下载一个大文件，发现您的文件夹中满是.001 .002 .003或.r01 .r02 .r03文件，而不是您想要的单个文件。这些文件是分割RAR存档的一部分。就像压缩文件一样，RAR文件是您下载的压缩版本。它不是在一个文件中传输，而是分散在这几个文件上--通常是为了加快下载速度，或者为了适应商业文件存储主机的文件大小限制。我不是在问如何处理unrar文件。我的问题是:为什么这些文件被命名为

浏览 0提问于2018-12-29得票数 1

回答已采纳

1回答

是谁在hadoop分文件的？是工作追踪者吗？

、

我想知道当客户端将数据存储到hdfs中时，谁来执行将大文件分割成更小块的任务？客户端是否直接将数据写入DataNodes？如果是这样，数据何时被分割成64 MB或128 MB？

浏览 0提问于2014-06-27得票数 1

回答已采纳

2回答

ZFS离线冗余软件

、、

我有一个300 to的Freenas服务器来备份几个linux节点。备份适用于每日快照和rsync任务。用户经常在服务器之间移动大数据集(2-5TB) --所以大文件常常在多个服务器上备份几次。在线去重复太贵了(1,5TB内存.)，那么有没有任何离线去复制软件呢？我的意思是，这些文件确实有相同的名字和相同的访问时间-- fdupes只需很小的努力就能认出它们是相同的.

浏览 0提问于2019-08-20得票数 5

1回答

当MySQL表变得非常大时会发生什么？

、、

我正在做一个项目，我担心桌子的大小限制。如果一个表变得太大，以致于操作系统的最大文件大小。Windows为每个文件2GB。 MySQL是否将数据从表中分割成两个文件？我正在查看我的WAMP安装中的数据，现在每个表都是一个文件: user.frm和user.ibd (这个表根据文件大小存储所有数据)。基本上，如果我查看存储在一个表中的10-50GB大小的数据，MySQL数据库能够处理它吗？编辑：，我最终要将我的项目转移到一个具有相同文件大小限制的Linux服务器上，我假设MySQL在Linux和上的工作方式是一样的。

浏览 5提问于2014-01-21得票数 0

回答已采纳

1回答

将大文件转换为普通文件

、、

我有一个存储库，它的主干不包含任何大文件。在我的工作分支中，我之前添加并提交了一些作为大文件的二进制文件。现在，我不希望它们再是大文件了。我还没有合并到后备箱中。我尝试完全删除文件，然后提交，然后使用hg add --normal添加文件，但这导致我的diff既包含.hglf中的备用文件，也包含二进制文件。有没有办法在不做新的分支和嫁接改变的情况下摆脱支架？

浏览 14提问于2017-11-21得票数 3

2回答

如何删除“文件名太长”。在窗户里。[命令提示符]

、、、

如何在Windows中删除大文件路径/文件名文件。这对Linux -rf来说更糟。？

浏览 3提问于2017-05-20得票数 10

回答已采纳

2回答

根据每个套接字调整MTU？

、、、、

我想知道是否有任何方法(在linux系统上)调优给定套接字的MTU。(使IP层分割成块比实际设备MTU小)。当我说给定的套接字时，我的意思不是在程序的代码中拥有套接字，而是在外部，例如通过sysfs条目。如果目前无法做到这一点，那么您对在linux内核中安装/修补程序实现这种可能性有什么想法吗？谢谢。编辑:我为什么要这么做？我正在做一些第3层第4层(例如:通过TCP隧道的IP及以上隧道)隧道。与VPN类似的解决方案不同，我没有使用虚拟接口来实现这一点。我正在使用iptable捕获数据包，将它们按正常方式丢弃，并将它们写入隧道套接字。考虑到大文件传输的情况，所有数据包都填充到MTU大

浏览 4提问于2010-11-12得票数 3

回答已采纳

1回答

AWS如何对单个文件进行动态框架分区？

、

有人能解释一下AWS Glue如何分割单个大文件吗？如果使用spark.sql.files.maxPartitionBytes将大文件转换为分区，如何在胶水作业中覆盖它？我试过使用sparkConf conf = SparkConf() conf.set('spark.files.maxPartitionBytes',41943040) # 40MB sc= SparkContext().getOrCreate(conf=conf) 我使用的是火花放电。

浏览 2提问于2021-09-23得票数 0

2回答

创建和写入一个大文件比在Linux上创建和写入Python中的许多较小文件更快吗？

、、、

如果在Linux机器上使用Python，下面哪个会更快？为什么？在程序开始时创建一个文件，编写大量的数据(文本)，关闭它，然后在程序的末尾将大文件分割成许多较小的文件。整个程序的跨度，许多较小的文件将被创建，写入和关闭。具体而言，所讨论的程序需要在多个时间步骤中的每一个步骤中记录一个非常大的数组的状态。数组在每个时间步骤的状态需要记录在独立的文件中。我在Linux上使用过C语言，并且知道打开/创建和关闭文件是非常耗时的，而且打开/创建操作的减少意味着更快的程序。如果用Python编写，也是一样的吗？如果仍然使用相同的操作系统，改变语言会有影响吗？我也对RAM在这方面的作用感兴趣。举个

浏览 0提问于2014-08-27得票数 5

2回答

如何在Bash shell中将列拆分为两列

、、、、

我有一个有很多专栏的大文件。我希望在1列中计算每个值的出现数。因此，我使用cut -f 2 "file" | sort | uniq -c。我得到我想要的结果。但是，当我将这个文件读取给R时，它显示出我只有1列，但是数据与下面的示例类似： 123 Chelsea 65 Liverpool 77 Manchester city 2 Brentford 我想要的是两列，一列代表计数，另一列代表名字。不过，我只有一个。有人能帮我把列分割成2或更好的方法从大文件中提取吗？提前谢谢！

浏览 12提问于2022-10-20得票数 0

1回答

python中二值图像的拼接

、、

为了进行文本检测，我分割整个图像以获得更好的结果(所有具有重叠的相同维数的图像)，并生成其掩码(二进制图像)，并将这些分割图像合并成一个完整的图像(与原始图像的维数)。图片：现在，我经常合并所有这些图像，但是没有检测到文本的重叠图像删除了图像中的白色补丁。为了克服这个问题，我了解了OpenCV中的拼接图像，因此我使用这个链接来拼接图像，但是这段代码并不适用于二进制图像。在OpenCV中可以用重叠的二值图像进行拼接吗？

浏览 5提问于2020-11-05得票数 3

回答已采纳

2回答

合并HDFS中的两个拼板文件

、、、

我有一些HDFS格式的parquet格式的文件。我想把这些文件合并成一个大文件。我怎么能这么做？除了文本文件之外，我还做了一些类似于下面的事情。 hadoop fs -cat /input_hdfs_dir/* | hadoop fs -put - /output_hdfs_file 但无法在parquet格式下达到预期的结果。怎样才能达到我的要求？

浏览 5提问于2017-06-06得票数 1

回答已采纳

2回答

WXR切片脚本

、、

我有一个大规模的WXR文件im试图导入到wordpress。当我试图作为一个文件导入时，内存耗尽了，因此我正在考虑如何通过编程将大文件拆分成更小的文件，以及是否有人有脚本可以这样做

浏览 0提问于2011-05-27得票数 1

回答已采纳

1回答

如何在webpack 2中将一个大的子文件分割成一个单独的块

、、、、

我试图导入一个大文件到一个反应项目，是块和丑陋webpack 2。我们的代码被分成块，我们的代码块之一是29 of。我希望从卡盘中排除大文件，并分别加载该大文件。我怎么能把这个大文件和webpack 2分割成自己的块呢？我的档案 reactComponent导入一个js文件，该文件具有将页面导出到PDF的代码。 reactComponent.js -> import createPDF.js 在createPDF中，我导入一个非常大的文件，并将该文件从检查中分离出来。该文件不在node_modules下面。 createPDF.js -> import largeFile.j

浏览 3提问于2019-01-31得票数 0

回答已采纳

1回答

Netty 4.x在不使用HttpObjectAggregator的情况下获取正文数据

、

我有一个问题，如果使用HttpObjectAggregator，我可以从FullHttpRequest获取正文数据，但不能上传大文件(netty return 413代码)。从管道中删除HttpObjectAggregator，因此上传大文件是可以的，但无法获取正文数据。有人能帮我解决这个问题吗？下面是我尝试过的一些配置管道： 1.获取正文数据正常，不能上传大文件 p.addLast(new HttpServerCodec()); p.addLast("agg", new HttpObjectAggregator(1024*1024)); p.addLast(new H

浏览 35提问于2019-05-16得票数 0

4回答

如何在php中的服务器上上传大块的大文件？

、

如何将一个大文件分割成块并上传到服务器？我尝试了简单的move_uploaded_file()函数，但它只上传了2MB大小。

浏览 4提问于2013-09-24得票数 2

回答已采纳

3回答

通过html表单上传大文件(超过2 GB)

、、、

有没有什么方法可以上传超过2 GB的文件，使用简单的html表单上传？以前，我一直使用分块技术通过silverlight上传大文件(将大文件分成多个片段，然后一个接一个地上传片段，然后在服务器上重组片段)。现在，我们只需要使用简单的html (虽然是GWT)表单上传。有没有办法通过这种方式实现大文件上传，请指导我。如果使用简单的html无法做到这一点，有没有人可以指导我如何使用flex分割和上传文件？

浏览 9提问于2011-02-20得票数 54

回答已采纳

4回答

关于Hadoop和压缩输入文件的非常基本的问题

、

我已经开始研究Hadoop了。如果我的理解是正确的，我可以处理一个非常大的文件，它会被分割到不同的节点上，但是如果文件是压缩的，那么文件就不能分割，而需要由单个节点来处理(有效地破坏了在并行计算机集群上运行mapreduce的优势)。我的问题是，假设上面的情况是正确的，有没有可能手动将一个大文件拆分成固定大小的块，或者每日块，压缩它们，然后传递一个压缩的输入文件列表来执行mapreduce？

浏览 1提问于2010-01-17得票数 19

3回答

在hadoop中存储多个小文件的最佳位置是什么？

、、、、

我将有多个大小约为10 or的小文本文件，弄不清楚这些文件在HBase或HDFS中的存储位置。什么是优化的存储？因为要存储在HBase中，我需要先解析它，然后根据某个行键保存它。在HDFS中，我可以直接创建一个路径并将该文件保存在该位置。但是直到现在，不管我读到了什么，它都说你不应该有多个小文件，而应该创建更少的大文件。但是我不能合并这些文件，所以我不能用小文件创建大文件。请给我建议。

浏览 6提问于2016-06-23得票数 0

回答已采纳

1回答

对MongoDB网格资源优势的困惑

MongoDB gridfs说，最大的优势是将大文件分割成块，如果只想看到文件的一部分，就不必将整个文件加载到内存中。但我的困惑是，即使我从本地磁盘打开了一个大文件，我也可以使用skip() API来加载我想要的部分文件。我根本不需要加载整个文件。那么，为什么MongoDB说这是优势呢？

浏览 0提问于2016-08-28得票数 4

回答已采纳

1回答

如何访问大型文件的多个段

、、、

我有一个大文件，希望保留5-6指针，它将文件分割成块，并提供更快的访问任何部分的权限。是可以在c#中实现的。

浏览 1提问于2011-04-18得票数 0

1回答

将大文件拆分为具有特定扩展名的小文件

我想把一个大文件分成10000行的小文件。我知道我也可以用： split --lines=10000 但是，上面的命令没有给被分割的文件提供扩展名。我想让我所有的拆分文件扩展名为.txt，可以在linux中使用split进行同样的操作。如果是，那怎么做？另外，是否可以对文件编号，使第一个文件的名称为a1.txt。第二个文件的名称为a2.txt，依此类推。我知道split给出了文件的名称，如aa、ab等，但我想将其替换为a1.txt、a2.txt、a3.txt、a4.txt、a5.txt、a6.txt、a7.txt等等。

浏览 3提问于2015-04-10得票数 0

回答已采纳

1回答

使用Unix的split|grep|cat vs Hadoop进行搜索

、

为什么我要使用hadoop在多个大文件中搜索字符串，而不是使用像split、grep和cat这样的开箱即用的unix工具？谢谢阿希什

浏览 6提问于2015-03-17得票数 0

1回答

VirtualDub -如何保留以前的视频压缩率？

我需要简单地将大文件(~1400mb)分割成100mb的相同质量(压缩率)的视频文件。我需要它在短时间内完成，所以在这种情况下，VirtualDub将不使用任何压缩操作，但只是分割成小的视频。这样做的正确方法是什么？有没有其他的免费软件可以做到这一点？

浏览 3提问于2010-11-23得票数 0

1回答

GNU split (UNIX命令)在到达"z“后创建不匹配模式的文件

、、、

所以我分割了一些大文件，一切正常工作，直到一个81 of的文件出现。拆分命令似乎完成了它的工作，但是最后的文件有一个不相关的名称。看图片的右下角。我用这样的命令： split -b 125M ./2014.txt 2014/2014_ 任何人都知道为什么2014_za没有创建文件，而是创建了2014_zaaa

浏览 1提问于2017-03-30得票数 1

回答已采纳

3回答