linux 拆分大文件方法

在Linux系统中，拆分大文件是一个常见的需求，尤其是在处理大型数据集或备份文件时。以下是一些常用的方法和工具来拆分大文件：

基础概念

文件拆分是指将一个大文件分割成多个较小的文件，以便于传输、存储或处理。每个小文件通常包含原始文件的一部分数据。

类型

常见的拆分方法包括按大小拆分和按行数拆分。

应用场景

数据备份：将大型数据库或日志文件拆分成多个部分进行备份。
文件传输：通过电子邮件或其他方式发送大文件时，可以先拆分再合并。
数据分析：将大型数据集拆分成更小的部分进行分析。

工具和方法

使用 `split` 命令

split 是Linux内置的一个非常实用的命令，可以按大小或行数拆分文件。

按大小拆分

split -b 10M largefile.txt smallfile_

这个命令会将 largefile.txt 拆分成多个10MB的小文件，文件名以 smallfile_ 开头。

按行数拆分

split -l 1000 largefile.txt smallfile_

这个命令会将 largefile.txt 每1000行拆分成一个小文件。

使用 `csplit` 命令

csplit 是一个更强大的工具，可以根据模式（如特定的字符串）来拆分文件。

例如，假设你想根据文件中的特定标记来拆分文件：

csplit largefile.txt '/MARKER/' '{*}'

这个命令会根据 MARKER 字符串将文件拆分成多个部分。

遇到问题及解决方法

问题1：拆分后的文件无法正确合并

原因：可能是由于拆分时指定的文件名模式不正确，或者在合并时顺序错误。 解决方法：确保拆分时使用的文件名模式正确，并且在合并时按照正确的顺序进行。

问题2：拆分过程中出现内存不足

原因：处理非常大的文件时，可能会消耗大量内存。 解决方法：尝试使用更小的拆分大小，或者在有更多内存的机器上进行操作。

示例代码：合并拆分后的文件

假设你已经使用 split 命令拆分了一个文件，可以使用以下命令将其合并：

cat smallfile_* > largefile_restored.txt

这个命令会将所有以 smallfile_ 开头的文件合并成一个名为 largefile_restored.txt 的文件。

通过这些方法和工具，你可以有效地在Linux系统中拆分和管理大文件。

页面内容是否对你有帮助？

有帮助

没帮助

将巨大的mysql插入拆分成多个文件的建议

、

我有一个巨大的mysql转储我需要导入，我设法通过表插入拆分3gig文件，其中一个表插入是600MB，我想将其拆分成100MB的文件。所以我的问题是:有没有一个脚本或者简单的方法可以将一个600MB的INSERT语句分割成多个100MB的INSERT语句，而不必打开文件(因为这会杀死我的pc)。

浏览 0提问于2012-11-28得票数 1

回答已采纳

2回答

多cpu核心gzip一个大文件

、、、

如何通过OpenVZ使用服务器中的所有cpu核心(有4个核心) linux Debian到gziping更快的一个大文件这用于在更多的split -b100 file.big中拆分大文件 这是用于多核心find /source我不知道这是否是优化大文件gzip处理的最佳方法。

浏览 6提问于2014-06-24得票数 1

回答已采纳

2回答

将shell输出中断为文件

、、、、

我知道我可以使用以下方法将脚本输出输出到文件中：问题是，我在Java中做了一个无限循环，我的shell将运行，因此输出文件将变得非常大是否有使用linux命令按最大文件大小来拆分日志的输出，或者我必须将输出Java改为控制台，以便按照最大文件大小分隔文件？

浏览 0提问于2013-08-14得票数 1

回答已采纳

2回答

如何在linux的split命令中设置起始索引？

、、、

我想根据linux中的行数将一个大文件拆分成多个文件。我读到过关于split和csplit的文章。所以，在这方面请帮助我，有没有更好的方法来根据linux中的行数来拆分文件？谢谢

浏览 2提问于2014-05-15得票数 5

1回答

用ftell解析csv的php

、

是否有一种优雅的方法可以知道最后一行是否已成功处理，并从后面的一行恢复？我意识到我可以做一个简单的计数器，然后再循环到那个点，但是这会在我可以处理到文件末尾的行上产生递减的回报。还是一种限制ftell()返回上一行末尾指针的方法？

浏览 5提问于2013-11-02得票数 0

回答已采纳

2回答

如何对大文件进行排序(不适合于RAM)

、、

假设有一个算法X，它需要两个步骤才能最终输出到一个文件。例如，以包含数字的500 in文件为例，作为步骤1的输出。每一行一个数字。步骤2必须按升序对行进行排序。

浏览 7提问于2014-06-19得票数 1

2回答

将拆分文件的MD5结果与整体的MD5进行比较

、、、、

我有一个非常大的文件，我正在使用linux "split“命令将其拆分成较小的部分。稍后，我使用linux "cat“命令将所有部分重新组合在一起。不过，在此期间，我很好奇...如果我在拆分之前在大文件上获得了MD5指纹，然后在拆分命令产生的所有独立文件部分上获得MD5指纹，是否有办法获取独立指纹并以某种方式推断出它们各部分的总和或平均值(或您喜欢的所有部分)等于单个大文件的指纹

浏览 4提问于2011-04-06得票数 1

回答已采纳

4回答

在unix/linux中如何从一个大文件中提取第一个x兆字节？

、、、

如何从unix/linux中的大文件中提取第一个x兆字节并将其放入一个单独的文件中？ (我知道split命令可以将文件拆分为多个部分。使用bash脚本，我可以删除不需要的部分。我更喜欢更简单的方法)

浏览 0提问于2012-09-01得票数 12

回答已采纳

1回答

如何使用linux将文件拆分为多个不同行的文件？

、

我想使用linux命令行将一个文件拆分为几个文件，将有不同的行。我怎么能做到呢？如果有人能帮我，我会非常感激的。谢谢！！

浏览 8提问于2017-11-20得票数 0

1回答

在Windows中使用SystemCommandTasklet分割大文件

、、

我正在尝试使用Spring Batch中的SystemCommandTasklet将一个大的平面文件拆分为多个文件。我从scality中检索大文件，并将其存储在temp目录中。Split在Unix/Linux中运行良好。我使用的是windows机器，那么在windows机器上使用SystemCommandTasklet拆分可以吗？

浏览 20提问于2020-08-11得票数 1

回答已采纳

1回答

在Hadoop框架中拆分大文件有什么好处

据我所知，Hadoop正在将大文件拆分成块这些大文件可以是文本或图像，如果我取消拆分功能会怎么样？这会影响Hadoop的性能吗？

浏览 1提问于2015-05-12得票数 0

1回答

iOS:如何加载较大文件的一部分进行上传？

、、、

我正在处理ALAsset的大型实例，并尝试将资产拆分为较小的块进行上传。在不将整个文件加载到内存中的情况下，将大文件拆分成小块的好方法是什么？

浏览 0提问于2012-07-15得票数 1

回答已采纳

2回答

我找到了一个教程，它演示了如何使用Adobe Acrobat将一个PDF文件按页面或按最大文件大小拆分成单独的PDF文件：我在StackOverflow上有关于如何用C#按页拆分PDF的文章如何使用C#按最大文件大小将一个PDF文件拆分为多个PDF文件？例如，假设我有一个70页、40MB的PDF文件。而不是分割成7个PDF文件，每个10页，我如何使用C#将文件拆分为大约5个PDF文件，每个文件不超过10MB？到目前为止，我所见过的最好的方法是在中，使用

浏览 6提问于2012-07-28得票数 1

2回答

将10 GB文件文件上传到SharePoint Online

我们有要求上传一个大文件，可能是10 GB，或高达50 GB的文件大小到SharePoint Online。根据新的限制，最大文件上载大小将增加到250 GB。我们可以使用SPFX文件上传或SharePoint REST API服务将10 GB或50 GB的大文件上传到SharePoint online吗？如果是这样，请指导我正确的方法，我们需要将文件拆分成块并上传吗？如果是，最大文件区块大小是多少？

浏览 10提问于2021-09-15得票数 1

1回答

我们可以分割并加入大的文本文件吗？

我需要将10 GB左右的大文本文件分割成多个文本文件(主要是1gb文件)，并将这些相同的文本文件合并到一个文件中。

浏览 2提问于2014-02-20得票数 1

回答已采纳

3回答

Hadoop :为什么在RecordReader实现中使用FileSplit

在Hadoop中，考虑一个大文件已经加载到hdfs文件系统的场景，使用hdfs dfs put或hdfs dfs CopyFromLocal命令，大文件将被拆分成块(64MB)。在这种情况下，当需要创建customRecordReader来读取bigfile时，请解释使用FileSplit的原因，因为bigfile在文件加载过程中已经被拆分，并且以拆分的块的形式存在。

浏览 3提问于2014-12-31得票数 0

3回答

带有多个小块的Postgres复制

、

在postgres中，我们可以复制将数据导出到文件中。但是所有的数据都会被保存到一个文件中。但我想把那个文件分块成小文件。出口后我们可以这样做。或者在psycopg2，我们可以这样做吗？

浏览 0提问于2020-12-01得票数 2

回答已采纳

1回答

在USB上创建tar备份失败

、、

请回答一个问题:当我使用DataTaveler100g3 USB棒，容量128 GB对我的主目录进行备份时，我会得到一个错误： tar -czvf /media/dick/linux-bck/home-usb.gz/home/dick gzip: stdout:文件太大tar: /media/dick/linux-bck/home-usb.gz: Slechts 8192 van 10240字节geschreven

浏览 0提问于2021-12-12得票数 1

1回答