前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >大文件分割与重组技巧

大文件分割与重组技巧

作者头像
mythsman
发布2022-11-14 15:00:57
8300
发布2022-11-14 15:00:57
举报
文章被收录于专栏:mythsman的个人博客

简述

由于各种不同的问题,我们经常会遇到需要将一个大文件分割存储的问题。比如github里单个文件大小一般不能超过100M、比如FAT32文件系统里单个文件大小不能超过4G,比如我们想把某一个数据文件分割存储和查看,比如对日志文件进行分割保存等等。

在ubuntu下,这个工作其实相当简单,只需要牵涉到两个命令:split、cat.

文件分割--split

split命令用来将一个大文件分割成多个小文件,可以固定大小分割(常用于分割二进制文件),还可以固定行数分割(常用于分割文本文件)。

按行分割

代码语言:javascript
复制
$ split -l 10 data subdata-
$ ls
data subdata-ab  subdata-ad  subdata-af  subdata-ah  subdata-aa  subdata-ac  subdata-ae  subdata-ag

-l参数指定每个文件的行数,然后带分割的数据文件,以及分割后重新命名的文件前缀。默认分割出的文件是固定前缀加字典序,这样也是为了方便重组是不扰乱顺序。

按大小分割

代码语言:javascript
复制
$ split -b 10M data subdata-

-b参数指定用二进制分割,也就是指定文件大小,剩下的与按行分割类似。

用数字后缀

如果不喜欢英文字母后缀,我们可以用-d参数表示我们期望用数字来表示顺序。

代码语言:javascript
复制
$ split -d -l 10 data subdata-
$ ls
data  subdata-00  subdata-01  subdata-02  subdata-03  subdata-04

文件重组--cat

一直以为cat就是用来显示文件的。。其实cat本来的用途就是文件的组合。

对于用split命令生成的以subdata-为固定前缀的文件:

代码语言:javascript
复制
subdata-00  subdata-01  subdata-02  subdata-03  subdata-04

我们可以非常方便的用cat命令进行组合,而不影响文件顺序:

代码语言:javascript
复制
$ cat subdata-* >data
本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 简述
  • 文件分割--split
  • 文件重组--cat
相关产品与服务
对象存储
对象存储(Cloud Object Storage,COS)是由腾讯云推出的无目录层次结构、无数据格式限制,可容纳海量数据且支持 HTTP/HTTPS 协议访问的分布式存储服务。腾讯云 COS 的存储桶空间无容量上限,无需分区管理,适用于 CDN 数据分发、数据万象处理或大数据计算与分析的数据湖等多种场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档