什么是文件格式？

Apache IoTDB

发布于 2020-09-27 10:40:58

2.8K0

文章被收录于专栏：Apache IoTDBApache IoTDB

java 字节流汇总： java 字节流入门（读文件）

有了之前 4 篇对文件的操作工具之后，终于到了文件格式的介绍部分！本文介绍文件格式的定义，并实现一个自己的文件格式。这个文件格式十分简单，只用来说明原理。

文件格式的定义

wiki 定义：

A file format is a standard way that information is encoded for storage in a computer file. It specifies how bits are used to encode information in a digital storage medium.

翻译一下：

文件格式是将信息进行编码并存储在计算机文件中的标准方式。它指定如何使用字节来编码信息，并存储在数字存储媒介中。

人话：

就是告诉你数据是怎么存在文件中的。有了文件格式，你就可以将数据写成这种格式的文件，并且将数据从这种格式的文件中读出来。文件格式的本质就是一种协议。

举个例子，word、excel、PPT 就是文件格式，他们按照自己的格式进行组织，计算机中不同的文件后缀就代表不同格式的文件，同样格式的文件的内容可以不同。

开发一种文件格式，一般都需要开发读写接口。最简单的写接口是将一个数据写入到文件中，最简单的读接口就是把里边的所有数据全部读出来（这里的读出来，一般需要以用户可认识的格式读出来。不能用户写了个a，你读出来个#，然后跟用户说 # 就是 a ，这是耍流氓）。

再举例子，word 给人提供了一个界面，让你可以写文字。保存关闭之后再打开。他还能给你展示之前写入的内容，这就是读文件。

文件格式一般包含两部分：data 和 metadata。data 即数据；metadata 即元数据（描述数据的数据），比如这个文件中一共有几条数据，数据的起始位置是多少，长度是多少。

下面介绍一个自己的文件格式：

实现自己的文件格式！

这个文件格式的功能为：写 int 数据；读取所有数据。

文件结构如下图：因为文件在磁盘上是一维结构，因此文件格式就直接画成一条线了，这个文件格式中，前边是数据，最后是元数据。当然你也可以设计成其他样子，比如元数据和数据交叉存放。这里只介绍一个比较简单的。

原料如下：写流程用到了 ByteArrayOutputStream 和 FileOutputStream。读流程用到了 RandomAccessFile。这里的 metadata 就是一个 int 类型的 count，记录文件中数据的个数。isWrite 用来判断此实例是读流程还是写流程。一般文件格式都是先写，关闭之后再另起线程进行读取。

两个小工具，用来将 int 和 bytes 间的转换

写入方法：将数据缓存进 baos，计数+1。这时候只把数据的字节数组放在了内存中，还没有真正往文件里写数据。

close 方法：先将 metadata （count）写入 baos 末尾，然后将 baos 中的所有bytes 写入文件。最后关闭文件。

读方法：先读文件末尾的 metadata，再读数据。上边我们说了，metadata 一般包括了数据的个数，所在位置，长度。但是这里的 metadata 只有一个数据的个数。这是不是有问题了？没问题，因为我们的数据都是 int，占 4 个字节，所以数据整体长度就有了。并且我们的数据是从文件开头开始写的，因此所在位置也是预先知道的。这就是文件格式，怎么写的怎么读。

另一个方面也不能忽略，那就是 metadata 其实也是一种数据，那么 metadata 我们是怎么读的呢？其实 metadata 也需要自己的 metadata，这样就无穷无尽无止境了，metadta 还有 metadata。。。但是，是有止境的，一般那个终止点再文件的开头或结尾，存储了一个位置相邻的 metadata 的长度。这样，就找到了第一个metadata。之后的就可以一连串找出来了。比如在这个例子中，这个终止点是一个 int，存在文件的末尾，占 4 个字节。

主方法：先起一个实例写文件，再起一个实例读文件。每次用完实例后需要关闭。