fs 读取大文件系统

基础概念

fs（文件系统）模块是Node.js中用于与文件系统进行交互的核心模块。读取大文件时，通常会使用流（Stream）的方式来处理，因为这样可以避免一次性将整个文件加载到内存中，从而提高效率和减少内存占用。

类型

可读流（Readable Stream）：用于从源读取数据。
可写流（Writable Stream）：用于向目标写入数据。
双工流（Duplex Stream）：同时实现了可读和可写。
转换流（Transform Stream）：在读写过程中可以修改或转换数据。

应用场景

日志文件处理：实时监控和分析日志文件。
大数据分析：处理大型数据集而不会耗尽内存。
媒体文件处理：如视频或音频编辑，可以边下载边处理。

示例代码

以下是一个使用Node.js fs模块通过流来读取大文件的例子：

const fs = require('fs');
const readline = require('readline');

// 创建一个可读流
const stream = fs.createReadStream('largefile.txt');

// 使用readline模块处理流数据
const rl = readline.createInterface({
  input: stream,
  crlfDelay: Infinity
});

// 逐行读取文件
for await (const line of rl) {
  console.log(`Line: ${line}`);
}

遇到问题及解决方法

问题：读取大文件时出现内存溢出

原因：可能是由于没有正确使用流，或者在处理数据时没有释放内存。

解决方法：

确保使用流式读取而不是fs.readFileSync。
在处理完每一块数据后，确保释放不再需要的引用。
使用stream.pipeline可以帮助管理流的生命周期，并且在出错时自动清理资源。

const { pipeline } = require('stream');
const fs = require('fs');
const zlib = require('zlib');

pipeline(
  fs.createReadStream('largefile.txt'),
  zlib.createGzip(),
  fs.createWriteStream('largefile.txt.gz'),
  (err) => {
    if (err) {
      console.error('Pipeline failed.', err);
    } else {
      console.log('Pipeline succeeded.');
    }
  }
);

通过这种方式，可以有效地处理大文件，同时避免常见的内存管理问题。