当读取文件时, HDFS client先从Name Node获取文件数据块的Data Node, 然后直接从最近的Data Node获取数据....事实上, heartbeat信号还包含了一些额外的信息, 包括中存储容量, 已使用存储的百分比, 正在处理的数据数量. 这些统计信息被Name Node用来平衡负载和安排空间....在startup阶段, Name Node从checkpoint中读取image, 并对其执行journal的操作, 以恢复上次的image....它会从Name Node下载最新的checkpoint和journal, 合并, 然后回写.
这种方式减少了startup阶段的耗时, 因为减少了journal文件的大小....若出错, client会通知Name Node数据算坏, 然后从另一个Data Node获取该block.