嗨,官方的火花文件说:
虽然Spark可以在内存中执行大量的计算,但它仍然使用本地磁盘来存储不适合RAM的数据,并保留中间级之间的输出。我们建议每个节点有4-8个磁盘,配置时没有RAID (就像单独的挂载点一样)。在Linux中,使用noatime选项挂载磁盘,以减少不必要的写入。在Spark中,将spark.local.dir变量配置为本地磁盘的逗号分隔列表。如果您正在运行HDFS,可以使用与HDFS相同的磁盘。
是并行写的吗?我不知道为什么没有解释。
知道这里意味着什么吗..。
发布于 2017-08-11 07:29:23
使用4-8 RAID磁盘镜像分区的目的,增加冗余,以防止在硬件级出现故障时丢失数据。对于HDFS,不需要RAID提供的冗余,因为HDFS通过节点间的复制来处理它。参考文献
https://stackoverflow.com/questions/45625532
复制相似问题