我有一个非常重要的问题,因为我必须做一个关于map-reduce的演示。我的问题是: 我读到map-reduce中的文件被分成块,每个块被复制到3个不同的节点。这个块可以是128MB,这个块是输入文件吗?我的意思是这个128MB的块将被分成多个部分,并且每个部分都将被分配到单个map中?如果是,这128MB会被分成什么大小?或者文件分成块,这个块是mapper的输入,我有点困惑。 你能看看这张照片,告诉我哪一张是对的吗? Here HDFS File is divided into blocks and every singel block 128. MB will be as input
我有一个(scala/spark) DataFrame df,我想将它保存到拼图上,每个拼图文件大约128MB。根据该模式,我粗略地估计了一行的大小。我的策略是使用生成“超大”分区的值对数据帧进行重新分区。然后,我利用选项maxRecordsPerFile来获得我想要的拼图文件大小:
val countLines = df.count
val estimatedSize = countLines * 250 / (1024 * 1024) // one line is around 250 Bytes
val repartitionEstimate = (esti
我有一个单节点Hadoop集群版本- 2.x。我设置的块大小是64MB。我有一个HDFS格式的输入文件,大小为84MB。现在,当我运行MR作业时,我看到有2个拆分,它的有效大小为84MB/64MB~2,因此有2个拆分。
但是,当我运行"hadoop fsck -blocks“命令来查看块的详细信息时,我看到了以下内容。
Total size: 90984182 B
Total dirs: 16
Total files: 7
Total symlinks: 0
Total blocks (validated): 7 (avg. bl