我的问题是: 我读到map-reduce中的文件被分成块,每个块被复制到3个不同的节点。这个块可以是128MB,这个块是输入文件吗?我的意思是这个128MB的块将被分成多个部分,并且每个部分都将被分配到单个map中?如果是,这128MB会被分成什么大小?或者文件分成块,这个块是mapper的输入,我有点困惑。Here HDFS File is divided in
我有一个由每日批处理创建的dataframe,它运行特定的一天,然后保存在HDFS (Azure Data Lake Gen 2)中。HDFS会知道在哪里找到数据而不是进行完整的扫描吗?或者,我是否仍然必须使用Partition by option写入,即使我正在保存一天,只是为了让Spark在读取时理解,并将其推送到HDFS,并且HDFS也知道在哪里可以找到它(而不是全扫描)?我读到太多的小文件当然会影响性能,所以一种选择是将其保存在128M