这看起来可能有点傻。但只想知道确切的答案。假设我有一个包含2个分区的表。如果对一个分区列运行查询,将在后台运行多少个映射作业。
任何帮助都将不胜感激!
提前感谢
发布于 2016-07-16 02:22:17
我读到过mappers的数量是基于以下公式确定的:(输入的大小除以块的大小)。Hadoop 2的数据块大小为128 MB。
因此,我假设您可以将该分区中的文件大小除以128MB。
发布于 2016-07-17 03:02:44
所以这取决于两件事:
如果只使用简单的平面文件,这是最容易推断的。希望这能有所帮助。
https://stackoverflow.com/questions/38399896
复制相似问题