首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >如果查询配置单元中的已分区表,将运行多少mapreduce作业

如果查询配置单元中的已分区表,将运行多少mapreduce作业
EN

Stack Overflow用户
提问于 2016-07-15 23:28:26
回答 2查看 412关注 0票数 0

这看起来可能有点傻。但只想知道确切的答案。假设我有一个包含2个分区的表。如果对一个分区列运行查询,将在后台运行多少个映射作业。

任何帮助都将不胜感激!

提前感谢

EN

回答 2

Stack Overflow用户

发布于 2016-07-16 02:22:17

我读到过mappers的数量是基于以下公式确定的:(输入的大小除以块的大小)。Hadoop 2的数据块大小为128 MB。

因此,我假设您可以将该分区中的文件大小除以128MB。

票数 0
EN

Stack Overflow用户

发布于 2016-07-17 03:02:44

所以这取决于两件事:

  1. 默认情况下,对于不可拆分的文件,Hadoop将为每个输入文件运行映射任务。因此,如果您的分区文件夹有100个输入文件,它将运行100个映射器。例如,这将是以制表符分隔的文本文件的默认设置。
  2. 如果您的文件是可拆分的,它将根据您的块大小设置进行拆分。这要求您使用可拆分的文件格式,如序列文件。

如果只使用简单的平面文件,这是最容易推断的。希望这能有所帮助。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/38399896

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档