前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Hadoop CombineTextInputFormat的使用

Hadoop CombineTextInputFormat的使用

作者头像
sparkle123
发布2018-07-04 11:16:39
1K0
发布2018-07-04 11:16:39
举报
文章被收录于专栏:大数据-Hadoop、Spark

1、机器的CPU的核数比如有 12 cores,启动多少个map task合适呢? => 启动12个map task使得机器最大化使用。 每个map task处理多少数据合适?128Mb,经过实绩得到的最优解。 2、尽可能多的小文件达到128Mb,"合并"在一起 3、CombineTextInputFormat:getSplits方法:尽可能合并同一机器,同一机架的节点的切片的文件。


1、准备测试文件8个

image.png

2、为wc程序准备好参数

image.png

3、Windows系统上运行日志: splits数目为8

代码语言:javascript
复制
[main] DEBUG org.apache.hadoop.mapreduce.lib.input.FileInputFormat - Total # of splits generated by getSplits: 8, TimeTaken: 473

4、添加如下配置:

image.png

5、再次运行得到splits为1. [main] INFO org.apache.hadoop.mapreduce.JobSubmitter - number of splits:1

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档