前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >hadoop 参数

hadoop 参数

作者头像
岑玉海
发布2018-02-28 16:30:16
9180
发布2018-02-28 16:30:16
举报
文章被收录于专栏:岑玉海岑玉海

看《Hadoop:权威指南》的时候收集了书上写的一些需要优化的参数,记录了一下子,给大家分享一下吧。 1.mapred.task.timeout 任务超时时间,默认是10分钟 2.mapred.map.max.attempts  mapred.reduce.max.attempts 默认任务失败重复次数为4 3.mapred.max.map.failures.percent mapred.reduce.map.failures.percent 不触发错误的失败的最大百分比 4.mapred.jobtracker.taskScheduler 作业调度算法设置,默认是FIFO 5.io.sort.mb io.sort.spill.percent 缓冲区大小默认为100MB,以及缓冲区阀值默认为0.8,超过80%就保存到硬盘 6.io.sort.factor 默认为10,一次只能合并10个溢出文件 7.mapred.compress.map.output 默认为false,不压缩输出文件 压缩算法由mapred.map.output.compression.codec指定 8.tracker.http.Threads tasktracker用于默认为40的啦 9.mapred.reduce.parallel.copies reduce复制map输出的线程数,默认是5个 10.mapred.inmem.merge.threshold 控制map输出阀值,如果reduce函数的内存需求不大,那么设置为0 mapred.job.reduce.input.buffer.percent设置为1,可以带来性能的提升。 11.io.sort.factor 合并因子,默认为10,意思是一次合并多少个Map输出 如果Map输出为50个文件,则每次把10个合并成一个文件,最后有5个中间文件。 12.mapred.child.java.opts 设置任务节点的内存大小 13.io.file.buffer.size 缓冲区,默认为4KB的缓冲区 14.mapred.map.tasks.speculative.execution mapred.reduce.tasks.speculative.execution 推测执行默认值为true, 15.mapred.job.reuse.jvm.num.tasks 默认值为1,指定作业的jvm执行任务的最大数,如果为-1,则同一作业中的任务可以共享一个JVM,数量不限 16.mapred.linerecordreader.maxlength 数据行长度的最大值,防止因为内存溢出导致的错误 17.SkipBadRecord开启跳跃模式,跳过失败的坏记录 mapred.map.max.attemps mapred.reduce.attemps 一次只能跳过一个错误记录 18.关闭安全模式 hadoop dfsadmin -safemode leave

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2013-08-01 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档