今天从新复习下hive,同样是Clouderamanager 的hive的配置页面,进入hive的配置选项
cdh集群默认的仓库目录位置,当然可以自己定义。
yarn与hdfs对接的这个
建议cdh就不用提什么权限控制了,客户端越权操作基本上大家都知道了,反正个人觉得没啥软用。
启用了hdfs的acl后这里就要启用,这样有一定的权限控制作用。
因为我不是大数据开发,所以基本不会碰数据,只是偶尔的功能测试或者hive程序问题处理,所以下面总结了一些hive的job参数基本都是平时大数据开发的同事总结的,仅供参考。
set hive.groupby.skewindata=true;
set hive.exec.reducers.max=300;
set mapreduce.job.name=whx_test;
set mapreduce.job.queuename=ia;
set hive.cli.print.header=true;
set hive.map.aggr=true;
set mapreduce.map.memory.mb=2048;
set mapreduce.reduce.memory.mb=4096;
set hive.exec.reducers.bytes.per.reducer=2147483648;
set hive.exec.compress.output=true;
set mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec;
set mapred.output.compression.type=BLOCK;
set hive.exec.compress.intermediate=true;
set hive.intermediate.compression.codec=org.apache.hadoop.io.compress.SnappyCodec;
set hive.intermediate.compression.type=BLOCK;
set hive.merge.mapfiles=true;
set hive.merge.mapredfiles=true;
set hive.merge.smallfiles.avgsize=134217728;
set hive.merge.size.per.task=536870912;
set mapred.max.split.size=1073741824;
set mapred.min.split.size.per.node=1073741824;
set mapred.min.split.size.per.rack=1073741824;
set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat;
set hive.hadoop.supports.splittable.combineinputformat=true;
set hive.merge.mapfiles=true;
set hive.merge.mapredfiles=true;
set hive.merge.size.per.task=1073741824;
set hive.merge.smallfiles.avgsize=1073741824;
set hive.exec.compress.output=true;
set mapred.output.compression.codec=org.apache.hadoop.io.compress.SnappyCodec;
set mapred.output.compression.type=BLOCK;
关于小文件的问题,以前有写过fsimage解析,具体的集群治理操作后续会看时间写出来,大家有兴趣可以留言交流。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。