Hive篇---Hive使用优化

LhWorld哥陪你聊算法

发布于 2018-09-13 14:04:46

3.5K0

发布于 2018-09-13 14:04:46

一.前述

本节主要描述Hive的优化使用，Hive的优化着重强调一个 把Hive SQL 当做Mapreduce程序去优化 二.主要优化点

1.Hive运行方式： 本地模式集群模式本地模式开启本地模式： set hive.exec.mode.local.auto=true; 注意： hive.exec.mode.local.auto.inputbytes.max默认值为128M 表示加载文件的最大值，若大于该配置仍会以集群方式来运行！ 对于小表可以直接从从hdfs直接拿到本地计算 2.并行计算 通过设置以下参数开启并行模式： set hive.exec.parallel=true; 注意：hive.exec.parallel.thread.number （一次SQL计算中允许并行执行的job个数的最大值）

3.严格模式 通过设置以下参数开启严格模式： set hive.mapred.mode=strict; （默认为：nonstrict非严格模式）查询限制：对于分区表，必须添加where对于分区字段的条件过滤； order by语句必须包含limit输出限制；限制执行笛卡尔积的查询。

4.Hive排序（重要） Order By - 对于查询结果做全排序，只允许有一个reduce处理（当数据量较大时，应慎用。严格模式下，必须结合limit来使用） Sort By - 对于单个reduce的数据进行排序（这样最后的数据有可能排序结果不准！！！！） Distribute By - 分区排序，经常和Sort By结合使用（SortBy对于最后的分区排序） Cluster By - 相当于 Sort By + Distribute By （Cluster By不能通过asc、desc的方式指定排序规则； 可通过 distribute by column sort by column asc|desc 的方式） !!!

5 Hive Join 优化

Join计算时，将小表（驱动表）放在join的左边 Map Join：在Map端完成Join 两种实现方式： 1、SQL方式，在SQL语句中添加MapJoin标记（mapjoin hint）语法： SELECT /*+ MAPJOIN(smallTable) */ smallTable.key, bigTable.value FROM smallTable JOIN bigTable ON smallTable.key = bigTable.key; 2、开启自动的MapJoin

自动的mapjoin 通过修改以下配置启用自动的mapjoin： set hive.auto.convert.join = true; （该参数为true时，Hive自动对左边的表统计量，如果是小表就加入内存，即对小表使用Map join）（默认左边的加载到内存中去） 相关配置参数： hive.mapjoin.smalltable.filesize; （大表小表判断的阈值，如果表的大小小于该值则会被加载到内存中运行） hive.ignore.mapjoin.hint；（默认值：true；是否忽略mapjoin hint 即mapjoin标记） hive.auto.convert.join.noconditionaltask; （默认值：true；将普通的join转化为普通的mapjoin时，是否将多个mapjoin转化为一个mapjoin） hive.auto.convert.join.noconditionaltask.size; （将多个mapjoin转化为一个mapjoin时，其表的最大值） 6.Map-Side聚合（一般在聚合函数sum,count时使用） 通过设置以下参数开启在Map端的聚合： set hive.map.aggr=true; 相关配置参数： hive.groupby.mapaggr.checkinterval： map端group by执行聚合时处理的多少行数据（默认：100000） hive.map.aggr.hash.min.reduction：进行聚合的最小比例（预先对100000条数据做聚合，若聚合之后的数据量/100000的值大于该配置0.5，则不会聚合） hive.map.aggr.hash.percentmemory： map端聚合使用的内存的最大值 hive.map.aggr.hash.force.flush.memory.threshold： map端做聚合操作是hash表的最大可用内容，大于该值则会触发flush hive.groupby.skewindata 是否对GroupBy产生的数据倾斜做优化，默认为false（自动优化解决思路如下）： Map端两个MapReduce，第一个Mapreduce随机来分发数据。 然后另一个Mapreduce根据此Mapreduce的结果在到Reduce的机器上去拉取数据。

7.控制Hive中Map以及Reduce的数量 Map数量相关的参数 mapred.max.split.size 一个split的最大值，即每个map处理文件的最大值 mapred.min.split.size.per.node 一个节点上split的最小值 mapred.min.split.size.per.rack 一个机架上split的最小值 Reduce数量相关的参数 mapred.reduce.tasks 强制指定reduce任务的数量 hive.exec.reducers.bytes.per.reducer 每个reduce任务处理的数据量 hive.exec.reducers.max 每个任务最大的reduce数

PS：一般工作中肯定不会改！！！桶的个数是Reduce的个数。

8. Hive - JVM重用（类似于线程池） 适用场景： 1、小文件个数过多 2、task个数过多通过 set mapred.job.reuse.jvm.num.tasks=n; 来设置（n为task插槽个数）缺点：设置开启之后，task插槽会一直占用资源，不论是否有task运行，直到所有的task即整个job全部执行完成时，才会释放所有的task插槽资源！

本文参与腾讯云自媒体同步曝光计划，分享自作者个人站点/博客。

原始发表：2018-01-17 ，如有侵权请联系 cloudcommunity@tencent.com 删除

其他

本文分享自作者个人站点/博客前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

其他

登录后参与评论

0 条评论

热度

Hive篇---Hive使用优化

Hive篇---Hive使用优化

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐