hive优化总结 - 腾讯云开发者社区 - 腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

hive优化总结

Hive自动执行这种裁剪优化。　　...3.5.6 利用Hive对UNION ALL优化的特性　　多表union all会优化成一个job。　　...3.5.7 解决Hive对UNION ALL优化的短板　　Hive对union all的优化的特性：对union all优化只局限于非嵌套查询消灭子查询内的group by 　　示例1：子查询内有group...优化效果很明显。　　我们在工作中总结出：解决方法2比解决方法1效果更好，不但IO少了，而且作业数也少了。解决方法1中log读取两次，job数为2。解决方法2中job数是1。...在Hive 1.1.0之后，这个feature是默认开启的，它可以自动优化HQL中多个JOIN的顺序，并选择合适的JOIN算法。　　Hive在提供最终执行前，优化每个查询的执行逻辑和物理执行计划。

1.7K4 1

Hive常用性能优化方法实践全面总结

Hive在执行任务时，通常会将Hive SQL转化为MapReduce job进行处理。因此对Hive的调优，除了对Hive语句本身的优化，也要考虑Hive配置项以及MapReduce相关的优化。...Hive中与列裁剪和分区裁剪优化相关的配置参数分别为：hive.optimize.cp和hive.optimize.pruner，默认都是true。...在Hive中，可以通过将参数hive.optimize.ppd设置为true，启用谓词下推。与它对应的逻辑优化器是PredicatePushDown。...该优化器就是将OperatorTree中的FilterOperator向上提，见下图： ? Hive join优化关于Hive join，参考文章：《Hive join优化》。...可以通过设置hive.exec.mode.local.auto的值为true，来让Hive在适当的时候自动启动这个优化。

2.7K3 0

您找到你想要的搜索结果了吗？

是的

没有找到

Hive篇---Hive使用优化

一.前述本节主要描述Hive的优化使用，Hive的优化着重强调一个把Hive SQL 当做Mapreduce程序去优化二.主要优化点 1.Hive运行方式：本地模式集群模式本地模式开启本地模式...： set hive.exec.mode.local.auto=true; 注意： hive.exec.mode.local.auto.inputbytes.max默认值为128M 表示加载文件的最大值...对于小表可以直接从从hdfs直接拿到本地计算 2.并行计算通过设置以下参数开启并行模式： set hive.exec.parallel=true; 注意：hive.exec.parallel.thread.number...5 Hive Join 优化 Join计算时，将小表（驱动表）放在join的左边 Map Join：在Map端完成Join 两种实现方式： 1、SQL方式，在SQL语句中添加MapJoin标记（mapjoin...： map端做聚合操作是hash表的最大可用内容，大于该值则会触发flush hive.groupby.skewindata 是否对GroupBy产生的数据倾斜做优化，默认为false（自动优化解决思路如下

3.6K1 1

hive操作总结

hive $HIVE_HOME/bin/hive -S -e "select * from table1 cluster by id" > /home/hadoop/hadoop/hadoop-1.2.1.../test/re_s.txt 3 hive中操作hadoop命令 hive> dfs -ls /data; 4 hive> select * from table1 cluster by school...limit 10; 不能写成hive> select * from table1 limit 10 cluster by school; 5 hive中打印出字段名 a 可以直接在hive中添加命令...7 查看数据库信息 hive> describe database default; 8 显示是哪个数据库 hive> set hive.cli.print.current.db=true; 9 hive...$HIVE_HOME/bin/hive -S -f /home/shell/test1.sql echo "hive ok!"

6848 0

Hive 性能优化

Hive 性能优化，可以从三个方面来考虑，即存储优化、执行过程优化和作业调度流程优化。存储优化 Hive 数据存储是 Hive 操作数据的基础。...执行过程优化开启 MapJoin 在 Hive 中，hive.auto.convert.join 参数用于控制是否自动将非 MapJoin 转换为 MapJoin。...通过调整 hive.auto.convert.join 参数，你可以控制 Hive 是否自动将非 MapJoin 转换为 MapJoin，从而优化查询性能。...开启 skewjoin 在 Hive 中，hive.optimize.skewjoin 参数用于控制是否启用倾斜连接（Skew Join）优化。...开启 Bucketed Map Join 在 Hive 中，hive.optimize.bucketmapjoin 参数用于控制是否启用桶映射连接（Bucket Map Join）优化。

5534 0

Hive高级优化

1，FetchTask 不执行mapreduce，提高速度设置的三种方式：方法一： set hive.fetch.task.conversion=more; 方法二： bin/hive --hiveconf...hive.fetch.task.conversion=more 方法三：上面的两种方法都可以开启了Fetch任务，但是都是临时起作用的；如果你想一直启用这个功能，可以在${HIVE_HOME}/conf.../hive-site.xml hive.fetch.task.conversion minimal 优化设置其实是可以很明显地提高作业执行效率的。要求：文件数据压缩的方式为可分割的，比如BZip2Codec。...8//job并行执行的数目，一个SQL语句可能有很多mapreduce任务，限制hive.exec.parallel false hive执行开启： set hive.exec.parallel=true

1.4K8 1

Hive Join优化

在阐述Hive Join具体的优化方法之前，首先看一下Hive Join的几个重要特点，在实际使用时也可以利用下列特点做相应优化： 1.只支持等值连接 2.底层会将写的HQL语句转换为MapReduce...，并且reduce会将join语句中除最后一个表外都缓存起来 3.当三个或多个以上的表进行join操作时，如果每个on使用相同的字段连接时只会产生一个mapreduce 具体的优化建议： 1.合理的设置...设置方式主要分两种： 1）自动方式 set hive.auto.convert.join=true; hive.mapjoin.smalltable.filesize，设置可以mapjoin的表的大小，...任务重需要执行insert overwrite table t_y select * from t_x;和 insert overwrite table t_z select * from t_x; 可以优化成...这种优化方式存在一个缺点：有可能部分数据永远不会被处理到

1.1K1 1

Hive UDFUDAF 总结

概述在Hive中,用户可以自定义一些函数,用于扩展HiveQL的功能,这类函数分为三大类: UDF（User-Defined-Function) 特点:一进一出; 继承UDF类（org.apache.hadoop.hive.ql.exec.UDF...在Hive源码包org.apache.hadoop.hive.contrib.udaf.example中包含几个示例, 但是这些接口已经被注解为Deprecated,建议不要使用这种方式开发新的UDAF...简单 UDAF import org.apache.hadoop.hive.ql.exec.Description; import org.apache.hadoop.hive.ql.exec.UDAF...null : Double.valueOf(state.mSum / state.mCount); } } } 总结: UDAF要继承于UDAF父类 org.apache.hadoop.hive.ql.exec.UDAF...参考资料 UDF解析及自定义UDF Linux 公社 hive简明教程

2.8K3 2

Hive性能优化

性能优化作业调优严格模式 Hive在执行SQL命令时，可以设置严格模式，防止用户执行一些对性能影响很大的查询。...set hive.mapred.mode=strict; 在Hive 2.x之前默认为nonstrict，之后默认是strict。

5752 0

（六）Hive优化

，但是sql优化确实很关键。。。...在Hive 1.1.0之后，这个feature是默认开启的,它可以自动优化HQL中多个JOIN的顺序，并选择合适的JOIN算法. Hive在提交最终执行前,优化每个查询的执行逻辑和物理执行计划。...这些优化工作是交给底层来完成。根据查询成本执行进一步的优化，从而产生潜在的不同决策：如何排序连接，执行哪种类型的连接，并行度等等。...要使用基于成本的优化（也称为CBO），请在查询开始处设置以下参数：设置hive.cbo.enable = true; 设置hive.compute.query.using.stats = true;...set hive.optimize.index.filter=true;--自动使用索引，使用聚合索引优化group by操作，如果是orc表，可以使用orc的索引，加快读取hive表的数据 set

2.2K1 0

（七）Hive总结

1.6.1 Hive的架构 ? hive架构.png 1.6.2 Hive和数据库比较 Hive 和数据库除了拥有类似的查询语言，再无类似之处。 1）数据存储位置 Hive 存储在 HDFS 。...2）数据更新 Hive中不建议对数据的改写。而数据库中的数据通常是需要经常进行修改的， 3）执行延迟 Hive 执行延迟较高。数据库的执行延迟较低。...优化 1）MapJoin 如果不指定MapJoin或者不符合MapJoin的条件，那么Hive解析器会将Join操作转换成Common Join，即：在Reduce阶段完成join。...第二次优化考虑到trackinfo表的ext_field7字段缺失率很高（为空、字段长度为零、字段填充了非整数）情况，做进行左关联时空字段的关联操作实际上没有意义，因此，如果左表关联字段ext_field7...第三次优化想了很久，第二次优化效果效果不理想的原因，其实是在左关联中，虽然设置了左表关联字段为空不去关联右表，但是这样做，左表中未关联的记录（ext_field7为空）将会全部聚集在一个reduce

1.3K2 0

Hive Join优化

在阐述Hive Join具体的优化方法之前，首先看一下Hive Join的几个重要特点，在实际使用时也可以利用下列特点做相应优化： 1.只支持等值连接 2.底层会将写的HQL语句转换为MapReduce...，并且reduce会将join语句中除最后一个表外都缓存起来 3.当三个或多个以上的表进行join操作时，如果每个on使用相同的字段连接时只会产生一个mapreduce 具体的优化建议： 1.合理的设置...设置方式主要分两种： 1）自动方式 set hive.auto.convert.join=true; hive.mapjoin.smalltable.filesize，设置可以mapjoin的表的大小，...任务重需要执行insert overwrite table t_y select * from t_x;和 insert overwrite table t_z select * from t_x; 可以优化成...这种优化方式存在一个缺点：有可能部分数据永远不会被处理到

2.2K2 0

hive sql系列（总结）

hive sql系列（总结）介绍： hive sql系列主打sql，通过案例，从实现到分析，帮助大家找到写sql的快乐 hive sql系列目录： hive sql系列（一）：找出所有科目成绩都大于某一学科平均成绩的学生...hive sql系列（二）：统计每个用户每个月访问量和累计月访问量 hive sql系列（三）：求所有用户和活跃用户的总数及平均年龄 hive sql系列（四）：请用sql写出所有用户中在今年10月份第一次购买商品的金额...hive sql系列（五）：一个日志表中记录了某个商户费率变化状态的所有信息，现在有个需求,要取出按照时间轴顺序，发生了状态变化的数据行 hive sql系列（六）：每个用户连续登录最大天数 hive...需要多写sql就好，多次训练是题海战术，有题型有固定解法，想又快又好的写好sql，需要了解不同功能函数并灵活运用，比如日期类函数有多少种，功能是啥，返回值是啥；又比如排序函数三种的用法等等（重点：这部分的总结下次分享出来...，总结中） 9、order by和开窗函数里面的order by重用之痛，可以参考hive sql系列（十）（重点：类似这种会慢慢总结分享出来，如果没有经验，会很浪费测试sql的时间） 10、这次就总结这些了

1.8K4 0

Hive性能优化（全面）

3.配置角度优化我们知道了性能低下的根源，同样，我们也可以从Hive的配置解读去优化。...Hive 自动执行这种裁剪优化。...优化效果很明显。我们在工作中总结出：解决方法2比解决方法1效果更好，不但IO少了，而且作业数也少了。解决方法1中log读取两次，job 数为2。解决方法2中 job 数是1。...4.5解决Hive对UNION ALL优化的短板 Hive 对 union all 的优化的特性：对 union all 优化只局限于非嵌套查询。...5.优化总结优化时，把hive sql当做mapreduce程序来读，会有意想不到的惊喜。理解hadoop的核心能力，是hive优化的根本。这是这一年来，项目组所有成员宝贵的经验总结。

4.3K4 0

HIVE:JOIN原理、优化

hive的一些join操作以及hivejoin操作的优化 1. Join原理 ?...User、Order如上，进行Join操作 SELECT u.name, o.orderid FROM user u JOIN order o ON u.uid = o.uid; Hive...Join优化在正常生产环境下，上述Join操作虽然通用，但是会很浪费时间，因为不仅需要Map阶段，还需要Reduce阶段整合数据，所以上述Join操作也称作（Reduce Side Join）...= true，这样hive会自动判断当前的join操作是否合适做map join，主要是找join的两个表中有没有小表。...= true; set hive.optimize.bucketmapjoin.sortedmerge = true; set hive.input.format = org.apache.hadoop.hive.ql.io.BucketizedHiveInputFormat

3.7K2 0

Hive CBO优化剖析

转换RelNode为Hive的优化后的ASTNode，基于优化后的ASTNode生成Hive逻辑算子树Operator，并执行后续解析操作。...Hive基于CBO优化的解析数据对象流转如下所示： Hive CBO实现内核：在QB转Operator逻辑计划时进行扩展处理，QB → Calcite CBO优化 → Operator。...启动多线程执行文件统计信息汇总； ColStatsProcessor：列、每个分区的统计信息，基于FetchOperator迭代读取表的行数据，ColumnStatisticsObjTranslator进行字段级统计信息拼装；总结...但Hive作为SQL on Hadoop的事实标准却一直影响着大数据SQL发展，且企业大量的存量业务都以Hive SQL构建。本文通过背景介绍、解析流程、CBO优化三部分详述Hive CBO原理。...Hive SQL核心解析流程包括解析、语义分析、逻辑优化、物理优化步骤。

5336 2

Hive SQL优化思路

Hive的优化主要分为：配置优化、SQL语句优化、任务优化等方案。其中在开发过程中主要涉及到的可能是SQL优化这块。...语句优化 1....使用with as可以避免Hive对不同部分的相同子查询进行重复计算。...但新版的hive已经对小表JOIN大表和大表JOIN小表进行了优化。小表放在左边和右边已经没有明显区别。不过在做join的过程中通过小表在前可以适当的减少数据量，提高效率。 5....hive的数据倾斜一般的处理方案：常见的做法，通过参数调优： set hive.map.aggr=true; set hive.groupby.skewindata = ture; 当选项设定为

2K2 0

Hive个人笔记总结

USER show_name这个函数只能在DB_ID=6的库使用十、企业级优化 10.1 Fetch抓取 Fetch抓取是指，Hive中对某些情况的查询可以不必使用MapReduce计算。...用户可以通过设置hive.exec.mode.local.auto的值为true，来让Hive在适当的时候自动启动这个优化。...对关系型数据库非常了解的用户可能期望在执行JOIN查询的时候不使用ON语句而是使用where语句，这样关系数据库的执行优化器就可以高效地将WHERE语句转化成那个ON语句。...不幸的是，Hive并不会执行这种优化，因此，如果表足够大，那么这个查询就会出现不可控的情况。 10.7 并行执行 Hive会将一个查询转化成一个或者多个阶段。...实际测试发现：新版的hive已经对小表join大表和大表join小表进行了优化。小表放在左边和右边已经没有明显区别。

2.7K3 0

Hive的优化命令

create database demo; use demo; set hive.exec.mode.local.auto=true; //开启本地mr //设置local mr的最大输入数据量，当输入数据量小于这个值时采用...local mr的方式，默认为134217728，即128M set hive.exec.mode.local.auto.inputbytes.max=51234560; //设置local mr的最大输入文件个数...，当输入文件个数小于这个值时采用local mr的方式，默认为4 set hive.exec.mode.local.auto.input.files.max=10; set hive.fetch.task.conversion

6913 0

Hive Count Distinct优化

未经优化的SQL语句转化后的MapReduce作业，它的运行效率可能大大低于用户的预期。本文我们就来分析一个简单语句的优化过程。...还对这两阶段的作业做了额外的优化。...这一优化大幅地减少了第一个作业的Reduce输出IO以及第二个作业Map的输入数据量。最终在同样的运行环境下优化后的语句执行只需要原语句20%左右的时间。优化后的MapReduce作业流如下： ?...从上述优化过程我们可以看出，一个简单的统计需求，如果不理解Hive和MapReduce的工作原理，它可能会比优化后的执行过程多四、五倍的时间。...我们在利用Hive简化开发的同时，也要尽可能优化SQL语句，提升计算作业的执行效率。注：文中测试环境Hive版本为0.9

3.5K3 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭