如何提高Hive TEZ中的交叉连接性能？

、、、、

我有一个包含50亿条记录的蜂窝表。我希望这50亿条记录中的每条都与硬编码的52条记录连接在一起。为了达到这个目的，我做了一个交叉连接，如下所示 select * ON 1 = 1; 这需要5个小时才能以尽可能高的内存参数运行。有没有其他更短或更容易的方法来在更短的时间内实现这一点？

浏览 53提问于2020-09-25得票数 1

4回答

提高配置单元jdbc的性能

、、、、

是否有人知道如何提高配置单元JDBC连接的性能。当我从hive CLI查询Hive时，我在7秒内得到了响应，但从HIVE JDBC connection我在14秒后得到了响应。我想知道是否有任何方法(配置更改)可以提高通过JDBC连接进行查询的性能。提前谢谢。

浏览 3提问于2017-06-19得票数 4

1回答

加入配置单元分区的存储桶表，在配置单元中仅包含存储区表(未分区的表)

、、、、

我有两张桌子：57 output format: org.apache.hadoop.hive.ql.io.HiveSequence

浏览 5提问于2020-12-28得票数 1

1回答

在配置单元SQL中-使用不带UDF的间隔连接

、、、、

我遇到过一个练习，要求将一个表中与事件相关的IP与另一个表中的国家/地区IP范围进行匹配。然而，据我所知，它不会在Hive中直接工作，因为“只支持相等连接”。最常见的建议(在本练习中也是如此)是使用UDF -据我所知，只有在包含范围的表可以放入内存的情况下才可能使用UDF。虽然我知道如何编写UDF，但我对这种方法并不满意。特别是因为它没有说明如果范围表非常大(当然不是这种情况)并且不容易

浏览 24提问于2018-12-21得票数 1

1回答

Hive中的查询性能问题

、、

在执行带有某些select条件的where语句或执行任何avg时，max(mathematical operation)查询需要2至3个小时执行。我是不是漏掉了蜂巢的配置。我使用的是微软Azure服务上的Hortonworks 2.5沙箱。请给出任何解决办法。谢谢。

浏览 4提问于2017-03-16得票数 1

3回答

Hive -4表联接

、、

我需要连接4个表，并且在每个连接条件中，连接列是不同的Table emp - 8TTable college - 800 MBleft outer join address d(a.seq_no=d.seq_no and a.emp_id=d.emp_id ) 由于使用繁重的数据集，上述查询的执行时间过长。有什么方法可以<em

浏览 2提问于2017-05-31得票数 0

1回答

单个记录查找的火花性能

、、、、

我正在进行性能测试，比较Spark和Tez上的Hive之间对现有内部Hive表的查询。在整个测试过程中，Spark显示的查询执行时间与Tez上的Hive相同或更快。这些结果与许多例子是一致的。数据位于内部Hive表中，该表存储为用zlib压缩的ORC文件类型。压缩文件的总大小为2.2GB。这是查询代码。400

浏览 12提问于2016-10-18得票数 2

回答已采纳

1回答

在蜂巢中，Orc不比csv快吗？

、、

我使用《独家新闻》将数据库中的大表引入到Hive中。《独家新闻》创建了一个逗号分隔的文本文件，并在Hive中创建了相应的表。、压缩等)相比，文本文件的效率很低，我预计会有巨大的数量级改进，但查询执行时间似乎根本没有变化！我在两个版本(text、ORC甚至parquet)上使用了相同的简单查询，并在连接中使用了其中几个表时执行了相同的操作。附加信息:我正在测试<e

浏览 0提问于2017-11-22得票数 4

2回答

我对Hive查询很陌生，我正在寻找从Hive表中检索数据的最佳实践。我们已经启用了TeZ具有执行引擎和启用了矢量化。我们希望从Hive表中进行报告，我从TEZ文档中看到，它可以用于实时报告。1)有谁能告诉我如何通过查询Hive表来显示实时报告，并在10-30秒内立即在UI上显示结果？ORC表中的性能。3)在对非分区表进行分选查询时，插入到单元表，查询时间比ORC表上的</

浏览 2提问于2015-03-07得票数 1

回答已采纳

1回答

hadoop中连接表的问题，其中驱动程序表有10M条记录，而子表只有1M条记录

、、

面对在hadoop中连接3个表的问题，其中最左边的表有10M条记录，每个右边的表有1M条记录。最右边的表是与父表的左连接。

浏览 2提问于2017-11-27得票数 0

2回答

蜂箱连接查询优化

、、、、

Table Acol1, col2,Adate,qty -------表的大小如下：请考虑以下查询) A.col1, B.bdate; 上面的蜂巢查询在一个由4个从节点(8GB内存，100 GB磁盘)和1个主(16 GB内存，100 GB磁盘)组成的集群上需要超过

浏览 2提问于2020-04-12得票数 3

2回答

当有Hive* TEZ时，Hive的LLAP有什么用途？*

、、

在我们的项目中，我们将格林梅数据库中的数据加载到HDFS (HIVE)中。最近，我了解到有一个新的包与Hive2，'LLAP‘。我和LLAP的概念混淆了。LLAP的确切用途是什么？当我们已经有了Hive的TEZ引擎时，LLAP有什么用呢？我们项目中的一位开发人员告诉我，我们正在使用Hive将数据加载到HDFS Hive表中</e

浏览 0提问于2018-04-24得票数 3

回答已采纳

3回答

配置单元JDBC与CLI客户端

、、、

我需要使用Hive以编程方式访问数据(每个查询的数据大小为GB)。我在评估CLI驱动程序和Hive JDBC驱动程序。我正在寻找更好的性能，而不是更快的原型。

浏览 2提问于2012-01-16得票数 2

1回答

如何检查在Tez上运行的Hive查询

、、

我使用下面的命令将执行引擎设置为Tez。那么，我如何确认我在Tez上运行我的查询。谢谢!

浏览 4提问于2014-08-25得票数 3

2回答

记录内存中的缓冲区太大。通过TEZ处理Hive的ORC表时出错

、、、

我们正在尝试从HIVE (1.2.1)中的“ORC”表中读取数据，并使用“TextInputFormat”将该数据放入表中。有些条目在原始数据中太大，在操作过程中会发生以下错误： org.apache.hadoop.hive.ql.metadata.HiveException: org.apache.tez.runtime.library.common.sort.impl.ExternalSorter$MapBufferTooSmallExcepti

浏览 0提问于2016-02-10得票数 1

1回答

蜂巢连接优化

、、、

我有两组数据，它们都存储在一个S3桶中，需要在Hive中进行处理并将输出存储回S3。requestIds是dataset 2中请求的专用子集。下面是我的Hive脚本的简化版本： requestId string,是否有优化此连接的机会？我是否可以使用表的分区/存储来更快地运行<em

浏览 2提问于2015-09-03得票数 4

1回答

hive.tez.container.size与tez.task.resource.memory.mb的区别

、、、

有人能知道并向我解释一下Tez设置的区别吗？谢谢。

浏览 2提问于2019-01-29得票数 5

回答已采纳

1回答

在字符串性能上加入蜂巢

、、、、

我们使用的是hive3.1.3，我们在Cloudera平台上运行Tez引擎(Hive on Tez)上的查询。表1表2我们希望使用table1.id = table2.id连接表1和表2(注意ids是十六进制值) 现在，我们正在进行的讨论之一是，使用字符串值连接将影响查询的性能，最好

浏览 9提问于2022-09-30得票数 0

回答已采纳

1回答

并行执行带有IN子句参数的配置单元查询

、、、、

我有一个像下面这样的配置单元查询：select b.x as column from table2 b where b.y in (<long comma-separated list of parameters>) 我将hive.exec.parallel设置为true，这将帮助我实现联合所有查询之间的两个查询之间的

浏览 9提问于2018-01-28得票数 3

2回答

Hive和Spark的执行差异

、、

所有人:我正在寻找有更多知识的人来检查我对蜂巢和火花的理解我一直在研究不同的大型数据库解决方案，我试图了解Hive和Spark在执行方面的差异。我尝试安装Hadoop、Hive和Spark，看看它们的性能如何。我能够让Hadoop和Spark工作。我不能让蜂巢去工作。当我在Spark中运行查询，在它们通过优化器之后，似乎最大的好处是在最早的时候只从源中选择相关的表数据。我相信它将执行完全连

浏览 44提问于2021-04-09得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

提高配置单元jdbc的性能

加入配置单元分区的存储桶表，在配置单元中仅包含存储区表(未分区的表)

在配置单元SQL中-使用不带UDF的间隔连接

Hive中的查询性能问题

Hive -4表联接

单个记录查找的火花性能

在蜂巢中，Orc不比csv快吗？

如何提高蜂箱中从非分区表加载数据到ORC分区表的性能

hadoop中连接表的问题，其中驱动程序表有10M条记录，而子表只有1M条记录

蜂箱连接查询优化

当有Hive* TEZ时，Hive的LLAP有什么用途？*

配置单元JDBC与CLI客户端

如何检查在Tez上运行的Hive查询

记录内存中的缓冲区太大。通过TEZ处理Hive的ORC表时出错

蜂巢连接优化

hive.tez.container.size与tez.task.resource.memory.mb的区别

在字符串性能上加入蜂巢

并行执行带有IN子句参数的配置单元查询

Hive和Spark的执行差异

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐