腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
如何
提高
Hive
TEZ
中
的
交叉
连接
性能
?
、
、
、
、
我有一个包含50亿条记录
的
蜂窝表。我希望这50亿条记录
中
的
每条都与硬编码
的
52条记录
连接
在一起。为了达到这个目的,我做了一个
交叉
连接
,如下所示 select * ON 1 = 1; 这需要5个小时才能以尽可能高
的
内存参数运行。有没有其他更短或更容易
的
方法来在更短
的
时间内实现这一点?
浏览 53
提问于2020-09-25
得票数 1
4
回答
提高
配置单元jdbc
的
性能
、
、
、
、
是否有人知道
如何
提高
配置单元JDBC
连接
的
性能
。当我从
hive
CLI查询
Hive
时,我在7秒内得到了响应,但从
HIVE
JDBC connection我在14秒后得到了响应。我想知道是否有任何方法(配置更改)可以
提高
通过JDBC
连接
进行查询
的
性能
。 提前谢谢。
浏览 3
提问于2017-06-19
得票数 4
1
回答
加入配置单元分区
的
存储桶表,在配置单元
中
仅包含存储区表(未分区
的
表)
、
、
、
、
我有两张桌子:57 output format: org.apache.hadoop.
hive
.ql.io.HiveSequence
浏览 5
提问于2020-12-28
得票数 1
1
回答
在配置单元SQL
中
-使用不带UDF
的
间隔
连接
、
、
、
、
我遇到过一个练习,要求将一个表
中
与事件相关
的
IP与另一个表
中
的
国家/地区IP范围进行匹配。然而,据我所知,它不会在
Hive
中直接工作,因为“只支持相等
连接
”。 最常见
的
建议(在本练习
中
也是如此)是使用UDF -据我所知,只有在包含范围
的
表可以放入内存
的
情况下才可能使用UDF。虽然我知道
如何
编写UDF,但我对这种方法并不满意。特别是因为它没有说明如果范围表非常大(当然不是这种情况)并且不容易
浏览 24
提问于2018-12-21
得票数 1
1
回答
Hive
中
的
查询
性能
问题
、
、
在执行带有某些select条件
的
where语句或执行任何avg时,max(mathematical operation)查询需要2至3个小时执行。我是不是漏掉了蜂巢
的
配置。我使用
的
是微软Azure服务上
的
Hortonworks 2.5沙箱。 请给出任何解决办法。谢谢。
浏览 4
提问于2017-03-16
得票数 1
3
回答
Hive
-4表联接
、
、
我需要
连接
4个表,并且在每个
连接
条件
中
,
连接
列是不同
的
Table emp - 8TTable college - 800 MBleft outer join address d(a.seq_no=d.seq_no and a.emp_id=d.emp_id ) 由于使用繁重
的
数据集,上述查询
的
执行时间过长。有什么方法可以<em
浏览 2
提问于2017-05-31
得票数 0
1
回答
单个记录查找
的
火花
性能
、
、
、
、
我正在进行
性能
测试,比较Spark和
Tez
上
的
Hive
之间对现有内部
Hive
表
的
查询。在整个测试过程
中
,Spark显示
的
查询执行时间与
Tez
上
的
Hive
相同或更快。这些结果与许多例子是一致
的
。数据位于内部
Hive
表
中
,该表存储为用zlib压缩
的
ORC文件类型。压缩文件
的
总大小为2.2GB。 这是查询代码。400
浏览 12
提问于2016-10-18
得票数 2
回答已采纳
1
回答
在蜂巢
中
,Orc不比csv快吗?
、
、
我使用《独家新闻》将数据库
中
的
大表引入到
Hive
中
。《独家新闻》创建了一个逗号分隔
的
文本文件,并在
Hive
中
创建了相应
的
表。、压缩等)相比,文本文件
的
效率很低,我预计会有巨大
的
数量级改进,但查询执行时间似乎根本没有变化!我在两个版本(text、ORC甚至parquet)上使用了相同
的
简单查询,并在
连接
中使用了其中几个表时执行了相同
的
操作。 附加信息:我正在测试<e
浏览 0
提问于2017-11-22
得票数 4
2
回答
如何
提高
蜂箱
中
从非分区表加载数据到ORC分区表
的
性能
、
、
、
我对
Hive
查询很陌生,我正在寻找从
Hive
表
中
检索数据
的
最佳实践。我们已经启用了
TeZ
具有执行引擎和启用了矢量化。 我们希望从
Hive
表中进行报告,我从
TEZ
文档中看到,它可以用于实时报告。1)有谁能告诉我
如何
通过查询
Hive
表来显示实时报告,并在10-30秒内立即在UI上显示结果?ORC表
中
的
性能
。3)在对非分区表进行分选查询时,插入到单元表,查询时间比ORC表上
的</
浏览 2
提问于2015-03-07
得票数 1
回答已采纳
1
回答
hadoop
中
连接
表
的
问题,其中驱动程序表有10M条记录,而子表只有1M条记录
、
、
面对在hadoop
中
连接
3个表
的
问题,其中最左边
的
表有10M条记录,每个右边
的
表有1M条记录。最右边
的
表是与父表
的
左
连接
。
浏览 2
提问于2017-11-27
得票数 0
2
回答
蜂箱
连接
查询优化
、
、
、
、
Table Acol1, col2,Adate,qty -------表
的
大小如下:请考虑以下查询) A.col1, B.bdate; 上面的蜂巢查询在一个由4个从节点(8GB内存,100 GB磁盘)和1个主(16 GB内存,100 GB磁盘)组成
的
集群上需要超过
浏览 2
提问于2020-04-12
得票数 3
2
回答
当有
Hive
TEZ
时,
Hive
的
LLAP有什么用途?
、
、
在我们
的
项目中,我们将格林梅数据库
中
的
数据加载到HDFS (
HIVE
)
中
。最近,我了解到有一个新
的
包与
Hive
2,'LLAP‘。我和LLAP
的
概念混淆了。LLAP的确切用途是什么?当我们已经有了
Hive
的
TEZ
引擎时,LLAP有什么用呢?我们项目中
的
一位开发人员告诉我,我们正在使用
Hive
将数据加载到HDFS
Hive
表
中</e
浏览 0
提问于2018-04-24
得票数 3
回答已采纳
3
回答
配置单元JDBC与CLI客户端
、
、
、
我需要使用
Hive
以编程方式访问数据(每个查询
的
数据大小为GB)。我在评估CLI驱动程序和
Hive
JDBC驱动程序。我正在寻找更好
的
性能
,而不是更快
的
原型。
浏览 2
提问于2012-01-16
得票数 2
1
回答
如何
检查在
Tez
上运行
的
Hive
查询
、
、
我使用下面的命令将执行引擎设置为
Tez
。 那么,我
如何
确认我在
Tez
上运行我
的
查询。 谢谢!
浏览 4
提问于2014-08-25
得票数 3
2
回答
记录内存
中
的
缓冲区太大。通过
TEZ
处理
Hive
的
ORC表时出错
、
、
、
我们正在尝试从
HIVE
(1.2.1)
中
的
“ORC”表
中
读取数据,并使用“TextInputFormat”将该数据放入表
中
。有些条目在原始数据
中
太大,在操作过程中会发生以下错误: org.apache.hadoop.
hive
.ql.metadata.HiveException: org.apache.
tez
.runtime.library.common.sort.impl.ExternalSorter$MapBufferTooSmallExcepti
浏览 0
提问于2016-02-10
得票数 1
1
回答
蜂巢
连接
优化
、
、
、
我有两组数据,它们都存储在一个S3桶
中
,需要在
Hive
中进行处理并将输出存储回S3。requestIds是dataset 2
中
请求
的
专用子集。下面是我
的
Hive
脚本
的
简化版本: requestId string,是否有优化此
连接
的
机会?我是否可以使用表
的
分区/存储来更快地运行<em
浏览 2
提问于2015-09-03
得票数 4
1
回答
hive
.
tez
.container.size与
tez
.task.resource.memory.mb
的
区别
、
、
、
有人能知道并向我解释一下
Tez
设置
的
区别吗?谢谢。
浏览 2
提问于2019-01-29
得票数 5
回答已采纳
1
回答
在字符串
性能
上加入蜂巢
、
、
、
、
我们使用
的
是
hive
3.1.3,我们在Cloudera平台上运行
Tez
引擎(
Hive
on
Tez
)上
的
查询。表1表2我们希望使用table1.id = table2.id
连接
表1和表2(注意ids是十六进制值) 现在,我们正在进行
的
讨论之一是,使用字符串值
连接
将影响查询
的
性能
,最好
浏览 9
提问于2022-09-30
得票数 0
回答已采纳
1
回答
并行执行带有IN子句参数
的
配置单元查询
、
、
、
、
我有一个像下面这样
的
配置单元查询:select b.x as column from table2 b where b.y in (<long comma-separated list of parameters>) 我将
hive
.exec.parallel设置为true,这将帮助我实现联合所有查询之间
的
两个查询之间
的
浏览 9
提问于2018-01-28
得票数 3
2
回答
Hive
和Spark
的
执行差异
、
、
所有人:我正在寻找有更多知识的人来检查我对蜂巢和火花
的
理解 我一直在研究不同
的
大型数据库解决方案,我试图了解
Hive
和Spark在执行方面的差异。我尝试安装Hadoop、
Hive
和Spark,看看它们
的
性能
如何
。我能够让Hadoop和Spark工作。我不能让蜂巢去工作。当我在Spark
中
运行查询,在它们通过优化器之后,似乎最大
的
好处是在最早
的
时候只从源中选择相关
的
表数据。我相信它将执行完全
连
浏览 44
提问于2021-04-09
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
如何提高云计算的性能
如何提高AI芯片性能?看华为设计中的“快速通道”
数仓应用工具Hive:从底层设计窥见其优化策略
CDP-DC中部署Hive Server
微软展示 Windows 在过去一年中如何提高性能
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券