如何确定Hive数据库大小？

我正在运行一个类似于tableA left on tableA.col1=tableB.col1和tableA.col2=tableB.col2的蜂巢查询。tableA有18亿个数据，tableB有3100万个记录。现在，我加入的最后一个减速器还没有完成，而且还在运行很长时间。我能看到长时间运行的任务如下所示 reduce > copy task(attempt_1498868574233_185232_m_001336_0 succeeded at 8.94

浏览 2提问于2017-07-07得票数 1

1回答

使用一行命令来捕获模式+表名信息

、、、

是否有方法通过Hive以类似的方式捕获单个命令中的所有模式+表名信息来自PostgreSQL世界？

浏览 1提问于2020-05-27得票数 1

3回答

生成多个小文件的单元查询

、

上面的问题是，每个分区生成400个文件，每个文件的大小在200 K左右。我尝试过多个参数组合：set hive.exec.reducers.bytes.per.reducer=256000000;set hive.merge.mapredfiles=true;set hive.merge.smallfiles.avgsize另一个问题是此设置的

浏览 4提问于2016-02-10得票数 0

1回答

用于获取任意列为null的行的配置单元查询

、

我在hive中有一个表，大约有100列。我如何编写一个查询，如下所示-from table else <do nothing>; 我刚接触hive和数据库，所以我不确定这是如何实现的。

浏览 1提问于2015-01-20得票数 2

1回答

使用mysql亚稳态的蜂巢

、、、

我正在使用默认数据库.Now在hadoop上成功地运行Hive，我希望通过mysql连接Hive(mysql安装在端口3306上)。步骤： 1)创建hive-site.xml并粘贴属性 <name>hive.metastore.local</name> <<property> <name>javax.jdo.opti

浏览 3提问于2013-07-02得票数 3

1回答

Hive LLAP调优:每个守护进程的内存和堆大小计算

我正在调优具有Hive的集群，根据下面的链接，需要计算堆大小的值，但不确定*的含义是什么？我还有一个问题，关于如何计算hive.llap.daemon.yarn.container.mb的值，然后是ambari给出的默认值？

浏览 0提问于2019-02-14得票数 1

1回答

查询整个配置单元外部表中未分区的列

、、、、

我有hive外部表(以拼图格式存储的s3文件)，用spark创建，大小约为30 GB，具有数百个分区。在不确定Hive表上的哪个分区数据属于哪个分区的情况下，如何确保这种查询模式？

浏览 3提问于2021-06-09得票数 0

1回答

当我加载数据时，hive在幕后做什么？

、、、、

我知道hive将数据作为分区保存到hadoop文件系统中。然而，当我在蜂巢中执行LOAD DATA时，确切的过程是如何工作的呢？我很感激你的回答！

浏览 2提问于2013-12-08得票数 1

回答已采纳

1回答

如何用JDBC驱动程序0.13.0实现蜂巢中的setFetchSize

、、、

我正在对返回100.000行的Hive/Hadoop运行一个查询，我希望启用setFetchSize，使其不能同时拥有那么多行，为此我使用了Hive驱动程序。关键是，同样的查询也是针对postgres运行的，或者实际上可以在其他关系数据库中运行，因此使用这个大小特性来控制它是有意义的。问题是，当我调用方法setFetchSize时，我一直得到以下信息 org.apache.hadoop.hive.jdbc.HivePreparedStatement.setFetchSize(HivePrepar

浏览 9提问于2015-09-04得票数 1

回答已采纳

1回答

蜂巢地图-连接配置神秘

、、、、

有谁能清楚地解释一下和配置参数？另外，这些相应的大小参数：和我的观察是当在Tez上运行时，Map可以在hive.auto.convert.join.noconditionaltask.size设置为

浏览 4提问于2019-02-16得票数 6

回答已采纳

1回答

AWS胶水作为Hive数据源

、、

我读过AWS Glue是一个与Hive兼容的数据存储，但我还没有找到如何使用AWS Glue作为JDBC数据源。我想使用AWS Glue Catalog作为我的报告来源，如Hive文档所示- The JDBC connectionURL format has the prefix jdbc:hive2:// and the Driver class is org.apache.hive.jdbc.H

浏览 14提问于2021-05-25得票数 0

1回答

将来自流的对象列表存储在单元本地db中。

、、

getProductStream.listen((doc) { allProduct.addAll(doc); Hive.box

浏览 10提问于2022-10-16得票数 0

1回答

未显示在/user/ Hive /仓库中的单元表

、

但是无法在/user/hive/warehouse/Airline.db/中看到它的表。我可以在Students.db的/user/hive/warehouse/Students.db中看到表。

浏览 2提问于2017-01-18得票数 0

3回答

java.sql.SQLException:在使用hive初始化数据库时，启动数据库'metastore_db‘错误失败

、、、、

/hive-log4j.properties蜂巢历史记录file=/tmp/root/hive_job_log_root_201304020248_306369127.txt hive>显示表；确定时间‘/var/lib/hive/脑转移/转移数据库’，有关详细信息，请参阅下一个例外。NestedThrowables: java.sql.SQLException:未能创建数据库</em

浏览 6提问于2013-04-02得票数 3

2回答

如何让Hive* JDBC驱动程序和Hive shell与同一个DB通信？*

、、、

我有一个在默认端口10000上运行的配置单元服务器，启动方式是：hive --service hiveserver然后我有java程序(教程！)""); 本教程将运行，它将在默认数据库上创建一个表testhivedrivertable并对其进行描述。这工作得很好，而且我的hive服务记录了一堆东西。此外，当我在hive shell中运行命令时，控制台中没有显示任何内容，因此我非常确定我正在与一个不同的hive实例对话。如何让配置单元shell与jav

浏览 1提问于2011-10-08得票数 1

回答已采纳

2回答

如何在使用TEZ向hive* ORC表插入数据时创建小文件*

、、

我希望创建大小为150kb的文件。set hive.merge.tezfiles=true;set hive.merge.size.per.task=

浏览 2提问于2017-09-14得票数 0

1回答

我们能查一下蜂巢的大小吗？如果是这样的话，是怎么做的？

、、、、

我有、许多表、在、Hive、中，并且怀疑这些表的大小正在导致集群上的空间问题。有办法一次检查蜂巢表的大小吗？如果是这样的话，是怎么做的？输出应该包括以下字段:数据库名称:表名: totalSize: numFiles: numPartitions: numRows: rawDataSize: P.S:以前的方法适用于一个表。

浏览 0提问于2020-01-28得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云