hive中内部表和扩展表的性能差异_有没有办法使用talend从hive中的外部表创建内部表_Insert into as select from array和HIVE中的结构表 - 腾讯云开发者社区

、

我想临时使用hive对hdfs上的文件做一些操作，所以我不想使用内部table.but，因为我的数据太大了，比如1TB，所以我担心外部表的性能。因此，我提出了关于hive中表和扩展表的性能差异的问题。

浏览 29提问于2016-12-24得票数 4

1回答

哪个配置表能提供更好的性能？

、

我是hadoop的初学者。内部表:该表存储在hive仓库中，如果删除，元数据和数据都会被删除。外部表:表存储在hdfs中，如果删除，则只删除元数据。现在，哪个表在查询时性能更好?请给出原因。此外，如果您能实时为此表提供更多的差异，我们将非常感激。提前谢谢。

浏览 1提问于2015-01-20得票数 0

1回答

在配置单元中，查询哪个表(外部表或内部表)更快？为什么？

、

我想知道，在hive中查询哪个表(外部表或内部表)更快？为什么？

浏览 0提问于2013-01-08得票数 2

1回答

我正在处理一个按年、月和日划分的Hive表。例如： year=2015 AND month=201512 AND day = 20151231。根据我对Hive工作方式的有限了解，这些文件夹可能设置在文件夹结构中，其中“2015”文件夹包含12个月的文件夹，每个月的文件夹中包含28-31天的文件夹。在这种情况下，使用 WHERE year = 2015 AND month = 201512 AND day = 20151231 就会沿着目录结构爬到20151231文件夹。我认为只使用WHERE day = 20151231将触发相同的遍历，因此本质上是相同的查询，但是给出了使用year AN

浏览 3提问于2016-01-01得票数 1

回答已采纳

1回答

蜂箱分区性能

、、、

我想问关于Hive分区性能的问题。为了查看分区性能，我需要多少个记录(按行的形式)？目前，我有两个million+记录，我已经将表分割成两个分区。我的分区条件如下： ADD PARTITION (year_month=’2017_07’) ADD PARTITION (year_month=’2017_08’) INSERT OVERWRITE TABLE T PARTITION (year_month='2017_07') SELECT * FROM T WHERE st_time < '2017_08_01 00:00:00.0';

浏览 3提问于2017-11-15得票数 2

回答已采纳

2回答

配置单元与SQL Server性能

、

1)我从过去的两个月开始使用hive。我有一个与SQL相同的任务。我发现Hive很慢，执行查询需要更多的时间，而SQL只需要几分钟/秒就能执行它。在Hive中执行任务后，当我交叉检查两个(SQL和Hive)中的结果时，我发现结果中存在一些差异(不是全部，但在某些表中)。例如:我有一个表，其中有2012条记录，当我在Hive中的同一个表中执行任务时，我得到了2007条记录。为什么会发生这种情况？ 2)如果我想加快我在Hive中的执行速度，那么我应该怎么做呢？(目前，我仅在单个集群上执行所有这些内容。如果我认为要增加集群，那么我应该需要多少集群才能提高性能) 请建议我一些解决方案或一些好的做法

浏览 0提问于2012-04-03得票数 7

回答已采纳

5回答

几个蜂巢面试问题

、、、、

我最近在一家公司的面试中遇到了一些问题。因为我是Hadoop的新手，有人能告诉我正确的答案吗？问题：蜂巢中“按”和“组”的区别。他们是怎么工作的？如果我们在Hive中的任何SQL查询中使用“限制1”，那么Reducer是否有效。如何优化蜂巢性能？ “内表”与“外部表”的区别 Hive和SQL的主要区别是什么？请向我提供一些有用的资源，以便我能更好地学习。谢谢

浏览 7提问于2016-01-27得票数 2

5回答

Hive如何存储数据(从HDFS加载)？

、、、、

我对Hadoop (HDFS和Hbase)和Hadoop生态系统(Hive，Pig，Impala等)相当陌生。我对Hadoop组件(如NamedNode、DataNode、Job、Tracker )有很好的理解，以及它们如何协同工作，以高效的方式存储数据。在试图理解数据访问层(如Hive )的基本原理时，我需要了解表的数据(在Hive中创建)究竟存储在哪里？我们可以在Hive中创建外部和内部表。由于外部表可以在HDFS或任何其他文件系统中，因此Hive不将此类表的数据存储在仓库中。内部桌子呢？此表将作为Hadoop集群上的一个数据节点上的目录创建。一旦我们从本地或HDFS文件系统中加载这些表

浏览 11提问于2015-10-28得票数 4

2回答

蜂箱的处理库是什么？

、、、

我在网上也不熟悉蜂巢和阅读。但仍有疑问，但仍未消除。对于单元外部表，使用单元格keep table's metadata within HDFS, but not in its warehouse which is also in HDFS。对吗？无论是它的内部表还是外部表，在这两种情况下，data of table都只能在HDFS中使用，而在NOWHERE中是可用的。也就是说，数据可以从任何地方获取，但必须在HDFS中加载，因为HIVE使用hadoop的处理引擎来处理数据。对吗？内部表中，table's metadata and table&

浏览 26提问于2022-02-05得票数 1

3回答

PySpark - Hive上下文不返回结果，但是SQL上下文用于类似的查询。

、、、

我注意到，当我在HiveContext和SQLContext中运行PySpark中的类似查询时，性能有很大的差异。版本/配置火花1.3.1(也尝试了火花1.5.1) Hadoop 2.6 (在CDH 5.4.0上) 火花放电.主纱.num-执行器5.执行器.存储器10g .驱动器.内存4g .驱动程序.核心4 表信息 database.table有超过2k的分区 database.table在field1上进行分区(用于where子句) HIVECONTEXT的实施 from pyspark.sql import SQLContext sqlContex

浏览 0提问于2015-10-14得票数 1

回答已采纳

2回答

Apache不使用来自Hive分区外部表的分区信息

、、

我有一个简单的Hive外部表，它是在S3之上创建的(文件是CSV格式的)。当我运行hive查询时，它会显示所有记录和分区。但是，当我在Spark中使用相同的表时( Spark在分区列上有一个where条件)，它不会显示应用了分区筛选器。然而，对于Hive托管表，Spark可以使用分区信息并应用分区筛选器。是否有任何标志或设置可以帮助我使用星火中的Hive外部表的分区？谢谢。更新: 由于某些原因，只有火花计划没有显示分区筛选器。但是，当您查看加载的数据时，它只会从分区加载所需的数据。例:在rating=0中，只有一个1MB的文件，当我没有过滤它的3MB的所有3个分区

浏览 0提问于2019-08-24得票数 3

1回答

在物理计划中执行交换和排序步骤的配置单元存储桶表

、、、

我有两个表，它们都聚集在相同的列上，但是在连接聚集列上的两个表时，执行计划同时显示了交换和排序步骤。这两个表在相同的列(key_column)上存储桶。这两个表都是或压缩的，表A被分区和存储桶，表B在同一列上存储桶。我希望在我的计划中避免排序和交换步骤，并且根据文档，存储桶的表应该避免排序和交换步骤。我甚至尝试了下面的hive属性： spark.sql('set spark.sql.orc.filterPushdown=true') spark.sql('set hive.optimize.bucketmapjoin = true') spark.sql(

浏览 1提问于2019-06-12得票数 1

1回答

是否有人能澄清关于HIVE 0.14的查询？

、、

我们在我们的应用程序中使用Hive 0.14，当执行引擎在MR中时，我们可以更新ORC表，当我们设置执行引擎有TEZ并执行插入/update /delete时，它会抛出类似“/update/delete”的异常:与亚稳态/update/delete通信的/delete错误。org.apache.hadoop.hive.ql.lockmgr.LockException:与“org.apache.hadoop.hive.ql.exec.Heartbeater.heartbeat(Heartbeater.java:84)”的亚稳态通信错误当我们运行具有Group和Order数值字段和求和的查询时，

浏览 1提问于2015-05-13得票数 0

1回答

Pig: Slow Group By operator

、

在对Hive和Pig进行基准测试后，我发现Pig中的Group By运算符比Hive慢得多。我想知道是否有人经历过同样的情况？人们是否有任何技巧来提高这个操作的性能？(在这里添加一个之前的帖子建议的DISTINCT并没有帮助。我目前正在重新运行基准测试，并启用了LZO压缩)。

浏览 1提问于2013-08-18得票数 1

1回答

最快的方法来选择*其中不为空

、、、、

我想知道获得所有非空行的最快方法是什么。我想过这些： SELECT * FROM table WHERE column IS NOT NULL SELECT * FROM table WHERE column = column SELECT * FROM table WHERE column LIKE '%' (我不知道如何在SQL和/或Hive中测量执行时间，通过在pgAdmin中反复尝试4M行表，我没有发现明显的差别。)

浏览 3提问于2017-09-01得票数 4

回答已采纳

2回答

将星星之母插入动态分区单元表引发错误-分区规范，其中包含非分区列。

、、

我使用的是火花2.2.1和hive2.1。我正在尝试将多个分区插入到现有的分区单元格/分区表中。表是使用sparkSession创建的。我有一个带有分区P1和P2的表“mytable”。我在sparkSession对象上设置了以下内容： "hive.exec.dynamic.partition"=true "hive.exec.dynamic.partition.mode"="nonstrict" 代码： val df = spark.read.csv(pathToNewData) df.createOrReplaceTempView(&#

浏览 1提问于2018-08-06得票数 0

1回答

创建由一个/多个列分区的BigQuery外部表

、

我正在将一个java应用程序从Hadoop/Hive移植到Google /BigQuery。应用程序将avro文件写入hdfs，然后在文件之上创建一个/多个分区的Hive外部表。据我所知，Big目前只支持日期/时间戳分区，不支持嵌套分区。我们现在处理hive的方式是生成ddl，然后使用rest调用执行它。我在BigQuery docs中找不到对创建外部表的支持，所以我转而使用java库。我设法创建了一个外部表，但在传递给调用的参数中找不到对分区的任何引用。下面是我使用的代码片段： .... ExternalTableDefinition extTableDef = ExternalTab

浏览 0提问于2018-08-17得票数 0

回答已采纳

1回答

pySpark TempView表是如何连接到Hive表的

、、

我有一个注册为dataFrame的tempView和一个要加入的Hive表 df1.createOrReplaceTempView("mydata") df2 = spark.sql("Select md.column1,md.column2,mht.column1 \ from mydata md inner join myHivetable mht on mht.key1 = md.key1 \ where mht.transdate between '201

浏览 4提问于2017-08-26得票数 1

回答已采纳

1回答

如何编写UDF ( hive /spark-scala)以从配置单元查询返回值

、

我正在尝试使用Scala编写一个Hive UDF。此UDF应在另一个配置单元表上运行查询并返回获得的值例如。我在hive中有一个主表，其中包含emp_id、start_date、end_date和salary列。我正在尝试想出一个使用scala的hive udf来创建一个函数(GetSal)，在这个函数中，我可以传递id和一些日期，并在另一个hive查询中获得该id的有效工资，如select *，getSal(emp_id，passed_date)作为来自某个表的工资；你能告诉我如何做到这一点吗？注意-我可以通过将我的表与主表连接并运行between子句来获得详细信息，但我想探索UDF

浏览 15提问于2019-04-21得票数 0

2回答

我们可以在Hive中为外部表创建索引吗？

是否可以在HIVE中为外部表创建索引？它可以是任何索引，压缩或位图。在某些地方，我读到不可能在外部表上创建索引，但在其他地方，我也读到这并不重要。所以我想确定一下。

浏览 1提问于2016-07-15得票数 0

回答已采纳

2回答

Oracle Hadoop连接器诉Sqoop

、、

我使用了Sqoop来摄取从Oracle到Hadoop的数据，它运行得很好。只需4分钟就能将8600万条记录从Oracle带到Hive表，而无需使用Sqoop上的分区。谁能给出一些关于Oracle Hadoop连接器的细节，它的性能会比Sqoop更好吗？

浏览 4提问于2016-10-25得票数 2

回答已采纳

1回答

使用hive的Merge语句将增量数据合并到外部表中

、、、、

我有一个在Hive中映射的外部表(EMR-5.11.0上的版本2.3.2)，我需要每周更新一次新数据。合并由一个条件重排语句组成。表的位置在s3中，数据总是在那里(创建一次，我们只需要用新的数据更新它)。我读过这个关于使用事务性表()的ACID功能合并Hive中的数据的博客，但据我所见，唯一的解决方案是将我的外部表复制到一个临时的Hive内部表，该表是群集和事务性的，然后只有在该表上，我才能进行合并，并用新的合并表覆盖原始数据。这个表相当大(大约10 it的数据)，所以我想避免在每次合并操作之前复制它。是否有方法创建内部表并将其映射到现有数据？或者，除了merge语句之外，还有其他方法

浏览 5提问于2018-01-02得票数 7

1回答

如果表具有匹配的行数和主键，则内联接和左联接之间的差异

、、、、

在Server中，我正在创建一个视图，该视图引用几个表，这些表应该具有相同的行计数和主键，尽管它们之间有不同的列数据(因此需要为这个特定视图将它们全部拉到一起)。不过，我并不总是肯定他们会这么做。我知道确保我有所需的行数的唯一方法是使用左联接(或外部联接)，但我不确定这样做是否有很大的性能成本，如果是的话，如何量化它。不幸的是，更改表是我做不到的事情，因为应用程序依赖于它们的结构是这样的，所以我使用视图将数据拉到一起，我需要确保我正在以最有效的方式完成它。

浏览 3提问于2015-01-28得票数 1

回答已采纳

1回答

对于单元查询，OR是否提供比IN更好的性能？

、、、

为了获得一些特定的结果，我在Hive中有两个查询。 select * from table1 where col1 IN (a, b, c) select * from table1 where col1=a OR col1=b OR col1=c 根据我的理解， in 将在内部转换为或的序列，在spark中本地执行，但没有发现任何性能差异(如执行时序、过滤数据扫描等)。因此，根据功能，我们可以在in和OR中看到什么不同。任何帮助都将不胜感激。

浏览 1提问于2018-11-20得票数 0

1回答

哪个更好，列表函数还是查询？

、

我正在为颤振应用程序设计本地数据库。我发现Hive和ObjectBox最适合我的应用程序。但是hive没有内置的查询功能，您需要使用list函数，如where、find等，而ObjectBox可以查询和返回过滤后的列表。所以哪一个在性能上更好。

浏览 16提问于2022-04-07得票数 1

回答已采纳

3回答

错误:失败:获取锁错误:与亚稳态org.apache.hadoop.hive.ql.lockmgr.LockException通信错误

、、、

获取Error in acquiring locks时，尝试在分区表上运行count(*)。该表有365个分区，当在<= 350分区上筛选时，查询工作正常。当尝试包含更多用于查询的分区()时，会出现错误。处理Hive托管的ACID表，其默认值为 hive.support.concurrency=true //不能使其为假，它正在抛出<table> is missing from the ValidWriteIdList config: null，对于ACID read和write.hive.lock.manager=org.apache.hadoop.hive.ql.loc

浏览 5提问于2020-04-21得票数 0

回答已采纳

2回答

如何在使用SQOOP从配置单元导出数据后在SQL Server中触发触发器

、、

我正在使用Hive。我已经在其中实现了一些任务，并希望使用SQOOP将表从Hive导出到SQL Server中。当从配置单元中导出表时，我希望在SQL Server中触发触发器。有可能扣动扳机吗？请尽快回复我。谢谢。

浏览 0提问于2012-03-23得票数 0

回答已采纳

1回答

如果没有任何Map/Reduce (/Yarn)运行，是否可以对Hive表执行Spark？

、、

据我理解，Spark直接读取hdfs文件-这里不需要M/R。具体来说，没有使用基于Map/Reduce的Hadoop输入/OutputFormat(除了像HBase这样的特殊情况)。那么，在正常运行的蜂窝服务器上是否存在内置的依赖关系呢？还是只要求 ( a)独立火种 ( b)人类发展战略和 c)蜂巢转移服务器运行 - i.e Yarn/MRV1 are _**not**_ required? 用于访问hive文件的hadoop相关I/O格式似乎包括： TextInput/输出格式 ParquetFileInput/Output格式 Spark /催化

浏览 2提问于2015-02-27得票数 1

回答已采纳

6回答

RDBMS和Hive有什么区别？

、、、

在像MySQL这样的远程数据库管理系统中，Hive上也有数据库吗?我在手册上看到，hive只有表，我对此有点困惑。 RDBMS和Hive有什么不同的概念？ Tks之前

浏览 0提问于2011-08-03得票数 8

1回答

使用从Oracle导入sqoop的单元中错误的数据类型

、、

我正在尝试使用sqoop将Oracle表直接导入到hive中。 Oracle表使用数据类型NUMBER、VARCHAR2、RAW 当我试着： sqoop import ... --hive-import --hive-overwrite --hive-database default --fields-terminated-by '|' --hive-drop-import-delims --null-string '\\N' --null-non-string '\\N' --warehouse-dir "/test" 单元表中

浏览 2提问于2018-01-11得票数 0

1回答

失败: SemanticException [错误10001]

、、

我们创建了一个与blob存储帐户相关联的HDinsight集群，然后创建了hive表并使用hive查询毫无问题地加入了它。但是要删除集群并创建一个新的集群(与相同的blob存储相关联)，蜂巢表是不可见的。当我们运行hive查询时，我们会收到以下错误消息： file:/C:/apps/dist/hive-0.12.0.2.0.7.0-1559/conf/hive-log4j.properties中使用配置初始化的日志记录失败: SemanticException错误10001:第1行:14表未找到“tableName” 从集群中创建的蜂箱表是否有可能在另一个集群中运行而没有问题？还是一旦

浏览 0提问于2014-04-04得票数 0

回答已采纳

1回答

在Hive中执行多个表的有效连接

、、、、

我加入了大约14个表来创建Hive 1.2中的基表。每个表都有数百万条记录，这些都是执行查询时使用的参数 hive.exec.dynamic.partition=true; hive.exec.max.dynamic.partitions.pernode=200000; hive.exec.max.dynamic.partitions=200000; hive.exec.max.created.files=250000; hive.enforce.bucketing=true; hive.auto.convert.join=false; mapreduce.map.me

浏览 1提问于2016-06-17得票数 0

2回答

与Oracle相比，在Hadoop中对表使用索引有什么优势吗？

、、、、

我需要比较一下Oracle和Hadoop(Hive)中的索引。到目前为止，我可以在Hive中找到两种主要的索引技术，即紧凑索引和位图索引。我可以查看与Oracle相比，Hive中紧凑索引的性能差异。我需要了解更多在Hive中使用位图索引的用例/场景。此外，需要知道Hive是否支持反向键索引，升序和降序索引，如Oracle。

浏览 1提问于2016-12-27得票数 1

2回答

多表配置单元中的左半连接

、、、

如何在多个表中使用左半连接。例如，在SQL中，查询检索no。在美国工作的员工的比例是： select name,job_id,sal from emp where dept_id IN (select dept_id from dept d INNER JOIN Location L on d.location_id = L.location_id where L.city='US'

浏览 3提问于2017-02-12得票数 1

1回答

蜂箱外设表

、

我试图使用sqoop从Oracle导入数据到Hive。我使用了下面的命令一次，现在我想用新的数据覆盖现有的数据(Daily )。我又执行了这个命令。 sqoop import --connect jdbc:oracle:thin:@UK01WRS6014:2184:WWSYOIT1 --username HIVE --password hive --table OIDS.ALLOCATION_SESSION_DIMN --hive-overwrite --hive-database OI_DB --hive-table ALLOCATION_SESSION_DIMN 但我得到的错误

浏览 0提问于2014-10-14得票数 1

回答已采纳

1回答

单个记录查找的火花性能

、、、、

我正在进行性能测试，比较Spark和Tez上的Hive之间对现有内部Hive表的查询。在整个测试过程中，Spark显示的查询执行时间与Tez上的Hive相同或更快。这些结果与许多例子是一致的。但是，有一个值得注意的例外情况，即查询涉及在单个记录级别上基于键的选择。在这种情况下，星火在Tez上比Hive慢得多。在互联网上研究了这个话题之后，我找不到一个令人满意的答案，我想给SO社区举个例子，看看这是一个与我们的环境或数据相关的一次性案例，还是一个更大的与火花相关的模式。火花1.6.1火花控制:执行器2，可执行内存32G，执行器核心4。数据位于内部Hive表中，该表存储为用zlib压缩的OR

浏览 12提问于2016-10-18得票数 2

回答已采纳

1回答

限制速度的因素？

、

我今天刚刚在我们的服务器上安装了Presto (0.57版本)，当从日志中选择计数(*)时；对于一个只有6.4亿条记录(~64 17 )的表来说，这需要17分钟以上的时间。现在我的印象是，这对于presto来说太慢了，但我不确定。一些信息： Hive和Presto都是使用文档中的默认配置进行安装的。 Hive表是一个外部表，大约有24列，其中大部分是字符串，其中3列是数组，文件存储为文本文件(由于某些原因，Hive抱怨我的文件中有RCFile )。该表主要用于分组和计数操作。对于简单的表计数(*)，您是否有提高性能的技巧，或者目标查询时间应该是多少？干杯

浏览 2提问于2014-01-28得票数 0

1回答

“列中字段的容器格式”对于文件格式意味着什么？

、

来自Hadoop的权威指南有两个维度控制Hive中的表存储:行格式和文件格式。 --行格式指示如何存储特定行中的行和字段。用Hive术语来说，行格式是由SerDe定义的，它是序列化器反序列化器的一个portmanteau单词。当充当反序列化器时(在查询表时是这样)，SerDe将从文件中的字节反序列化一行数据到Hive内部用于对该行数据进行操作的对象。当用作序列化程序时(在执行INSERT或CTAS时就是这种情况)(请参阅页500中的“导入数据”)，表的SerDe将将Hive对一行数据的内部表示形式序列化为写入输出文件的字节。文件格式指示行中字段的容器格式。最简单的格式是纯文本文件，但是也

浏览 3提问于2019-05-14得票数 1

1回答

刷新另一个配置单元表中的一个配置单元表

、、

我有几个Hive表，我每小时使用Sqoop增量导入从RDBMS中引入这些表，并暂存它们。我正在连接这些表并创建新的维度表。每当我将新行从RDBMS引入Hive临时表时，我都必须刷新维度表。如果没有新行，则不应刷新dim表。我正在使用的hive版本没有ACID功能。需要一些关于如何在hive中实现这一点的建议。

浏览 0提问于2015-08-14得票数 0

1回答

使用Parquet文件格式与HadoopText输入格式的Spark中的10亿条记录连接(过滤器)

、、

当从Hive读取Spark中一个表的10亿条记录时，这个表有date和country列作为分区。它已经运行了很长一段时间，因为我们对它做了很多转换。如果我将Hive表文件格式更改为Parquet，会有什么性能吗？关于性能改进的任何建议。

浏览 1提问于2017-06-22得票数 0

1回答

如何使aws弹性mapreduce命令并行运行

、、

我在这里复习过，我的问题是如何在启动时在Amazon集群中设置这个"hive.exec.parallel.thread.number“选项？此外，设置此选项是否等同于执行以下操作？ cat hive_script.hql | parallel --gnu hive -e '{}' 我的hive脚本可以按任何顺序运行，因为它只是为现有表的每个新(基于时间的)分区启动了一组作业，以创建派生表的基于时间的分区。如果在我的例子中它们不是等价的，那么这些策略中的一种会产生更好的性能吗？

浏览 3提问于2014-01-27得票数 1

回答已采纳

1回答

如何通过rHadoopClient在字符串中传递逗号？

、、

我希望将存储在Hive中的表读入R中，并希望删除进程中的所有逗号(以确保我的列不会被弄糟)。我有以下命令 rHadoopClient::read.hive( "select regexp_replace( a_column, ',', '$$$' ), regexp_replace( b_column, ',', '$$$' ) from a_table" ) 我得到以下错误：失败: ParseException行1:63无法识别select表达式中“、”、“35671”附近的输入 Read.table中的错

浏览 2提问于2017-05-11得票数 0

回答已采纳

18回答

Hive内部表和外部表之间的区别？

、、

谁能告诉我Hive的外部表和内部表之间的区别。我知道不同之处在于丢弃桌子的时候。我不明白你所说的数据和元数据在内部被删除，只有元数据在外部表中被删除。有人能从节点的角度给我解释一下吗？

浏览 1提问于2013-06-11得票数 117

回答已采纳

2回答

火花如何将分区分配给执行器

、、

我有一个性能问题，在分析了Spark之后，我发现了数据的倾斜性：一开始我认为分区分布不均匀，所以我分析了每个分区的行数，但这似乎很正常(没有异常值)：但是问题仍然存在，我看到有一个执行者处理大部分数据：因此，现在的假设是，分区在执行程序中的分布并不均匀，问题是：如何将火花分区分配给执行者？和如何更改它以解决我的偏斜问题？代码非常简单： hive_query = """SELECT ... FROM <multiple joined hive tables>""" df = sqlContext.sql(hive

浏览 1提问于2021-04-16得票数 3

回答已采纳

1回答

为什么在Hive中创建基于hbase表的内部表会出错？

、

我有一个hbase表，我想把它映射到一个hive表。问题是，当我在hive中使用外部表时，它会完成，但当我想在hive中创建内部表时，它会抛出一个异常： message:Table yourtable *already exists within HBase*; use CREATE EXTERNAL TABLE instead to register it in Hive 使用的命令： CREATE TABLE A (key string, date_time timestamp) STORED BY 'org.apache.hadoop.hive.hbase.HBaseSto

浏览 1提问于2016-05-12得票数 0

1回答

是什么导致了蜂窝表分区中的不同模式？

、、

在当前hadoop集群中，我们有星星之交，但也有随机运行的蜂巢查询。我看到同一个单元表有不同的分区模式，如下所示：也就是说，如果表是按日期划分的，那么 hdfs dfs -ls /data/hive/warehouse/db_name/table_name/part_date=2019-12-01/ 给出结果 /data/hive/warehouse/db_name/table_name/part_date=2019-12-01/part-00001 .... /data/hive/warehouse/db_name/table_name/part_date=2019-12-01/part

浏览 1提问于2020-03-20得票数 0

回答已采纳

3回答

无法从配置单元查询`saveAsTable`之后的Spark DF - Spark SQL特定格式，与配置单元不兼容

、、、、

我正在尝试将数据帧保存为外部表，该表将同时使用spark和可能的hive进行查询，但不知何故，我无法使用hive查询或查看任何数据。它在spark中工作。以下是如何重现该问题的方法： scala> println(spark.conf.get("spark.sql.catalogImplementation")) hive scala> spark.conf.set("hive.exec.dynamic.partition", "true") scala> spark.conf.set("hive.exec.dynam

浏览 3提问于2019-08-02得票数 0

2回答

HIVE : External如何清理加载在user/hive/仓库/db/ Table目录中的文件

、、

根据文档，当我们在HIVE中创建一个外部表，然后删除该表时，元数据将被更新，而加载在HDFS目录/user/hive/仓库//>中的数据仍然存在吗？我有两个问题: 1.如何清理/user/ HIVE /warehouse//>中的文件? 2.当我再次尝试创建表时，文件同名但数据不同，蜂窝仓库文件应该不会被更新？(我问这个问题是因为我不确定这是一个设置问题还是一个预期的行为)

浏览 0提问于2017-07-06得票数 0

回答已采纳

1回答

在spark中读取hadoop.hive.ql.io.HiveSequenceFileOutputFormat蜂窝表

、、、

我在hadoop中有一个hive表，它的输出格式为 hadoop.hive.ql.io.HiveSequenceFileOutputFormat 我正在使用spark读取这个表。 spark.sql('select * from testtable where y = 2021 and month = 12 and day =12') 火花作业运行得非常慢，我已经尝试过调整每个执行器的执行器数量和内存，但是似乎没有任何东西可以提高性能。我在博客上看到，当谈到蜂箱表时，SequenceFile并不是最好的。这张桌子有更好的阅读方法吗？提前感谢您的帮助。

浏览 5提问于2021-12-17得票数 -1

2回答

如何用外部表和服务器优化蜂箱查询

、、

第1部分:我的环境我有以下上传到Hadoop的文件： are纯文本每一行包含JSON，如下所示： {code:[int], customerId:[string], data:{[something more here]}} code是从1到3000的数字， customerId总计高达400万，每日高达50万所有文件都是gzip 在hive中，我创建了带有自定义JSON的外部表(让我们称之为CUSTOMER_DATA) 来自每个date的所有文件都存储在单独的目录中--我将它用作Hive表中的分区。我所做的大多数查询都是通过date、cod

浏览 2提问于2014-10-21得票数 1