spark sql:如何优化多个巨型hive表的连接_如何使用Spark SQL识别hive表中的分区列_在Spark SQL中，是否可以将hive表与内存中的表连接起来？ - 腾讯云开发者社区

apache-spark、hive、apache-spark-sql、hiveql

有spark sql作业： spark.sql(s"""SELECT * select * from default.table1 created_dt between'180' day .collect() .foreach(println) 在作业中，应

浏览 25提问于2019-01-23得票数 1

2回答

Apache不使用来自Hive分区外部表的分区信息

apache-spark、hive、apache-spark-sql

我有一个简单的Hive外部表，它是在S3之上创建的(文件是CSV格式的)。当我运行hive查询时，它会显示所有记录和分区。但是，当我在Spark中使用相同的表时( Spark在分区列上有一个where条件)，它不会显示应用了分区筛选器。然而，对于Hive托管表，Spark可以使用分区信息并应用分区筛选器。是否有任何标志或设置可以帮助我使用星火中的

浏览 0提问于2019-08-24得票数 3

2回答

Spark是否包括用于联接的表流优化？

apache-spark、apache-spark-sql

Spark是否包括连接的表流优化，如果是，它如何决定要流哪个表？在进行联接时，Hive假设最后一个表是最大的。作为连接优化，它将尝试缓冲较小的连接表，并将最后一个连接表通过。如果联接列表中的最后一个表不是最大的表，则<e

浏览 9提问于2015-08-20得票数 5

回答已采纳

2回答

spark HWC无法写入现有表

scala、apache-spark、hive、save、hdp

在HDP 3.1.0中，HWC hive-warehouse-connector-assembly-1.0.0.3.1.0.0-78.jar，i不能根据数据库追加(或覆盖)到现有的表。我在一个名为DSN的数据库上测试，它工作，但在另一个名为CLEAN_CRYPT的数据库上它失败了。两个数据库都是加密的+ kerberos

浏览 2提问于2020-01-28得票数 2

2回答

配置单元或Spark查询中的分解问题

apache-spark、hive、apache-spark-sql、hiveql

有大约500,000行的配置单元表。它有一个保存JSON字符串的列。在json中有15个设备，其中每个设备都有嵌套的度量数组。测量数组的大小不是固定的。我们的目标是从测量中只获得每个设备的max(date)。VIEW explode(device_2.measurements) as d2LATERAL VIEW explode(device_15.measurements) as d15 我可以使用此SQL的</e

浏览 27提问于2021-10-15得票数 0

回答已采纳

2回答

蜂箱分区、火花分区和加入火花-它们之间的关系

apache-spark、hive、apache-spark-sql、apache-spark-dataset

试图理解Hive分区是如何与Spark分区相关联的，最后提出了一个关于联接的问题。我有两个外部Hive表；这两个表都由S3桶支持，并由date分区；因此，在每个桶中都有带有名称格式date=<yyyy-MM-dd>/<filename>的键。问题1:val table1 = spark.table("table1").as[Tabl

浏览 4提问于2018-04-25得票数 5

2回答

通过Spark读取Hive表的最佳方法是什么？

apache-spark、hive、pyspark、pyspark-sql

我从Hive表执行Spark读取，执行时间很长(15分钟)。我对优化查询执行感兴趣，所以我想知道这些查询的执行是否使用了Hive的执行引擎，通过这种方式，它类似于在Hive编辑器中执行查询，或者Spark使用Hive Metastore只知道文件的位置，然后直接处理文件import osfindspark.init() from pyspark.sql</

浏览 1提问于2019-07-29得票数 2

回答已采纳

3回答

你好，有人使用pyspark将hana数据卸载到hive中吗？？我面临着海量数据的内存问题。请给我建议

pyspark、hana

是否有人使用pyspark将hana数据卸载到hive？？我面临着海量数据的内存问题。请提个建议。我在较小的数据集上尝试，它是有效的。在巨型上，它给了JDBCDriverException:无法分配足够的内存。我正在使用sapJDBC驱动程序连接jdbcDF = spark.read.format("jdbc").option("driver", driver).o

浏览 2提问于2020-08-05得票数 1

3回答

如何从spark连接到远程配置单元服务器

apache-spark、hive、apache-spark-sql、spark-thriftserver

我在本地运行spark，希望访问位于远程Hadoop集群中的Hive表。[ml@master spark-2.0.0]$./bin/beeline beeline> !SLF4J: Found binding in [jar:file:/home

浏览 4提问于2016-10-12得票数 15

回答已采纳

3回答

应如何配置spark* sql以访问配置单元元存储？*

apache-spark、hive、apache-spark-sql、cloudera

我正在尝试使用Spark SQL从Hive元存储中读取一个表，但Spark给出了一个关于表未找到的错误。我担心Spark SQL会创建一个全新的空转储。/conf/hive-site.xml to /tmp/spark-568de027-8b66-40fa-97a4-2ec50614f486/hive-site.x

浏览 6提问于2015-07-01得票数 4

3回答

通过Spark* SQL将tableau与Elastic search连接起来*

elasticsearch、hive、tableau-api、apache-spark-sql

我找到了一个讨论如何通过Hive SQL将Tableau连接到Elastic Search的。我想知道有没有办法通过Spark SQL连接到Elastic Search，因为我对hive不是很熟悉。

浏览 2提问于2015-02-24得票数 0

1回答

Scala : JniBasedUnixGroupsMapping:错误获取组:找不到用户名

scala、maven、hadoop、apache-spark、hivecontext

我一直用scala中的spark从本地系统连接到Hive (它在集群中)，最后将我的hive-site.xml正确地放置在Spark/conf文件夹和类路径中，并且能够连接到转移，但无法访问蜂窝表。如何更改HiveContext的用户 15/12/22 10:28:42 INFO ParseDriver:解析命令:显示表15/12/

浏览 2提问于2015-12-22得票数 0

回答已采纳

1回答

连接到tableau中的spark数据框

apache-spark、hive、tableau-api、spark-dataframe

我们试图通过spark SQL连接在tableau中生成报告，但我发现我们最终连接到了hive meta-store。如果是这样的话，这种新的spark SQL连接有什么优势呢？有没有一种方法可以使用spark SQL从tableau连接到持久的spark数据帧。

浏览 0提问于2016-02-05得票数 0

2回答

HDP 3.0不能保存表格以保存细胞亚稳态

apache-spark、hive、hive-metastore、apache-spark-2.3

我使用spark.sql看到了spark中的表，但在hive数据库中看不到相同的表。我试过这个，但它并不是为了储存蜂巢而储存的。我如何配置蜂巢亚稳态？火花版本为2.3.1。("interfacing spark sql to hive metastore without configuration file") .config(

浏览 2提问于2018-11-15得票数 1

回答已采纳

3回答

连接到IntelliJ中的现有Hive* (使用SBT作为构建)*

intellij-idea、hive、sbt、apache-spark

我在我的ubuntu机器上有一个现有的蜂巢。我只是试图通过hive中的创建一个表。我使用IntelliJ进行开发。= "org.apache.spark" %% "spark-core" % "1.2.0" libraryDependencies += "org.apache.spark" %% "spark-sql现在，我只想使用

浏览 9提问于2015-02-09得票数 1

回答已采纳

3回答

我可以加入mysql的蜂巢吗？

mysql、hive、hdfs

我可以连接mysql和hive (hdfs上的蜂窝)之间的表吗？有人告诉我它在mysql和甲骨文之间起作用。

浏览 3提问于2014-12-17得票数 0

回答已采纳

5回答

火花放电查询蜂箱表

hive、pyspark

我正在使用CDH5.5但是，由于表无法识别表，所以我无法从pyspark查询该表。at org.apache.spark.sql.hive.client.ClientInterface$$anonfun$getTable$1.apply(ClientInterface.scala$class.getTable(ClientInterface.sc

浏览 14提问于2016-03-17得票数 35

2回答

Spark忽略TBLPROPERTIES中指定的parquet.compression属性

apache-spark-sql、hiveql、parquet

我需要从Spark创建一个Hive表，该表将采用拼花格式和快速压缩。下面的代码以拼花格式创建表，但使用GZIP压缩：如果我将SNAPPY更改为任何其他字符串，例如ABCDE，则代码仍然工作正常，只有压缩仍然是GZIP

浏览 3提问于2016-04-29得票数 4

回答已采纳

2回答

Spark是否使用？

apache-spark、hive、apache-spark-sql

我正在开发一个Spark应用程序，我有几个问题：我读到Spark在封面下使用Hive亚稳态？这是真的吗？我说的是一个纯粹的Spark应用程序，它不会显式地连接到任何Hive安装。我正在启动一个Spark应用程序，不需要使用Hive。有什么理由用蜂巢吗？据我所知，Spark比Hive快得多；所以，我不认为有任何理由使用Hive。但我说得对吗？

浏览 4提问于2017-05-09得票数 20

1回答

Hadoop 3和spark.sql:同时使用HiveWarehouseSession和spark.sql

apache-spark、hadoop、hive、pyspark、pyspark-sql

在此之前，我可以完全在spark.sql api中工作，以便与蜂巢表和火花数据帧进行交互。我可以查询使用同一个api注册的spark或hive表中的视图。要对蜂窝表执行任何操作，必须使用“HiveWarehouseSession”api，而不是spark.sql api。是否有任何方法继续使用spark.sql api并与hive交互，或者我必须

浏览 0提问于2019-08-29得票数 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云