为CI设置Spark，如何模拟配置单元表_将Spark设置为配置单元的默认执行引擎_如何使用Spark SQL Scala API(非SQL)检查配置单元表是否为外部表 - 腾讯云开发者社区

java、apache-spark、hive

在使用Spark 1.6.2的Java应用程序中，我想在CI环境(travis或gitlabCI)上测试一些使用表(来自生产中的Apache Hive )的Spark SQL查询。如何注册一些Spark应用程序可以在没有外部配置单元元存储的情况下使用的表？注意:我不能在Java程序中这样做。

浏览 15提问于2019-03-09得票数 2

1回答

spark物理计划中的步骤未分配给DAG步骤

apache-spark、hive、cloudera、hortonworks-data-platform、catalyst-optimizer

我正尝试在spark SQL中调试一个返回不正确数据的简单查询。以下是示例查询from pyspark_llap import HiveWarehouseSession hive = HiveWarehouseSession.session(spa

浏览 3提问于2020-02-11得票数 1

3回答

Spark在加载Hive表时创建了多少个分区

apache-spark、hadoop、pyspark、apache-spark-sql

即使是Hive表或HDFS文件，当Spark读取数据并创建数据帧时，我认为RDD/dataframe中的分区数量将等于HDFS中的partfile数量。但是，当我使用配置单元外部表进行测试时，我可以看到这个数量与数据帧中分区的部分文件数量.The数量119不同。该表是一个Hive分区表，其中包含150个部分文件，最小文件大小为30MB，最大大小为118MB。那么，是什么决定了分区的数量呢？

浏览 69提问于2020-04-02得票数 3

3回答

无法从配置单元查询`saveAsTable`之后的Spark* DF - Spark SQL特定格式，与配置单元不兼容*

scala、apache-spark、hadoop、hive、apache-spark-sql

我正在尝试将数据帧保存为外部表，该表将同时使用spark和可能的hive进行查询，但不知何故，我无法使用hive查询或查看任何数据。它在spark中工作。以下是如何重现该问题的方法：hivescala> spark<

浏览 3提问于2019-08-02得票数 0

1回答

使用spark从一个配置单元读取所有表，然后写入另一个群集上的另一个配置单元

apache-spark、hadoop、hive

我们可以通过将hive-site.xml设置为spark.But的"conf“方向来读取或写入配置单元中的表。现在，我有两个可以连接到每个other.Let`s的群集，分别是群集上的配置单元1和另一个群集上的配置单元2 现在我需要从配置单元1读取数据并执行一些转换，然后写入配置单元2，问题是我只能将一个hive-site.xml文件放入

浏览 12提问于2018-12-20得票数 2

回答已采纳

3回答

如何使用Spark* SQL Scala API(非SQL)检查配置单元表是否为外部表*

apache-spark

我使用以下代码(Spark SQL Scala API)来检查Hive表是否为外部表，但Table API没有方法来回答给定表是否为外部表。我会问如何使用Spark SQL Scala API(而不是SQL)检查配置单元表是否为外部表val spark = SparkSession.builder().master(

浏览 22提问于2019-11-06得票数 1

回答已采纳

1回答

使用Spark在Qubole metastore中设置分区位置

apache-spark、hadoop、hive、qubole

如何在Qubole metastore中为我的Hive表设置分区位置？我知道这是Spark，但是如何使用MySQL访问它并传递带有修复的SQL脚本呢？你知道如何直接更新Qubole的转移存储吗？我希望将批处理中的位置传递给转移存储，以提高性能。

浏览 1提问于2018-04-11得票数 0

1回答

databricks UI中的Spark提交作业无法访问现有配置单元数据库

apache-spark、hive、databricks、azure-databricks

我在databricks中创建了一个spark提交作业来运行.py脚本。我在python脚本中创建了一个spark对象。我尝试访问现有的配置单元表。但是我的脚本失败了，错误是“表或视图找不到”。我应该在我的spark提交作业中添加一些配置设置来连接到现有的配置单元元存储吗？

浏览 7提问于2020-05-19得票数 0

回答已采纳

1回答

Aggregation或Join不会从外部表的配置单元查询中返回任何结果。我已经将配置单元设置为使用Spark (独立)作为查询引擎，而不是使用MR.。我已经创建了一个外部表(从elastichsearch索引)。no data return： SELECT count(*) FROM table1 我使用JDBC (直线)在Hive上执行查询从日志中看，select查询似乎是直接在elastic上执行的(没有spark<

浏览 15提问于2019-06-10得票数 1

2回答

外部配置单元表刷新表与MSCK修复

apache-spark、hive、hivecontext、hive-partitions

我有一个外部蜂窝表，存储为Parquet，分区在一个列上，比如as_of_dt，数据通过spark streaming插入。现在，每天都会添加新的分区。我正在执行msck repair table，以便配置单元元存储获得新添加的分区信息。这是唯一的办法，还是有更好的办法？我担心如果下游用户查询表，msck repair是否会导致数据不可用或数据陈旧的问题？我正在浏览HiveContext应用程序接口并查看refreshTable选项。

浏览 8提问于2018-08-07得票数 13

3回答

Spark中的配置单元元存储警告

apache-spark、hive、metastore

在启动spark-shell时，我经常收到这样的警告metastore. hive.metastore.schema.verificationFailed to get database default, returning NoSuchObjectException它们是什么意思，我该如何防止它

浏览 6提问于2016-12-14得票数 3

2回答

如何将temptable保存到Hive metastore (并在Hive中进行分析)？

apache-spark、hive、apache-spark-sql、spark-dataframe、apache-spark-1.3

我使用的是Spark 1.3.1。在配置单元中，如果我运行show tables，DataFrame在配置单元数据库中不会以表的形式出现。我已经将hive-site.xml复制到$SPARK_HOME/conf，但它没有帮助(数据帧也不会出现在配置单元元存储中)。我正在关注，使用的是Spar

浏览 0提问于2015-11-18得票数 0

2回答

当数据存储在对象存储中时，从Spark* SQL访问配置单元表*

apache-spark、hive、object-storage

我使用spark dataframe编写器将数据写入IBM Cloud Object Storage中的内部hive表，格式为parquet。因此，我的配置单元元存储在HDP集群中，我正在从HDP集群运行spark作业。此spark作业将数据以parquet格式写入IBM COS。sql访问数据要从分区表中获取数据

浏览 40提问于2018-12-18得票数 0

1回答

配置单元元存储中的上次访问时间更新

apache-spark、pyspark、hive、apache-spark-sql

我在配置单元控制台/ .hiverc文件中使用了以下属性，以便每当我查询该表时，它都会更新配置单元元存储的TBLS表中的LAST_ACCESS_TIME列。set hive.exec.pre.hooks = org.apache.hadoop.hive.ql.hooks.UpdateInputAccessTimeHook$PreExec; 但是，如果我使用spark-sql或spark-shell，它似乎无法工作，并且LAST_ACCESS_

浏览 1提问于2020-02-25得票数 5

2回答

为事务启用的配置单元存储区表

apache-spark、hive、transactional、orc

因此，我们尝试使用以下语句创建一个ORC格式的Hive表，并为事务设置存储桶并启用该表该表是在Hive中创建的，并且还反映在Metastore和Spark SQL(我们已配置<

浏览 1提问于2015-11-23得票数 2

1回答

连接海量/小型数据集的最有效方法

scala、apache-spark

我目前有一个名为chartEvents的大型RDD，其中包含以下形式的数据： valueNum: String, warning: String, error: String)CSVUtils.loadCSVAsTable(sqlContext, "data_unzipped/CHARTEVE

浏览 2提问于2016-11-16得票数 0

1回答

在不更改列名的情况下创建PySpark数据框

apache-spark、pyspark、apache-spark-sql、databricks

我使用下面的CTAS命令使用SparkSQL创建表。df = spark.read.format('ORC') \ .option('header',True) \

浏览 12提问于2019-12-23得票数 1

回答已采纳

2回答

通过sparkSQL创建蜂窝

apache-spark、hive、apache-spark-sql、data-processing

我已经创建了一个临时表，该表在列关键字上存储桶。但是，当我通过另一个表手动将数据插入到这个表中时，我看到了以00000_*为前缀的文件。我不确定spark sql是

浏览 1提问于2018-08-02得票数 5

5回答

如何从配置单元外部表创建数据帧

hadoop、apache-spark、dataframe、hive、apache-spark-sql

我们喜欢在Hive外部表的顶部创建数据帧，并使用hive模式和数据进行spark级别的计算。我们是否可以从hive外部表中获取模式并将其用作Dataframe模式。

浏览 69提问于2017-05-11得票数 1

回答已采纳

1回答

spark查询执行时间

scala、apache-spark、apache-spark-sql

我安装了本地hadoop单节点和配置单元，并将一些配置单元表存储在hdfs中。然后，我使用MySQL元存储区配置配置单元。现在我安装了spark，我正在对hive表进行一些查询，就像这样(在scala中)：result = hiveContext.sql("SE

浏览 2提问于2016-04-04得票数 2

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云