使用API而不是SQL从Spark创建配置单元表？

、、

我想创建一个带有分区的hive表。我可以使用Spark-SQL来做这件事，使用： spa

浏览 7提问于2017-08-13得票数 1

3回答

如何使用Spark* SQL Scala API(非SQL)检查配置单元表是否为外部表*

我使用以下代码(Spark SQL Scala API)来检查Hive表是否为外部表，但Table API没有方法来回答给定表是否为外部表。我会问如何使用Spark SQL Scala API(而不是SQL)检查配置单元表是否为外部表代码

浏览 22提问于2019-11-06得票数 1

回答已采纳

2回答

在Spark中，CREATE table命令是否创建外部表？

、、、

基于GitHub ()中的以下线程，我理解CREATE TABLE + Options (如JDBC)，将创建一个配置单元外部表？这些类型的表不会实现自身，因此当通过SQL删除该表或从Databricks tables UI中删除该表时，不会丢失数据。

浏览 2提问于2016-04-29得票数 2

1回答

使用Spark* SQL列出Hbse表*

、、

我想使用Spark SQL列出Hbase表。val hiveContext = new HiveContext(sqlContext) val listOfTables = hiveContext.sql

浏览 2提问于2017-01-22得票数 0

1回答

使用Spark时如何在hive中获取TimeStamp数据

、

val sql = "select time from table"在hive表中，timestamp.whenval data = sql(sql).map(_.get(0).toString)谁能告诉我如何使用Spark在hive中获取TimeStamp数据？

浏览 0提问于2016-10-26得票数 0

1回答

将dynamodb表复制到配置单元的pyspark代码问题:不允许操作

、、、

我正在尝试使用pyspark代码从aws emr上的Dynamodb创建一个外部配置单元表。当我在hive提示符上执行该查询时，它工作得很好，但当我将它作为pyspark作业执行时，它就失败了。代码如下：from pyspark.sql import SparkSession spark = SparkSession.builder.enableHiveSuppo

浏览 2提问于2019-05-10得票数 2

1回答

配置Spark和独立配置单元MetaStore以将DafaFrames持久化到s3

、、、、

我正在尝试使用HiveContext在SparkSQL中持久化一个DataFrame，当我将我的作业提交到独立的本地spark服务器时，我看到了以下错误：这是我的spark-submit： ./bin/sp

浏览 0提问于2015-11-19得票数 2

3回答

无法从配置单元查询`saveAsTable`之后的Spark* DF - Spark *SQL特定格式，与配置单元不兼容

、、、、

我正在尝试将数据帧保存为外部表，该表将同时使用spark和可能的hive进行查询，但不知何故，我无法使用hive查询或查看任何数据。它在spark中工作。以下是如何重现该问题的方法：hivesc

浏览 3提问于2019-08-02得票数 0

2回答

通过sparkSQL创建蜂窝

、、、

我已经创建了一个临时表，该表在列关键字上存储桶。但是，当我通过另一个表手动将数据插入到这个表中时，我看到了以00000_*为前缀的文件。我不确定spark sql是否将数据写入存储桶

浏览 1提问于2018-08-02得票数 5

3回答

createOrReplaceTempView在Spark中是如何工作的？

、、

我是Spark和Spark SQL的新手。如果我们将对象的RDD注册为表，spark会将所有数据保存在内存中吗？

浏览 87提问于2017-05-17得票数 74

回答已采纳

2回答

使用Spark* SQL创建带有连接的配置单元表时使用的引擎*

、、、

我不能从文档中确定当使用Spark中的HiveContext创建Hive表时，它是使用Spark引擎还是标准Hive mapreduce作业来执行任务？val sc = new SparkContext() CREATE TABLE db.new_table

浏览 0提问于2018-07-13得票数 0

3回答

如何在不删除没有新数据的分区的情况下在Spark中分区和写入DataFrame？

、、、

我正在尝试使用DataFrameWriter以Parquet格式将DataFrame保存到HDFS，该文件由三个列值划分，如下所示：singlePartition.write.mode(SaveMode.Overwrite).parquet(path + "/eventdate=2017-01-01/hour=0/processtime=1234567890")

浏览 2提问于2017-02-19得票数 37

1回答

如何从Apache Spark* on Analytics Engine读取和写入配置单元表*

、、

我想在Watson Studio中的Jupyter笔记本上使用Spark on analytics engine，以便能够读取和写入Hive表，但我不清楚如何通过读取Spark 来做到这一点。不清楚的原因是IBM Analytics Engine预配置了Spark，并且不提供root访问权限。我在网上找到了一些generic hadoop的帖子，描述了如何使用元存储位置创建hive.xml，但不清楚如何将其转换到IBM Analytics Engine

浏览 27提问于2018-06-02得票数 0

回答已采纳

3回答

如何从spark连接到远程配置单元服务器

、、、

我在本地运行spark，希望访问位于远程Hadoop集群中的Hive表。[ml@master spark-2.0.0]$./bin/beeline beeline> !SLF4J: Found binding in [jar:file:/home/ml/spark&#x

浏览 4提问于2016-10-12得票数 15

回答已采纳

2回答

Spark SQL扮演什么角色？内存DB？

、

最近我开始使用Spark SQL。我读了数据源Api，仍然不明白Spark SQL的作用是什么。真的愿意接受任何答案。诚挚的问候。

浏览 0提问于2018-01-16得票数 1

1回答

pyspark 1.3.0将数据帧保存到配置单元表中

、、

我正在使用spark 1.3.0 (在python)DF.show(3) 我正在尝试将该DF保存到不存在配置单元表中"write" among (IMSI, Date, Hour, Tim

浏览 0提问于2017-01-20得票数 0

1回答

Spark上的配置单元不返回聚合或连接查询的结果

、、

Aggregation或Join不会从外部表的配置单元查询中返回任何结果。我已经将配置单元设置为使用Spark (独立)作为查询引擎，而不是使用MR.。我已经创建了一个外部表(从elastichsearch索引)。有了SELECT，一切都好，数据返回： SELECT * FROM table1 LIMIT 100 尝试使用简单

浏览 15提问于2019-06-10得票数 1

1回答

在spark* 2.0中访问指定数据库限定符的配置单元表*

、、

我正在尝试使用spark sql访问指定数据库限定符的配置单元表。我正在使用sparksession，因为它是spark 2.0或更高版本。例如，我正在尝试向现有表中添加一个分区。查询为它不会抛出任何错误，但甚至不会创建任何分区。是<em

浏览 1提问于2018-02-28得票数 0

3回答

spark.sql.autoBroadcastJoinThreshold是否使用Dataset的join运算符来连接？

、

我想知道spark.sql.autoBroadcastJoinThreshold属性对于在所有工作节点上广播较小的表(同时进行连接)是否有用，即使在连接方案使用Dataset API连接而不是使用Spark如果我的更大的表是250吉，更小的是20 G，那么是否需要设置这个配置：spark.sql.autoBroadcastJoinThreshold = 21 Gi

浏览 6提问于2017-05-15得票数 24

回答已采纳

2回答

我收到"Failed with exception java.io.IOException:/user/hive/warehouse/people/part-r-00001.parquet not a SequenceFile“

、、、、

我通过在我的数据帧上调用.saveAsTable创建了一个Spark SQL表。该命令完全成功。但是，现在当我查询表时，拼图文件似乎已损坏。java.io.IOException: hdfs://ip:8020/user/hive/warehouse/people/part-r-00001.parquet not a SequenceFile"scala >

浏览 3提问于2016-01-20得票数 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何使用Spark* SQL Scala API(非SQL)检查配置单元表是否为外部表*

在Spark中，CREATE table命令是否创建外部表？

使用Spark* SQL列出Hbse表*

使用Spark时如何在hive中获取TimeStamp数据

将dynamodb表复制到配置单元的pyspark代码问题:不允许操作

配置Spark和独立配置单元MetaStore以将DafaFrames持久化到s3

无法从配置单元查询`saveAsTable`之后的Spark* DF - Spark *SQL特定格式，与配置单元不兼容

通过sparkSQL创建蜂窝

createOrReplaceTempView在Spark中是如何工作的？

使用Spark* SQL创建带有连接的配置单元表时使用的引擎*

如何在不删除没有新数据的分区的情况下在Spark中分区和写入DataFrame？

如何从Apache Spark* on Analytics Engine读取和写入配置单元表*

如何从spark连接到远程配置单元服务器

Spark SQL扮演什么角色？内存DB？

pyspark 1.3.0将数据帧保存到配置单元表中

Spark上的配置单元不返回聚合或连接查询的结果

在spark* 2.0中访问指定数据库限定符的配置单元表*

spark.sql.autoBroadcastJoinThreshold是否使用Dataset的join运算符来连接？

我收到"Failed with exception java.io.IOException:/user/hive/warehouse/people/part-r-00001.parquet not a SequenceFile“

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐