在HDP 3.1中，spark如何在作为外部的配置单元中写入(创建)表 - 腾讯云开发者社区

apache-spark、hive、hive-metastore、apache-spark-2.3

我不能再用亚稳态保存一个表格来保存数据库了。我使用spark.sql看到了spark中的表，但在hive数据库中看不到相同的表。我试过这个，但它并不是为了储存蜂巢而储存的。我如何配置蜂巢亚稳态？火花版本为2.3.1。如果你想要更多的细节，请评论。 %spark import org.apache.spark.sql.SparkSession val spark = (SparkSession .builder .appName("interfacing spark sql to hive metastore without configuration

浏览 2提问于2018-11-15得票数 1

回答已采纳

1回答

读取配置单元托管表时，Spark sql返回空dataframe

apache-spark、hive、pyspark、apache-spark-sql

使用HDP 3.1中的Spark 2.4和Hive 3.1.0，我试图使用spark sql从hive读取托管表，但它返回一个空的dataframe，而它可以轻松地读取外部表。如何通过spark sql从hive读取托管表？注意:当从hive客户端读取时，hive maanged表不是空的。 1-我尝试通过ORC和拼花来格式化表格，但两者都失败了。 2-我无法使用HWC读取它。 3-我在使用JDBC时无法读取它。 os.environ["HADOOP_USER_NAME"] = 'hdfs' spark = SparkSession\ .build

浏览 26提问于2019-09-25得票数 1

1回答

如何访问Hive中的现有表？

scala、apache-spark、hive、apache-spark-sql

我正在尝试用scala访问spark应用程序中的蜂箱。我的代码： val hiveLocation = "hdfs://master:9000/user/hive/warehouse" val conf = new SparkConf().setAppName("SOME APP NAME").setMaster("local[*]").set("spark.sql.warehouse.dir",hiveLocation) val sc = new SparkContext(conf) val spark = SparkS

浏览 1提问于2017-10-21得票数 3

2回答

当数据存储在对象存储中时，从Spark SQL访问配置单元表

apache-spark、hive、object-storage

我使用spark dataframe编写器将数据写入IBM Cloud Object Storage中的内部hive表，格式为parquet。因此，我的配置单元元存储在HDP集群中，我正在从HDP集群运行spark作业。此spark作业将数据以parquet格式写入IBM COS。这就是我开始spark会话的方式 SparkSession session = SparkSession.builder().appName("ParquetReadWrite") .config("hive.metastore.

浏览 40提问于2018-12-18得票数 0

1回答

Pyspark:在远程Hive Server中选择数据

python、hadoop、hive、pyspark

尝试读取和写入存储在远程Hive Server中的数据。我遵循这个例子： from os.path import expanduser, join, abspath from pyspark.sql import SparkSession from pyspark.sql import Row # warehouse_location points to the default location for managed databases and tables warehouse_location = 'hdfs://quickstart.cloudera:8020/user/hi

浏览 0提问于2017-09-04得票数 0

回答已采纳

1回答

在HDP2.6中将Spark写入Hive可访问表

apache-spark、hadoop、hive、hdp

我知道已经有很多关于从星火中写信给蜂巢的答案，但这些答案似乎都不适合我。所以首先是一些背景。这是一个较旧的集群，运行HDP2.6，即Hive2和Spark2.1。这里是一个示例程序： case class Record(key: Int, value: String) val spark = SparkSession.builder() .appName("Test App") .config("spark.sql.warehouse.dir", "/app/hive/warehouse") .enableHiveSu

浏览 0提问于2020-05-21得票数 0

回答已采纳

2回答

了解如何在星火中执行Hive SQL

apache-spark、hive、mapreduce、pyspark

我是新来的火花和蜂巢。我需要了解当蜂箱表在星火中被查询时后面发生了什么。我正在使用PySpark 例如： warehouse_location = '\user\hive\warehouse' from pyspark.sql import SparkSession spark =SparkSession.builder.appName("Pyspark").config("spark.sql.warehouse.dir", warehouse_location).enableHiveSupport().getOrCreate() DF = s

浏览 0提问于2018-05-07得票数 0

回答已采纳

3回答

Spark sql在HDP的配置单元中找不到表

apache-spark、hive、hdp

我使用HDP3.1，我添加了Spark2，蜂窝和其他需要的服务。我关闭了蜂巢中的ACID功能。spark作业在hive中找不到表。但是表存在于Hive中。异常如下: org.apache.spark.sql.AnalysisException:表或视图未找到在Spark的conf文件夹中有hive-site.xml。它由HDP自动创建。但它与配置单元的conf文件夹中的文件不同。从日志中，spark可以正确地获取hive的节约URI。我使用spark sql并在spark-shell中创建了一个hive表。我发现这个表是在spark.sql.warehouse.dir指定的文件夹中创建的。我将

浏览 0提问于2019-04-20得票数 0

1回答

运行示例时出错

java、hadoop、apache-spark、hive

我有下面的，可以在官方的apache/spark上找到。我花了很多时间了解如何在Hortonworks Hadoop Sandbox中运行这个示例，但没有成功。目前，我正在做以下工作：导入作为我的Maven-项目，这是很好的工作，我没有任何问题的礼仪，所以这里没有问题，我想。下一步是准备在我的Hadoop中运行的代码--问题从这里开始，我可能设置了一些错误。这就是我要做的：将SparkSession设置为主从本地，将spark.sql.warehouse.dir更改为hive.metastore.uris，并将节俭://localhost:9083(如我在安巴里的蜂巢中

浏览 2提问于2017-12-18得票数 1

回答已采纳

2回答

星火Sql -插入到外部蜂巢表错误

apache-spark、hive、apache-spark-sql、parquet

我试图通过spark将数据插入到外部单元表中。我的蜂箱桌子是通过一根柱子装的。创建外部单元表的查询如下 create external table tab1 ( col1 type,col2 type,col3 type) clustered by (col1,col2) sorted by (col1) into 8 buckets stored as parquet 现在，我尝试将数据从一个拼花文件(存储在hdfs中)存储到表中。这是我的密码 SparkSession session = SparkSession.builder().appName("ParquetRead

浏览 0提问于2018-10-04得票数 0

1回答

在Spark中，我无法使用hive支持创建一个表

scala、apache-spark

我正在试着遵循下面的例子使用hive支持创建一个表，但我一直收到以下错误消息： org.apache.spark.sql.AnalysisException: Hive support is required to CREATE Hive TABLE (AS SELECT); 'CreateTable `default`.`sales`, org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe, ErrorIfExists +- Project [num#2] +- SubqueryAlias test +- View

浏览 23提问于2022-08-16得票数 0

2回答

如何在新的spark会话中再次读回spark表？

python、apache-spark、pyspark、apache-spark-sql

我可以在表创建后立即读取它，但是如何在另一个spark会话中再次读取它呢？给定代码： spark = SparkSession \ .builder \ .getOrCreate() df = spark.read.parquet("examples/src/main/resources/users.parquet") (df .write .saveAsTable("people_partitioned_bucketed")) # retrieve rows from table as expected spark.sql("

浏览 0提问于2018-01-24得票数 5

2回答

如何避免AssertionError同时执行对Hive表的ORC格式的查询？

apache-spark、hive、pyspark、pyspark-sql、orc

我正在从PySpark运行一个简单的Hive查询，但是它会引发一个错误。这张表是ORC格式的。需要一些帮助。下面是代码 spark = SparkSession.builder.appName("Termination_Calls Snapshot").config("hive.exec.dynamic.partition", "true").config("hive.exec.dynamic.partition.mode", "nonstrict").enableHiveSupport().getOrCreate

浏览 9提问于2019-08-27得票数 1

回答已采纳

2回答

Spark忽略TBLPROPERTIES中指定的parquet.compression属性

apache-spark-sql、hiveql、parquet

我需要从Spark创建一个Hive表，该表将采用拼花格式和快速压缩。下面的代码以拼花格式创建表，但使用GZIP压缩： hiveContext.sql("create table NEW_TABLE stored as parquet tblproperties ('parquet.compression'='SNAPPY') as select * from OLD_TABLE") 但在色调"Metastore表“”-> TABLE ->“属性中，它仍然显示： | Parameter | Value

浏览 3提问于2016-04-29得票数 4

回答已采纳

1回答

如何使用盐化技术连接具有倾斜数据的数据帧

apache-spark、pyspark、skew

我是spark的新手，正在尝试理解如何在spark中处理倾斜的数据。我已经创建了两个表employee和department。员工对其中一个部门的数据进行了倾斜。其中一种解决方案是广播部门表，这很好用。但是我想知道如何在下面的代码中使用加盐技术来提高性能。 from pyspark.sql import SparkSession import pyspark.sql.functions as f spark = SparkSession.builder.appName("skewTestSpark").config("spark.sql.warehouse.dir&

浏览 24提问于2020-09-06得票数 1

1回答

关于SparkSQL (星火和蜂巢连接)的问题

scala、apache-spark、apache-spark-sql、hive

我正在尝试从Hive数据库中检索数据到我的Spark中，即使DB中有数据(我用Hive检查过它)，使用Spark进行查询也不会返回任何行(不过它会返回列信息)。我已经将hivesite.xml文件复制到文件夹(被请求)。进口 import org.apache.spark.SparkConf import org.apache.spark.SparkContext import org.apache.spark.rdd.RDD import org.apache.spark.sql import org.apache.spark.storage.StorageLevel import or

浏览 1提问于2022-11-09得票数 0

回答已采纳

1回答

无法将Spark Dataframe保存为HDP 3.0中的表

scala、apache-spark、apache-spark-sql、hdp

我有一个数据帧，我正试着将它保存为我的hive表。我已经尝试了所有可能的方法，但无法将其保存为HDP 3.0中的表。我正在使用下面的代码。 var sparksession = SparkSession.builder() .appName("appname") .config("hive.exec.dynamic.partition", "true") .config("hive.exec.dynamic.partition.mode", "nonstrict")

浏览 3提问于2020-05-17得票数 0

1回答

将dynamodb表复制到配置单元的pyspark代码问题:不允许操作

hive、pyspark、amazon-dynamodb、amazon-emr

我正在尝试使用pyspark代码从aws emr上的Dynamodb创建一个外部配置单元表。当我在hive提示符上执行该查询时，它工作得很好，但当我将它作为pyspark作业执行时，它就失败了。代码如下： from pyspark import SparkContext from pyspark.sql import SparkSession import os spark = SparkSession.builder.enableHiveSupport().getOrCreate() spark.sql('use ash_data') spark.sql(

浏览 2提问于2019-05-10得票数 2

4回答

parquet上的配置单元外部表未获取数据

apache-spark、hive、apache-spark-sql、hiveql、parquet

我正在尝试创建一个datapipeline，其中的收入数据被存储到拼图中，并且我创建了一个外部的hive表，用户可以查询hive表并检索数据，.I能够保存拼图数据并直接检索它，但是当我查询hive表时，它不会返回任何行。我做了以下测试设置 --CREATE EXTERNAL HIVE TABLE创建外部表emp ( id double，hire_dt timestamp，user string )存储为拼接位置‘/test/emp’ 现在在一些数据上创建了dataframe并保存到parquet。 -创建数据帧并插入数据 val employeeDf = Seq(("1",

浏览 47提问于2018-12-14得票数 1

回答已采纳

1回答

无法查看通过Spark SQL创建的新数据

java、apache-spark、hive、apache-spark-sql

我正面临一个问题，在这个问题中，我无法查看来自Hive的某些数据。重现问题的步骤。创建一个表 drop table if exists hive_parquet_nulls_test ; create table hive_parquet_nulls_test ( name String ) partitioned by (report_date DATE) stored as PARQUET; 然后创建一个具有新列的数据框并加载它们 import java.sql.Date import org.apache.spark.sql._ import org.apache.spark.s

浏览 30提问于2019-12-21得票数 3

回答已采纳