如何使用Spark SQL识别hive表中的分区列_Spark不使用Hive分区外部表中的分区信息_如何在Spark中获取hive表的分区信息 - 腾讯云开发者社区

、、、

我正面临一个问题，在这个问题中，我无法查看来自Hive的某些数据。重现问题的步骤。创建一个表 drop table if exists hive_parquet_nulls_test ; create table hive_parquet_nulls_test ( name String ) partitioned by (report_date DATE) stored as PARQUET; 然后创建一个具有新列的数据框并加载它们 import java.sql.Date import org.apache.spark.sql._ import org.apache.spark.s

浏览 30提问于2019-12-21得票数 3

回答已采纳

1回答

如何使用Spark SQL识别hive表中的分区列

、、、、

我正在尝试使用Spark .I来识别hive表中的分区列名。我可以使用show partitions，然后解析结果集来提取分区列.However，缺点是，如果一些tales中没有分区，show partition失败.Is有一种更有机的方法来识别hive表中的分区列名。如有任何帮助，将不胜感激 v_query="show partitions {}".format(table_name) a=self.spark.sql(v_query) val=a.rdd.map(list).first() val1=''.join(val) partition_list=

浏览 94提问于2019-09-24得票数 2

1回答

如何从一个位置读取表并将数据写入其他集群的表

、

我从设置hive.metastore.uris的metastore启动spark应用程序中读取表统计数据。但是，我需要将数据写入另一个配置单元。我已经尝试清理活动会话和默认会话，使用新的metastore uri构建另一个会话，但spark继续尝试写入第一个hive的表。 val spark = SparkSession.builder() .appName(appName) .enableHiveSupport() .config("hive.metastore.uris", FIRST_METASTORE)

浏览 9提问于2019-04-11得票数 0

2回答

Spark Partitioning Hive表

、、、、

我正在尝试使用不同的时间戳对hive表进行分区。我有一个带有时间戳的表，但是当我执行hive分区查询时，它告诉我它不是有效的分区列。下面是表格： +---+-----------------------+ |id |rc_timestamp | +---+-----------------------+ |1 |2017-06-12 17:18:39.824| |2 |2018-06-12 17:18:39.824| |3 |2019-06-12 17:18:39.824| +---+-----------------------+ spark.sql("SE

浏览 0提问于2019-06-13得票数 3

1回答

在单元表中交换分区时出错

、

我正在尝试将增量数据与现有的hive表合并。为了进行测试，我从基表中创建了一个虚拟表，如下所示： create base.dummytable like base.fact_table 表: base.fact_table是基于dbsource String的分区，当我检查虚拟表的DDL时，我可以看到分区列是正确定义的。 PARTITIONED BY ( | | `dbsource` string) 然后，我试图先删除虚拟表中的一个分区。 spark.sql("alter table

浏览 0提问于2019-07-05得票数 1

回答已采纳

2回答

将星星之母插入动态分区单元表引发错误-分区规范，其中包含非分区列。

、、

我使用的是火花2.2.1和hive2.1。我正在尝试将多个分区插入到现有的分区单元格/分区表中。表是使用sparkSession创建的。我有一个带有分区P1和P2的表“mytable”。我在sparkSession对象上设置了以下内容： "hive.exec.dynamic.partition"=true "hive.exec.dynamic.partition.mode"="nonstrict" 代码： val df = spark.read.csv(pathToNewData) df.createOrReplaceTempView(&#

浏览 1提问于2018-08-06得票数 0

2回答

Spark SQL saveAsTable返回空结果

、、、、

我使用以下代码在Spark SQL中创建/插入数据到Hive表中： val sc = SparkSession .builder() .appName("App") .master("local[2]") .config("spark.sql.warehouse.dir", "file:///tmp/spark-warehouse") .enableHiveSupport() .getOrCreate() // actual code result.createOrReplaceTempView(

浏览 3提问于2017-02-27得票数 3

3回答

无法从配置单元查询`saveAsTable`之后的Spark DF - Spark SQL特定格式，与配置单元不兼容

、、、、

我正在尝试将数据帧保存为外部表，该表将同时使用spark和可能的hive进行查询，但不知何故，我无法使用hive查询或查看任何数据。它在spark中工作。以下是如何重现该问题的方法： scala> println(spark.conf.get("spark.sql.catalogImplementation")) hive scala> spark.conf.set("hive.exec.dynamic.partition", "true") scala> spark.conf.set("hive.exec.dynam

浏览 3提问于2019-08-02得票数 0

2回答

spark HWC无法写入现有表

、、、、

在HDP 3.1.0中，HWC hive-warehouse-connector-assembly-1.0.0.3.1.0.0-78.jar，i不能根据数据库追加(或覆盖)到现有的表。我在一个名为DSN的数据库上测试，它工作，但在另一个名为CLEAN_CRYPT的数据库上它失败了。两个数据库都是加密的+ kerberos import com.hortonworks.spark.sql.hive.llap.HiveWarehouseSession._ import com.hortonworks.spark.sql.hive.llap.HiveWarehouseSession val hiv

浏览 2提问于2020-01-28得票数 2

1回答

Java spark to hive表插入到动态分区异常

、、、

我有以下代码，其中我将数据插入到表txnaggr_rt_fact中，该表有2列，分别为分区的txninterval和intervaltype。我已经在spark sql中启用了动态分区。如果分区已经存在，则没有问题。数据将被插入到表中，但是如果分区不存在，则会出现异常，但是如果分区已经存在，则不会出现问题。 SparkSession spark = SparkSession.builder().appName("Java Spark Hive Example") .config("spark.sql.warehouse.dir"

浏览 26提问于2018-09-06得票数 0

回答已采纳

1回答

ValidationFailureSemanticException:分区规范包含非分区列

、、、

我正在尝试一个简单的用例，将其插入到S3上的单元格分区表中。我正在齐柏林飞艇笔记本上运行我的代码，下面是我的代码以及命令输出的截图。我检查了hive表和dataframe的模式，列名没有大小写差异。我得到了下面提到的例外。 import org.apache.spark.sql.hive.HiveContext import sqlContext.implicits._ System.setProperty("hive.metastore.uris","thrift://datalake-hive-server2.com:9083") val hiveCont

浏览 2提问于2020-10-07得票数 2

回答已采纳

3回答

在Spark中将多个小文件合并为几个大文件

、、、、

我通过Spark使用hive。在我的spark代码中，我有一个Insert Insert my table查询。输入数据为200+gb格式。当Spark写入分区表时，它会生成非常小的文件(以kb为单位的文件)。因此，现在输出分区表文件夹中有5000+小kb文件。我想把这些合并成几个大的MB文件，可能是几个200mb的文件。我尝试使用配置单元合并设置，但它们似乎不起作用。 'val result7A = hiveContext.sql("set hive.exec.dynamic.partition=true") val result7B = hiveContext.

浏览 6提问于2015-06-24得票数 8

回答已采纳

2回答

将数据保存到蜂巢中的ArrayIndexOutOfBoundsException

、、

在使用下面的API代码将数据存储到一个单元表时，我遇到了问题。 df.write.mode(SaveMode.Append).format("parquet").partitionBy("ord_deal_year", "ord_deal_month", "ord_deal_day").insertInto(tableName) 我的Dataframe大约有48列。其中Hive表有90列。当我试图保存Dataframe时，我会收到以下错误： 12:56:11 Executor task launch worker-0 ERROR

浏览 0提问于2018-03-05得票数 0

回答已采纳

1回答

Apache spark WHERE子句不起作用

、、、、

我在一个较小的yarn集群上运行Apache Spark 1.6.1。我正在尝试从一个hive表中拉入数据，使用如下查询： df = hiveCtx.sql(""" SELECT * FROM hive_database.gigantic_table WHERE loaddate = '20170502' """) 但是，无论我为loaddate指定什么值，最终得到的数据帧都是整个表。我能想到的唯一奇怪的事情是hive表是按loaddate列进行分区的。仅配置单元似乎可以正确运行此查询。我尝试过使用.filter()和不同

浏览 10提问于2017-07-13得票数 0

回答已采纳

1回答

Spark不使用Hive分区外部表中的分区信息

、、、

我有一个复杂/嵌套的Hive-External表，它是在HDFS上创建的(文件采用avro格式)。当我运行配置单元查询时，它会显示所有记录和分区。但是，当我在Spark中使用相同的表时： val df = spark .read .format("avro") .load("avro_files") .option("avroSchema", Schema.toString) 它不显示分区列。但是，当我使用spark.sql("select * from hive_External_Table")时，它很好，我可以在创建的

浏览 15提问于2020-01-21得票数 0

2回答

如何在蜂窝表中插入具有映射列的数据帧

、、、、

我有一个包含多个列的dataframe，其中一个列是map(string，string)类型。我能够打印这个数据，有列作为地图，给数据地图(“双关”-> "Pune")。我想要将这个dataframe写到hive表(存储为avro)，该表具有与map类型相同的列。 Df.withcolumn("cname", lit("Pune")) withcolumn("city_code_name", map(lit("PUN"), col("cname")) Df.show(false) //tab

浏览 4提问于2020-02-27得票数 0

4回答

将火花数据存储到蜂巢中:表格不可读，因为“SequenceFile不是块”

、、、

我希望使用PySpark将数据保存到一个Hive表中。指出： "spark.sql.hive.convertMetastoreParquet:当设置为false时，Spark将使用Hive SerDe来处理拼花表，而不是支持内置的。“ 查看，似乎可以设置此属性： from pyspark.sql import HiveContext sqlContext = HiveContext(sc) sqlContext.sql("SET spark.sql.hive.convertMetastoreParquet=false") # code to create

浏览 2提问于2015-07-17得票数 9

回答已采纳

1回答

仅在string Hive类型的分区键上支持过滤。

、、、

最近，我们开始面对spark 2.4.4与Hive1.2.1版本的问题。当我们试图从按字符串类型进行分区的表中读取数据时 spark.sql("select count(*) from table where #conditions"); Caused by: java.lang.RuntimeException: Caught Hive MetaException attempting to get partition metadata by filter from Hive. You can set the Spark configuration setting spa

浏览 3提问于2021-07-13得票数 0

回答已采纳

1回答

Pyspark sql用于创建配置单元分区表

、、

我正在尝试使用spark sql从pyspark dataframe创建一个hive paritioned表。下面是我正在执行的命令，但得到了一个错误。错误消息如下。 df.createOrReplaceTempView(df_view) spark.sql("create table if not exists tablename PARTITION (date) AS select * from df_view") 错误：pyspark.sql.utils.ParseException:u"\nmismatched input 'PARTITION'

浏览 113提问于2021-09-19得票数 0

回答已采纳

2回答

当列计数不为0时，“拼图记录格式不正确”

、、、

在AWS EMR集群上，我尝试使用Pyspark将查询结果写入到parquet，但遇到以下错误： Caused by: java.lang.RuntimeException: Parquet record is malformed: empty fields are illegal, the field should be ommited completely instead at org.apache.hadoop.hive.ql.io.parquet.write.DataWritableWriter.write(DataWritableWriter.java:64) at

浏览 93提问于2020-01-10得票数 5

1回答

将火花DataFrame写入Hive表中的内存分配问题

、、、、

我试图将星火DataFrame保存到带有.saveAsTable() in pySpark的Hive表(Parquet)中，但是继续运行到内存问题，如下所示： org.apache.hadoop.hive.ql.metadata.HiveException: parquet.hadoop.MemoryManager$1: New Memory allocation 1034931 bytes is smaller than the minimum allocation size of 1048576 bytes. 第一个数字(1034931)通常在不同的运行中不断变化。我知道第二个数字(104

浏览 1提问于2017-05-17得票数 4

回答已采纳

1回答

从Hive表中读取数据创建的spark数据帧的分区数

、

我对spark dataframe的分区数量有疑问。如果我有Hive表(Employee)，它有列(name，age，id，location)。 CREATE TABLE employee (name String, age String, id Int) PARTITIONED BY (location String); 如果employee表有10个不同的位置。因此，在HDFS中，数据将被划分为10个分区。如果我通过读取Hive表(Employee)的全部数据来创建Spark dataframe(df)。 Spark将为一个数据帧(Df)创建多少个分区？ df.rdd.partitio

浏览 0提问于2017-05-10得票数 4

1回答

从spark sql的s3下载的字节数是hive sql的数倍

、、

我在亚马逊网络服务s3上有一个配置单元表，其中包含144个csv格式的文件(每个文件20M)，总大小为3G；当我使用spark sql执行sql时，它花费了10-15G的下载字节(不是每次都一样，按aws服务统计)，远远超过hive表的大小；但当我在hive客户端执行同样的sql时，下载的字节数等于s3上的hive表大小； sql很简单，就像'select count(1) from #table#'；从spark ui stages标记中，几乎有2k+任务，远远大于spark rdd read执行；所以一个文件被多个任务访问？任何帮助都将不胜感激！

浏览 18提问于2018-08-23得票数 1

1回答

spark saveAsTable在读取和写入hive表时是如何工作的

、、

我有以下代码： Dataset<Row> rows = sparkContext.sql ("select from hive tables with multiple joins"); rows.saveAsTable(writing to another external table in hive immediately); 1)在上述情况下，当调用saveAsTable()时，spark会将整个数据集加载到内存中吗？ 1.1)如果是，那么当这个查询实际上可以返回无法放入内存的大量数据时，我们该如何处理这种情况？ 2)当服务器崩溃，spark开始执行saveA

浏览 31提问于2020-06-04得票数 0

回答已采纳

1回答

无法查看配置单元分区表中的数据

、、、

我有一个外部表，它有一个名为rundate的分区列。我可以使用以下命令将数据加载到表中 DataFrame.write.mode(SaveMode.Overwrite).orc("s3://test/table") 然后，我使用以下命令创建分区 spark.sql("ALTER TABLE table ADD IF NOT EXISTS PARTITION(rundate = '2017-12-19')") 代码运行良好，我可以看到分区。但我在Hive表中看不到数据。

浏览 10提问于2017-12-20得票数 0

回答已采纳

2回答

如何将分区添加到现有的Iceberg表

、、、

如何将分区添加到现有的未分区的Iceberg表中？表已经装载了数据。创建了以下表： import org.apache.iceberg.hive.HiveCatalog import org.apache.iceberg.catalog._ import org.apache.iceberg.spark.SparkSchemaUtil import org.apache.iceberg.PartitionSpec import org.apache.spark.sql.SaveMode._ val df1 = spark .range(1000) .toDF .withColu

浏览 6提问于2020-03-11得票数 3

1回答

由于配置单元元存储中的许多分区而导致的错误

、、、

我使用Apache spark-sql从数据库中查询数据。我知道Spark在默认情况下共享同一转移的hive。我已经根据列id对输入数据进行了分区，这些列有超过300k个不同的值。到目前为止，该表有超过300k的分区，而且还会定期增加。有没有因此而产生的问题？

浏览 0提问于2015-11-23得票数 0

3回答

Spark是否支持对拼图文件进行分区修剪

、、、

我正在处理一个大型数据集，该数据集由两列组成-- plant_name和tag_id。第二个tag_id - tag_id有200000个唯一值，我主要通过特定的partition值访问数据。如果我使用以下Spark命令： sqlContext.setConf("spark.sql.hive.metastorePartitionPruning", "true") sqlContext.setConf("spark.sql.parquet.filterPushdown", "true") val df = sqlContext.sq

浏览 2提问于2016-05-12得票数 19

1回答

在SPARK SQL中读取已分区的配置单元表

、、、

我正在尝试读取HIVE表有2年的数据，它是在一天分区的，通过SPARK-SQL读取它需要超过10分钟，即使在过滤器应用了6个月的数据之后也是如此。任何想法如何改进，我已经尝试了Hive QL中的DISTRIBUTE子句

浏览 0提问于2019-10-09得票数 0

1回答

为什么create table会产生一个空的数据帧？

、

hc.sql("create table emp12(name String)"); res13: org.apache.spark.sql.DataFrame = [] scala> res13.printSchema root 当我在Hive数据仓库中签入时，为什么数据框是空的，但是在Hive中创建了表？ hive> describe emp12; OK name string 即使我从Spark加载数据，数据也不会进入Hive表。

浏览 3提问于2018-01-13得票数 0

1回答

使用Spark SQL将数据插入静态配置单元分区

、

我很难弄清楚如何使用Spark SQL将数据插入Hive表的静态分区。我可以使用这样的代码来写入动态分区： df.write.partitionBy("key").insertInto("my_table") 但是，我不知道如何将数据插入到静态分区中。这意味着，我希望定义在不需要向DataFrame添加列的情况下写入整个DataFrame的分区。我在类中看到了静态分区，所以我猜它是受支持的。有没有一个公共API来做我想做的事情？

浏览 1提问于2016-07-29得票数 5

1回答

跳过spark中配置单元表中丢失的文件以避免FileNotFoundException

、

我正在使用spark.sql()读取表，然后尝试打印计数。但其中一些文件丢失或直接从HDFS中删除。 Spark失败，出现以下错误： Caused by: java.io.FileNotFoundException: File does not exist: hdfs://nameservice1/some path.../data 对于相同的查询，Hive能够给我没有错误的计数。table是一个外部的分区表。我想忽略丢失的文件并防止我的Spark作业失败。我已经在互联网上搜索并尝试在创建spark会话时设置以下配置参数，但没有成功。 SparkSession.builder

浏览 38提问于2019-07-30得票数 2

回答已采纳

1回答

是否有可能将项目阶段推到HiveTableScan？

、、、、

我使用Spark查询以Hive格式存储的ORC格式的数据。当我对提供给spark.sql(query)的查询运行explain命令时，我看到以下查询计划： == Physical Plan == *Project [col1, col2, col3] +- *Filter (....) +- HiveTableScan [col1, col2, col3, ...col50] 正如我所理解的，它从Hive中查询所有50列，只有这样，火花和后置词中的筛选才只选择实际需要的列。是否有可能将所需的列直接推倒到蜂巢中，这样它们就不会一直加载到Spark？

浏览 1提问于2019-09-06得票数 2

回答已采纳

2回答

当数据存储在对象存储中时，从Spark SQL访问配置单元表

、、

我使用spark dataframe编写器将数据写入IBM Cloud Object Storage中的内部hive表，格式为parquet。因此，我的配置单元元存储在HDP集群中，我正在从HDP集群运行spark作业。此spark作业将数据以parquet格式写入IBM COS。这就是我开始spark会话的方式 SparkSession session = SparkSession.builder().appName("ParquetReadWrite") .config("hive.metastore.

浏览 40提问于2018-12-18得票数 0

2回答

HDP 3.0不能保存表格以保存细胞亚稳态

、、、

我不能再用亚稳态保存一个表格来保存数据库了。我使用spark.sql看到了spark中的表，但在hive数据库中看不到相同的表。我试过这个，但它并不是为了储存蜂巢而储存的。我如何配置蜂巢亚稳态？火花版本为2.3.1。如果你想要更多的细节，请评论。 %spark import org.apache.spark.sql.SparkSession val spark = (SparkSession .builder .appName("interfacing spark sql to hive metastore without configuration

浏览 2提问于2018-11-15得票数 1

回答已采纳

1回答

如何对数据进行物理分区以避免Spark SQL连接中的混洗

我需要连接5个中等大小的表(每个表大约80 gb )和大约800 gb的大型输入数据。所有数据都驻留在配置单元表中。我使用Spark SQL 1.6.1来实现这一点。Join需要40分钟的时间才能完成--num-executors 20 --driver-memory 40g --executor-memory 65g --executor-cores 6。所有联接都是排序合并外部联接。也看到了大量的洗牌发生。我将hive中的所有表存储到相同数量的存储桶中，以便所有表中的相似键在一开始加载数据本身时都将转到相同的spark分区。但spark似乎并不理解bucketing。有没有其他方法可以

浏览 3提问于2016-10-25得票数 1

2回答

我收到"Failed with exception java.io.IOException:/user/hive/warehouse/people/part-r-00001.parquet not a SequenceFile“

、、、、

我通过在我的数据帧上调用.saveAsTable创建了一个Spark SQL表。该命令完全成功。但是，现在当我查询表时，拼图文件似乎已损坏。我看到了这个错误： "Failed with exception java.io.IOException:java.io.IOException: hdfs://ip:8020/user/hive/warehouse/people/part-r-00001.parquet not a SequenceFile" 下面是我在spark-shell中遵循的步骤 scala >val sqlContext = new org.apache.

浏览 3提问于2016-01-20得票数 1

2回答

无法使用spark sql在spark中增加单元动态分区

、、

我正在运行一个hive查询，它从一个表中选择数据并使用spark将结果插入到另一个已分区的单元表中。插入时需要1536个分区。但是即使我将最大分区增加到2000，spark也无法插入1536个分区的数据。以下是命令：火花-sql-主纱-num-执行器14 -执行器-内存45G -执行器-核心30 -驱动器-内存10G -conf spark.dynamicAllocation.enabled=false -e“设置hive.exec.dynamic.partition =真；设置hive.exec.dynamic.partition.mode =非严格；设置hive.exec.max.d

浏览 0提问于2017-05-12得票数 0

1回答

如何使用Spark执行插入覆盖？

、、

我正在尝试将我们的ETL Hive脚本之一转换到Spark，Hive ETL脚本在那里维护一个表，在新的同步之前，每天晚上都需要删除部分数据。Hive接受主表，使用insert覆盖删除大于3天的数据。基本上，使用不超过三天的数据创建一个临时表，然后覆盖主表。有了Spark (使用Scala)，我就会在无法写入同一个源的情况下得到这个错误。这是我的密码： spark.sql ("Select * from mytbl_hive where dt > date_sub(current_date, 3)").registerTempTable("tmp_mytbl&#

浏览 4提问于2017-10-01得票数 2

回答已采纳

1回答

使用spark sql的aws glue drop分区

、、

当相同的代码在hive shell中工作时，使用spark sql frm粘合元数据的drop partition抛出问题。 **Hive shell** hive> alter table prc_db.detl_stg drop IF EXISTS partition(prc_name="dq") ; OK Time taken: 1.013 seconds **spark shell** spark.sql(''' alter table prc_db.detl_stg drop IF EXISTS partition(prc_nam

浏览 4提问于2021-04-26得票数 0

1回答

PySpark -分区覆盖的数据

、、

我看到了这样一种情况，即当保存一个具有多列分区的hive表时，它也会覆盖子分区中的数据。或者-可能是我假设它是一个子分区。我想把列‘月份’当作子分区。因此，当我将df2保存到同一个表时，我可以看到4条记录(在单元表中)，而不是2条。 mode=append会工作的。但是，如果年份和月份是相同的，我希望数据被覆盖。在保存火花放电数据时，有什么方法可以做到这一点？ >>> df1 = spark.sql('select * from test_input') >>> df1.show() +---+---+----+-----+ | f1| f

浏览 1提问于2018-03-01得票数 0

回答已采纳

2回答

在Hive表hdfs文件夹中写入文件，并使其可用于从Hive查询

、、、、

我使用的是Spark 2.2.1，它有一个有用的选项，可以指定我想要在文件的每个分区中保存多少条记录；该功能允许在写入文件之前避免重新分区。但是，该选项似乎只适用于FileWriter接口，而不适用于DataFrameWriter接口:在这种情况下，该选项被忽略 df.write.mode("overwrite") .option("maxRecordsPerFile", 10000) .insertInto(hive_table) 当它以这种方式工作时 df.write.option("maxRecordsPerFile", 10000)

浏览 1提问于2018-06-06得票数 1

1回答

我是不是错过了什么来激活pyspark中蜂巢的酸？

、、、

我想要更新我的hive表中的一些行。因为pyspark根本无法识别更新，所以我选择了DELETE和INSERT，但在DELETE操作上得到了"Operation not allowed“。为了解决这个问题，我将表指定为orc，并尝试了这个站点上提到的其余要求：我还设置了tableproperty "transactional"="true“。下面您将看到我如何尝试设置属性的一些代码 sqlCtx.sql("""SET spark.hadoop.hive.support.concurrency=true""")

浏览 17提问于2019-07-26得票数 0

1回答

在物理计划中执行交换和排序步骤的配置单元存储桶表

、、、

我有两个表，它们都聚集在相同的列上，但是在连接聚集列上的两个表时，执行计划同时显示了交换和排序步骤。这两个表在相同的列(key_column)上存储桶。这两个表都是或压缩的，表A被分区和存储桶，表B在同一列上存储桶。我希望在我的计划中避免排序和交换步骤，并且根据文档，存储桶的表应该避免排序和交换步骤。我甚至尝试了下面的hive属性： spark.sql('set spark.sql.orc.filterPushdown=true') spark.sql('set hive.optimize.bucketmapjoin = true') spark.sql(

浏览 1提问于2019-06-12得票数 1

2回答

星火SQL抛出错误"java.lang.UnsupportedOperationException:未知字段类型:空“

、、、

当创建一个列值默认值为NULL的表时，我在Spark(1.6) SQL中获得了下面的错误。示例:将表测试创建为select column_a，NULL作为column_b从test_temp创建；同样的东西在Hive中工作，并创建数据类型为"void“的列。我使用空字符串而不是NULL来避免异常和新列获取字符串数据类型。是否有更好的方法使用spark在hive表中插入空值？ 2017-12-26 07:27:59 ERROR StandardImsLogger$:177 - org.apache.hadoop.hive.ql.metadata.HiveException: jav

浏览 3提问于2017-12-27得票数 0

回答已采纳

1回答

如何使火花放电和SparkSQL在星火上执行蜂巢？

、、、、

我已经安装和设置了和集成。通过使用spark-shell / pyspark，我还遵循并实现了创建Hive表，加载数据，然后正确选择。然后转到下一步，设置。通过使用hive / beeline，我还可以创建Hive表，加载数据，然后进行适当的选择。蜂箱在纱线/火花上正确地执行。我怎么知道它起作用了？hive外壳显示以下内容： hive> select sum(col1) from test_table; .... Query Hive on Spark job[0] stages: [0, 1] Spark job[0] status = RUNNING ---------------

浏览 0提问于2020-02-23得票数 0

回答已采纳

2回答

通过sparkSQL创建蜂窝

、、、

我对蜂巢中的扣环有一个疑问。我已经创建了一个临时表，该表在列关键字上存储桶。我通过spark SQL将数据插入到这个临时表中。我已经在spark会话中将hive.enforce.bucketing设置为true。当我检查这个表的基目录时，它显示了前缀为part_*的文件名。但是，当我通过另一个表手动将数据插入到这个表中时，我看到了以00000_*为前缀的文件。我不确定spark sql是否将数据写入存储桶中。有人能帮帮忙吗。谢谢,

浏览 1提问于2018-08-02得票数 5

1回答

单元动态分区问题

、、

我有两张桌子如下所示。 CREATE EXTERNAL TABLE IF NOT EXISTS TEMP_tab(id int,mytime STRING,age int) ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' STORED AS TEXTFILE LOCATION 'hdfs://xxx'; CREATE TABLE IF NOT EXISTS main_TAB(id int,age int) PARTITIONED BY (mytime STRING) STORED AS ORC tblproperti

浏览 4提问于2017-11-05得票数 1

回答已采纳

1回答

修复抛出Spark中解析异常的良好Hive SQL查询

、、、

在Hive中执行以下查询运行良好： ALTER TABLE schema.the_table DROP IF EXISTS PARTITION (PARTITION_DATE<'2020-03-22') 分区日期是String类型，但没关系。目标是删除比特定日期更早的分区。另一方面，同样的查询在星火(2.1)中使用： val spark = SparkSession.builder.enableHiveSupport.getOrCreate spark.sql(""" ALTER TABLE schema.the_table DROP IF

浏览 6提问于2020-09-18得票数 1

回答已采纳

3回答

读取hive事务表时星火抛出错误

、、

我正在尝试从蜂箱中的db.abc中选择*，这个蜂窝表是使用spark加载的。它不能工作，显示了一个错误：错误: java.io.IOException: java.lang.IllegalArgumentException:超出范围的bucketId：-1 (state=，code=0) 当我使用以下属性时，我能够查询hive： set hive.mapred.mode=nonstrict; set hive.optimize.ppd=true; set hive.optimize.index.filter=true; set hive.tez.bucket.pruning=tru

浏览 3提问于2020-02-06得票数 4

回答已采纳