使用Spark SQL查询配置单元分区子目录中的数据

Spark SQL是Apache Spark的一个模块，用于处理结构化数据。它提供了一个类似于传统SQL的查询语言，可以用于查询和分析大规模的数据集。

在Spark SQL中，配置单元分区子目录是指将数据按照某个字段的值进行分区存储，每个分区对应一个子目录。使用Spark SQL查询配置单元分区子目录中的数据可以通过以下步骤实现：

创建SparkSession对象：

import org.apache.spark.sql.SparkSession

val spark = SparkSession.builder()
  .appName("Spark SQL Query")
  .master("local")
  .getOrCreate()

读取数据：

val data = spark.read
  .format("parquet")  // 数据格式，可以是parquet、csv、json等
  .load("/path/to/data")  // 数据存储路径

创建临时视图：

data.createOrReplaceTempView("my_table")

执行SQL查询：

val result = spark.sql("SELECT * FROM my_table WHERE partition_column = 'partition_value'")

其中，partition_column是用于分区的字段名，partition_value是指定的分区值。

处理查询结果：

result.show()

在腾讯云的产品中，与Spark SQL相关的产品是腾讯云EMR（Elastic MapReduce），它是一种大数据处理和分析的云服务。EMR提供了Spark作为一种计算引擎，可以方便地进行Spark SQL查询。您可以通过以下链接了解更多关于腾讯云EMR的信息：腾讯云EMR产品介绍

需要注意的是，以上答案仅供参考，具体的实现方式可能因环境和需求而异。

当数据存储在对象存储中时，从Spark SQL访问配置单元表

、、

我使用spark dataframe编写器将数据写入IBM Cloud Object Storage中的内部hive表，格式为parquet。因此，我的配置单元元存储在HDP集群中，我正在从HDP集群运行spark作业。此spark作业将数据以parquet格式写入IBM COS。这就是我开始spark会话的方式 SparkSession session = SparkSession.builder().appName("ParquetReadWrite") .config("hive.metastore.

浏览 40提问于2018-12-18得票数 0

3回答

无法从配置单元查询`saveAsTable`之后的Spark DF - Spark SQL特定格式，与配置单元不兼容

、、、、

我正在尝试将数据帧保存为外部表，该表将同时使用spark和可能的hive进行查询，但不知何故，我无法使用hive查询或查看任何数据。它在spark中工作。以下是如何重现该问题的方法： scala> println(spark.conf.get("spark.sql.catalogImplementation")) hive scala> spark.conf.set("hive.exec.dynamic.partition", "true") scala> spark.conf.set("hive.exec.dynam

浏览 3提问于2019-08-02得票数 0

1回答

Spark SQL(通过HiveContext的配置单元查询)总是创建31个分区

、、

我在我的Spark代码中使用HiveContext运行hive查询。无论我运行哪个查询，以及它有多少数据，它总是生成31个分区。有人知道原因吗？是否有预定义/可配置的设置？我基本上需要更多的分区。我使用以下代码片段来执行配置单元查询： var pairedRDD = hqlContext.sql(hql).rdd.map(...) 我使用的是Spark 1.3.1 谢谢你，妮汀

浏览 3提问于2016-04-28得票数 1

3回答

在Spark中将多个小文件合并为几个大文件

、、、、

我通过Spark使用hive。在我的spark代码中，我有一个Insert Insert my table查询。输入数据为200+gb格式。当Spark写入分区表时，它会生成非常小的文件(以kb为单位的文件)。因此，现在输出分区表文件夹中有5000+小kb文件。我想把这些合并成几个大的MB文件，可能是几个200mb的文件。我尝试使用配置单元合并设置，但它们似乎不起作用。 'val result7A = hiveContext.sql("set hive.exec.dynamic.partition=true") val result7B = hiveContext.

浏览 6提问于2015-06-24得票数 8

回答已采纳

1回答

激发AQE不帮助dataset斜连接

、、、、

我面临的一个问题是，两个倾斜的数据集要花太长时间才能加入。其中一个(或两个)数据集中的数据有偏差，并用作联接列。因此，我启用了spark，希望它能够帮助我处理倾斜的dataset连接。然而，当我检查sql查询指标时，它们并不表示AQE正在帮助我解决这个问题，而且一些分区仍然相当大。当我检查舞台状态时，我发现一些长时间运行的任务需要几个小时才能完成。我对AQE的行为感到非常困惑，并且很惊讶地发现它似乎没有帮助。有人能指出这里出了什么问题或者我漏掉了什么吗？顺便说一句，这里是我的一些火花配置： .config("spark.sql.adaptive.enabled", &#

浏览 15提问于2022-06-17得票数 0

回答已采纳

3回答

Spark是否支持对拼图文件进行分区修剪

、、、

我正在处理一个大型数据集，该数据集由两列组成-- plant_name和tag_id。第二个tag_id - tag_id有200000个唯一值，我主要通过特定的partition值访问数据。如果我使用以下Spark命令： sqlContext.setConf("spark.sql.hive.metastorePartitionPruning", "true") sqlContext.setConf("spark.sql.parquet.filterPushdown", "true") val df = sqlContext.sq

浏览 2提问于2016-05-12得票数 19

1回答

在HDFS上的spark输出上创建配置单元表

、、

我有我的Spark作业，它每30分钟运行一次，并将输出写入hdfs-(/tmp/data/1497567600000)。我让这个作业在集群中持续运行。如何在此数据之上创建配置单元表？我在StackOverFlow中看到过一种解决方案，它在按日期字段分区的数据上创建一个hive表。这就像， CREATE EXTERNAL TABLE `mydb.mytable` (`col1` string, `col2` decimal(38,0), `create_date` timestamp, `update_date` timestamp) PARTITIONED BY (

浏览 3提问于2017-06-18得票数 2

4回答

spark.sql.shuffle.partitions的最佳值应该是什么，或者在使用Spark时如何增加分区？

、

我使用的是Spark，实际上是hiveContext.sql()，它使用group查询，并且遇到OOM问题。因此，考虑将spark.sql.shuffle.partitions的价值从200个默认增加到1000个，但这并没有帮助。我相信这个分区会共享数据洗牌负载，所以分区越多，容纳的数据就越少。我是星火的新手。我使用的是Spark1.4.0，我有大约1TB的未压缩数据可以使用hiveContext.sql() group查询进行处理。

浏览 13提问于2015-09-02得票数 40

回答已采纳

1回答

Spark SQL在Hive上的实时

、、、、

实际上，我在问自己使用Spark SQL和Hive进行实时分析的性能。我知道Hive是为批处理而创建的，而Spark是用来进行快速查询的。但是，使用Spark SQL与配置单元将允许我进行实时查询？或者，它只会进行最快的查询，而不是实时的。我应该使用其他的数据仓库而不是像Hbase那样的Hive吗？先谢谢你，弗洛里安

浏览 1提问于2015-07-06得票数 3

1回答

面向星火上小数据集的大数据泄漏

、、

我正试图在NOA数据集上运行一些spark sql，如下所示：我正在尝试运行一些涉及分组和排序的查询。 df .groupBy("COUNTRY_FULL") .agg(max("rank"), last("consecutive").as("consecutive")) .withColumn("maxDays", maxDaysTornodoUdf(col("consecutive"))) .sort(col("maxDays"

浏览 5提问于2021-08-16得票数 2

1回答

通过DataFrames读取蜂巢视图与蜂巢表时的性能考虑

、、、、

我们认为联合多个蜂箱表。如果我在pyspark中使用spark并读取该视图，那么与直接从表中读取相比，会出现任何性能问题。在单元格中，如果我们不将where子句限制在精确的表分区上，我们就有了所谓的完整表扫描。searching是否足够智能，可以直接读取具有我们正在寻找的数据的表，而不是搜索整个视图？请给我建议。

浏览 4提问于2019-10-22得票数 1

回答已采纳

2回答

Spark SQL saveAsTable返回空结果

、、、、

我使用以下代码在Spark SQL中创建/插入数据到Hive表中： val sc = SparkSession .builder() .appName("App") .master("local[2]") .config("spark.sql.warehouse.dir", "file:///tmp/spark-warehouse") .enableHiveSupport() .getOrCreate() // actual code result.createOrReplaceTempView(

浏览 3提问于2017-02-27得票数 3

1回答

Apache spark WHERE子句不起作用

、、、、

我在一个较小的yarn集群上运行Apache Spark 1.6.1。我正在尝试从一个hive表中拉入数据，使用如下查询： df = hiveCtx.sql(""" SELECT * FROM hive_database.gigantic_table WHERE loaddate = '20170502' """) 但是，无论我为loaddate指定什么值，最终得到的数据帧都是整个表。我能想到的唯一奇怪的事情是hive表是按loaddate列进行分区的。仅配置单元似乎可以正确运行此查询。我尝试过使用.filter()和不同

浏览 10提问于2017-07-13得票数 0

回答已采纳

1回答

使用Spark优化Hive SQL查询？

、、、、

我有一个复杂的SQL查询，用于在Hadoop Hive中获取数据。我已经开始阅读关于Spark和PySpark的文章了。这些工具似乎提高了性能。换句话说，如果我必须为我的数据查询Hive，我从Spark获得的任何性能改进都只会来自我从Hive检索数据后应用于数据的转换。我对这些技术的理解正确吗？

浏览 0提问于2019-12-20得票数 0

1回答

跳过spark中配置单元表中丢失的文件以避免FileNotFoundException

、

我正在使用spark.sql()读取表，然后尝试打印计数。但其中一些文件丢失或直接从HDFS中删除。 Spark失败，出现以下错误： Caused by: java.io.FileNotFoundException: File does not exist: hdfs://nameservice1/some path.../data 对于相同的查询，Hive能够给我没有错误的计数。table是一个外部的分区表。我想忽略丢失的文件并防止我的Spark作业失败。我已经在互联网上搜索并尝试在创建spark会话时设置以下配置参数，但没有成功。 SparkSession.builder

浏览 38提问于2019-07-30得票数 2

回答已采纳

1回答

如何在spark中停止加载整个表？

、

问题是，我有一个表的读权限，这个表是按年、月和day.But分区的，我没有权限读取2016/04/24年的数据。当我在配置单元命令中执行时： hive>select * from table where year="2016" and month="06" and day="01"; 除了2016/04/24，我可以读取其他天的数据但是，当我在spark上读到 sqlContext.sql.sql(select * from table where year="2016" and month="06" an

浏览 3提问于2016-07-21得票数 0

回答已采纳

1回答

无法查看通过Spark SQL创建的新数据

、、、

我正面临一个问题，在这个问题中，我无法查看来自Hive的某些数据。重现问题的步骤。创建一个表 drop table if exists hive_parquet_nulls_test ; create table hive_parquet_nulls_test ( name String ) partitioned by (report_date DATE) stored as PARQUET; 然后创建一个具有新列的数据框并加载它们 import java.sql.Date import org.apache.spark.sql._ import org.apache.spark.s

浏览 30提问于2019-12-21得票数 3

回答已采纳

3回答

如何在将数据导入Spark时设置分区/节点数

、、、

问题：--我希望使用以下方法从S3中将数据导入Spark： data = sqlContext.read.json("s3n://.....") 是否有一种方法可以设置Spark用于加载和处理数据的节点数？这是我如何处理数据的一个例子： data.registerTempTable("table") SqlData = sqlContext.sql("SELECT * FROM table") Context：数据不太大，加载到Spark需要很长时间，也需要很长时间来查询。我认为Spark将数据划分为太多的节点。我希望能够手动设置。我知道在处理R

浏览 0提问于2016-01-04得票数 17

1回答

如何从一个位置读取表并将数据写入其他集群的表

、

我从设置hive.metastore.uris的metastore启动spark应用程序中读取表统计数据。但是，我需要将数据写入另一个配置单元。我已经尝试清理活动会话和默认会话，使用新的metastore uri构建另一个会话，但spark继续尝试写入第一个hive的表。 val spark = SparkSession.builder() .appName(appName) .enableHiveSupport() .config("hive.metastore.uris", FIRST_METASTORE)

浏览 9提问于2019-04-11得票数 0

3回答

如何在Spark SQL中控制分区大小

、、、

我需要使用Spark SQL HiveContext从配置单元表加载数据并加载到HDFS中。默认情况下，DataFrame from SQL output有2个分区。为了获得更多的并行性，我需要SQL之外的更多分区。在HiveContext中没有重载方法来获取分区数参数。 RDD的重新分区会导致混洗，并导致更多的处理时间。 val result = sqlContext.sql("select * from bt_st_ent") 具有以下日志输出： Starting task 0.0 in stage 131.0 (TID 297, aster1.com, partitio

浏览 1提问于2016-07-07得票数 24

1回答

不在Presto v.s Spark SQL的实现中

、、、

我得到了一个非常简单的查询，当在相同的硬件上运行Spark SQL和Presto (3小时v.s 3分钟)时，显示出显着的性能差异。 SELECT field FROM test1 WHERE field NOT IN (SELECT field FROM test2) 通过对查询计划的研究，我发现原因在于Spark SQL如何处理NOT IN谓词子查询。为了正确处理NOT IN的NULL，Spark SQL将NOT IN谓词转换为Left AntiJoin( (test1=test2) OR isNULL(test1=test2))。 Spark SQL引入了OR isNULL(test

浏览 13提问于2019-11-07得票数 6

回答已采纳

1回答

Spark不使用Hive分区外部表中的分区信息

、、、

我有一个复杂/嵌套的Hive-External表，它是在HDFS上创建的(文件采用avro格式)。当我运行配置单元查询时，它会显示所有记录和分区。但是，当我在Spark中使用相同的表时： val df = spark .read .format("avro") .load("avro_files") .option("avroSchema", Schema.toString) 它不显示分区列。但是，当我使用spark.sql("select * from hive_External_Table")时，它很好，我可以在创建的

浏览 15提问于2020-01-21得票数 0

1回答

spark saveAsTable在读取和写入hive表时是如何工作的

、、

我有以下代码： Dataset<Row> rows = sparkContext.sql ("select from hive tables with multiple joins"); rows.saveAsTable(writing to another external table in hive immediately); 1)在上述情况下，当调用saveAsTable()时，spark会将整个数据集加载到内存中吗？ 1.1)如果是，那么当这个查询实际上可以返回无法放入内存的大量数据时，我们该如何处理这种情况？ 2)当服务器崩溃，spark开始执行saveA

浏览 31提问于2020-06-04得票数 0

回答已采纳

2回答

如何为现有表生成行号作为列？

、、、

我希望将行号(row_num)创建为MySql中现有表的列，通过spark并行读取数据库(即分区列，因为表中的所有列都是字符串)。当我试图执行这个查询时： val query = SELECT @row_number:=@row_number+1 as rowid,d.* FROM destination d, (SELECT @row_number:=0) as init 我有一个例外情况如下： 17/10/16 10:50:00 INFO SparkSqlParser: Parsing command: SELECT @row_number:=@row_number+1 as rowid

浏览 8提问于2017-10-16得票数 0

回答已采纳

1回答

结构化流式处理spark.sql.streaming.schemaInference不处理架构更改

、

sparkSession.config("spark.sql.streaming.schemaInference", true).getOrCreate(); Dataset<Row> dataset = sparkSession.readStream().parquet("file:/files-to-process"); StreamingQuery streamingQuery = dataset.writeStream().option("checkpointLocation", "file:/checkpoint-

浏览 2提问于2021-07-09得票数 0

1回答

Spark SQL性能优化

我正在运行一个Spark SQL查询，有大量的数据(大约5000万条记录).Due到繁重的记录，查询在集群中变得更慢，所以它需要很长的时间(20分钟)来处理整个数据。我在query.How中使用inner join，left join可以提高性能。

浏览 3提问于2018-04-02得票数 0

1回答

避免数据洗牌和合并-numPartitions不应用于单个分区，同时在spark中执行左反连接。

、、

我有两个数据- target_df和reference_df.我需要删除target_df中的account_id，它存在于reference_df中。target_df是从hive表创建的，将有数百个分区。它是根据日期(20220101到20221101)进行分区的。我是做左反连接和写入数据在hdfs的位置。 val numPartitions = 10 val df_purge = spark.sql(s"SELECT /*+ BROADCASTJOIN(ref) */ target.* FROM input_table target LEFT ANTI JOIN ${r

浏览 11提问于2022-11-21得票数 0

2回答

在Hive表hdfs文件夹中写入文件，并使其可用于从Hive查询

、、、、

我使用的是Spark 2.2.1，它有一个有用的选项，可以指定我想要在文件的每个分区中保存多少条记录；该功能允许在写入文件之前避免重新分区。但是，该选项似乎只适用于FileWriter接口，而不适用于DataFrameWriter接口:在这种情况下，该选项被忽略 df.write.mode("overwrite") .option("maxRecordsPerFile", 10000) .insertInto(hive_table) 当它以这种方式工作时 df.write.option("maxRecordsPerFile", 10000)

浏览 1提问于2018-06-06得票数 1

1回答

如何处理火花中强变化的数据大小

我想知道在设计火花作业时的最佳实践，在这种情况下，数据的数量是事先不知道的(或者是变化很大的)。在我的示例中，应用程序应该同时处理初始负载和稍后的增量数据。我想知道如何设置数据中的分区数(例如，使用repartition或设置参数(如spark.sql.shuffle.partitions )，以避免执行器中的OOM超出(每个执行器分配的内存数量固定)。我可以定义一个非常多的分区，以确保即使在非常高的工作负载下，作业也不会失败。根据源数据的大小在运行时设置分区数。在独立数据块上引入迭代(即循环) 在所有选择中，我都看到了一些问题： 1:我认为这对于小数据大小是低效的

浏览 0提问于2017-06-28得票数 0

1回答

火花蒙戈连接器，MongoShardedPartitioner不工作

、、、、

为了测试目的，我配置了一个4节点集群，每个集群都有一个Spark和一个MongoDB Shard。详情如下：四台Debian 9服务器(命名为visa0、visa1、visa2、visa3) 星星之火(v2.4.0)集群在4个节点上(visa1: master，visa0 0.3:从节点) MongoDB (v3.2.11)分簇Con4节点(配置服务器副本设置在visa1 1.3上，mongos在visa1上，shard服务器:visa1 0..3) 我使用安装了“火花外壳-软件包org.mongodb.spark:mongo-spark-connector_2.11:2.4

浏览 7提问于2019-01-07得票数 2

2回答

Spark Partitioning Hive表

、、、、

我正在尝试使用不同的时间戳对hive表进行分区。我有一个带有时间戳的表，但是当我执行hive分区查询时，它告诉我它不是有效的分区列。下面是表格： +---+-----------------------+ |id |rc_timestamp | +---+-----------------------+ |1 |2017-06-12 17:18:39.824| |2 |2018-06-12 17:18:39.824| |3 |2019-06-12 17:18:39.824| +---+-----------------------+ spark.sql("SE

浏览 0提问于2019-06-13得票数 3

2回答

持久化火花流输出

、、

我正在从一个消息应用程序中收集数据，我现在使用的是Flume，它每天发送大约5000万条记录我希望使用Kafka，使用星火流从Kafka消费，并将其持久化到hadoop并使用黑斑羚进行查询。我对我尝试过的每一种方法都有异议。方法1-将RDD保存为拼花，将外部单元格拼板表指向parquet目录。 // scala val ssc = new StreamingContext(sparkConf, Seconds(bucketsize.toInt)) val lines = KafkaUtils.createStream(ssc, zkQuorum, group, topicMap).ma

浏览 3提问于2015-10-01得票数 8

2回答

配置单元分区表上的spark行为

、、

我使用Spark 2。实际上，我不是执行查询的那个人，所以我不能包含查询计划。数据科学团队问过我这个问题。我们将hive表划分为2000个分区，并以拼接格式存储。当在spark中使用这个表时，在executors中恰好有2000个任务被执行。但是我们有一个256MB的块大小，我们期望(总大小/ 256 )分区的数量肯定会比2000小得多。spark是否有任何内部逻辑使用数据的物理结构来创建分区。任何参考/帮助都将不胜感激。更新:这是另一种方式。实际上，我们的表非常大，比如3TB，有2000个分区。3TB/256MB实际上应该是11720个，但我们拥有的分区数量与表的物理分区数量完全相同。

浏览 1提问于2018-04-05得票数 2

1回答

如何对数据进行物理分区以避免Spark SQL连接中的混洗

我需要连接5个中等大小的表(每个表大约80 gb )和大约800 gb的大型输入数据。所有数据都驻留在配置单元表中。我使用Spark SQL 1.6.1来实现这一点。Join需要40分钟的时间才能完成--num-executors 20 --driver-memory 40g --executor-memory 65g --executor-cores 6。所有联接都是排序合并外部联接。也看到了大量的洗牌发生。我将hive中的所有表存储到相同数量的存储桶中，以便所有表中的相似键在一开始加载数据本身时都将转到相同的spark分区。但spark似乎并不理解bucketing。有没有其他方法可以

浏览 3提问于2016-10-25得票数 1

1回答

DataFrame持久化()错误java.lang.OutOfMemoryError:超过GC开销限制

、、、

当我试图持久化在大小为270 on的表上创建的带有错误的DataFrame时，Pyspark作业失败。线程“纱线-调度程序-问号-am-线程池-9”中的异常: GC开销超出限制只有当我尝试持久化时，才会发生此问题。下面是配置，我试着使用执行器/驱动程序内存、洗牌分区、动态分配执行器和持久化存储级别(DISK_ONLY、MEMORY_AND_DISK)。我的意图是在一个键上对数据进行分区并持久化，这样我的连续连接就会更快。任何建议都会有很大帮助。火花版本： 1.6.1(MapR发行版) 数据大小：~270 Configuration: spark.executor.instanc

浏览 1提问于2019-02-14得票数 0

5回答

java.lang.OutOfMemoryError:无法获得100个字节的内存，获得0

、、、、

我使用以下命令在本地模式下使用Spark2.0调用Pyspark： pyspark --executor-memory 4g --driver-memory 4g 输入数据正在从tsv文件中读取，并且有580 Kx28列。我正在对dataframe做一些操作，然后我尝试将它导出到tsv文件中，我得到了这个错误。 df.coalesce(1).write.save("sample.tsv",format = "csv",header = 'true', delimiter = '\t') 任何关于如何消除这个错误的提示。我可以很容易

浏览 7提问于2016-08-15得票数 24

回答已采纳

1回答

火花新手(ODBC/SparkSQL)

、、

我有一个spark集群设置，并在我的数据集中尝试了本机scala和spark，并且这个设置在大多数情况下似乎都是有效的。我有以下问题从ODBC/扩展连接到集群，我应该期待什么？-管理员/开发人员将塑造数据并保持/缓存一些将要公开的RDDs？(在蜂箱表的线条上思考)--在spark/spark sql中连接到“蜂巢亚稳态”意味着什么？沿着蜂巢的思路是错误的吗？我的另一个问题是--当我发出单元查询(比如创建表之类的)时，它使用与hadoop/hive相同的单元格转移--当我使用sqlcontext发出sql查询时，表在哪里创建？--如果我持久化表，它是与持久化RDD相同的概念吗？感谢你的回

浏览 3提问于2014-10-03得票数 3

回答已采纳

2回答

Spark SQL扮演什么角色？内存DB？

、

最近我开始使用Spark SQL。我读了数据源Api，仍然不明白Spark SQL的作用是什么。当我对我需要的任何东西执行SQL时，spark会先加载所有数据，然后在内存中执行sql吗？这意味着spark sql只是一个处理已经加载的数据的内存数据库。或者它每次都会在本地扫描？真的愿意接受任何答案。诚挚的问候。

浏览 0提问于2018-01-16得票数 1

2回答

在星火库上列出特定单元表的所有分区，并添加一个分区

、

我使用的火花2.0，我想知道，它有可能列出所有的文件为特定的蜂巢表？如果是这样的话，我可以直接使用spark sc.textFile("file.orc")增量地更新这些文件。如何向hive表中添加新的分区？有什么api的蜂巢亚稳态，我可以使用火花？有没有办法获得映射dataframe row => partition_path的内部单元函数？我的主要推理是对表进行增量更新。现在我发现的唯一方法是FULL OUTER JOIN SQL +SaveMode.Overwrite，它效率不高，因为他会覆盖所有的表，而我的主要兴趣是对某些特定分区的增量更新/添加新分区。根据

浏览 2提问于2016-10-26得票数 6

回答已采纳

1回答

Apache Spark 2.3.1 - pyspark.sql.SparkSession.builder.enableHiveSupport()是必要的吗？

、、

我对Hive的理解是，它提供了一种使用SQL命令查询HDFS的方法。好吧，但是还有Spark。Spark拥有所有的RDD类方法，这些方法完全有能力，但我更喜欢使用SQL。输入Spark SQL。既然我可以使用Spark SQL通过SQL查询我的数据库，那么为什么Hive会进入这个画面呢？医生说： enableHiveSupport(): Enables Hive support, including connectivity to a persistent Hive metastore, support for Hive serdes, and Hive user-defined fun

浏览 1提问于2018-08-16得票数 0

1回答

Spark2.2.0版本中的OverWrite专用分区

、、

在Spark中，我希望覆盖特定的分区，而不是所有的分区。我正在尝试以下命令： spark.conf.set("spark.sql.sources.partitionOverwriteMode","dynamic") df.write \ .mode("overwrite") \ .format("csv") \ .partitionBy("partition_date", "hour") \ .save("/user/test/test/output/") 这与2.4

浏览 15提问于2022-11-29得票数 0

2回答

将星星之母插入动态分区单元表引发错误-分区规范，其中包含非分区列。

、、

我使用的是火花2.2.1和hive2.1。我正在尝试将多个分区插入到现有的分区单元格/分区表中。表是使用sparkSession创建的。我有一个带有分区P1和P2的表“mytable”。我在sparkSession对象上设置了以下内容： "hive.exec.dynamic.partition"=true "hive.exec.dynamic.partition.mode"="nonstrict" 代码： val df = spark.read.csv(pathToNewData) df.createOrReplaceTempView(&#

浏览 1提问于2018-08-06得票数 0

1回答

天蓝色数据库中的SQL查询时间过长

、、、

我想使用在Azure SQL托管实例中的DB上执行SQL查询。我用火花连接器连接到DB。 import com.microsoft.azure.sqldb.spark.config.Config import com.microsoft.azure.sqldb.spark.connect._ val config = Config(Map( "url" -> "mysqlserver.database.windows.net", "databaseName" -> "MyDatabase",

浏览 1提问于2020-07-10得票数 1

1回答

Spark如何确定从Hive表加载数据时将使用的分区数？

这个问题与相同但我认为这个问题没有得到正确的答案。请注意，问题是，在使用方法对HIVE表执行sql查询时，当创建dataframe时，将创建多少分区。上面的问题不同于询问在创建数据时将创建多少分区，这是执行一些代码的结果，比如spark.read.json("examples/src/main/resources/people.json")直接从文件系统加载数据--可以是HDFS。我认为后一个问题的答案是由给出的。 spark.sql.files.maxPartitionBytes 134217728 (128MB)读取文件时要打包到单个分区的最大字节数。在实验上

浏览 4提问于2017-05-19得票数 17

回答已采纳

1回答

使用Scala数据from创建带有分区的单元表

、、、、

我需要一种方法来从创建一个蜂箱表。hive表应该具有按日期分区的S3位置中的ORC格式的底层文件。到目前为止，我得到的是：我用ORC格式将scala数据写入S3。 df.write.format("orc").partitionBy("date").save("S3Location) 我可以在S3位置看到ORC文件。我现在在这些ORC文件的顶部创建一个单元表： CREATE EXTERNAL TABLE "tableName"(columnName string) PARTITIONED BY (date string) STORED

浏览 3提问于2020-10-30得票数 0

2回答

我收到"Failed with exception java.io.IOException:/user/hive/warehouse/people/part-r-00001.parquet not a SequenceFile“

、、、、

我通过在我的数据帧上调用.saveAsTable创建了一个Spark SQL表。该命令完全成功。但是，现在当我查询表时，拼图文件似乎已损坏。我看到了这个错误： "Failed with exception java.io.IOException:java.io.IOException: hdfs://ip:8020/user/hive/warehouse/people/part-r-00001.parquet not a SequenceFile" 下面是我在spark-shell中遵循的步骤 scala >val sqlContext = new org.apache.

浏览 3提问于2016-01-20得票数 1

3回答

使用Spark 1.4 API读取ORC文件时的NPE

、、、

我在Spark中读取了许多ORC文件，并对其进行了处理，这些文件基本上都是Hive分区。大多数情况下，处理过程都很顺利，但对于少数文件，我得到了以下异常，不知道为什么？这些文件在使用配置单元查询的配置单元中工作得很好。 DataFrame df = hiveContext.read().format("orc").load("/path/in/hdfs"); java.lang.NullPointerException at org.apache.spark.sql.hive.HiveInspectors$class.unwrapperFor(Hive

浏览 1提问于2015-09-08得票数 1

2回答

外部配置单元表刷新表与MSCK修复

、、、

我有一个外部蜂窝表，存储为Parquet，分区在一个列上，比如as_of_dt，数据通过spark streaming插入。现在，每天都会添加新的分区。我正在执行msck repair table，以便配置单元元存储获得新添加的分区信息。这是唯一的办法，还是有更好的办法？我担心如果下游用户查询表，msck repair是否会导致数据不可用或数据陈旧的问题？我正在浏览HiveContext应用程序接口并查看refreshTable选项。你知道用refreshTable代替它是否有意义吗？

浏览 8提问于2018-08-07得票数 13

1回答

PySpark -分区覆盖的数据

、、

我看到了这样一种情况，即当保存一个具有多列分区的hive表时，它也会覆盖子分区中的数据。或者-可能是我假设它是一个子分区。我想把列‘月份’当作子分区。因此，当我将df2保存到同一个表时，我可以看到4条记录(在单元表中)，而不是2条。 mode=append会工作的。但是，如果年份和月份是相同的，我希望数据被覆盖。在保存火花放电数据时，有什么方法可以做到这一点？ >>> df1 = spark.sql('select * from test_input') >>> df1.show() +---+---+----+-----+ | f1| f

浏览 1提问于2018-03-01得票数 0

回答已采纳

2回答

如何为同一个spark作业设置多个spark配置

、、

我正在处理一个奇怪的情况，我有小表和大表要使用spark处理，而且它必须是一个spark工作。为了实现最佳性能目标，我需要设置一个名为 spark.sql.shuffle.partitions = 12 for small tables and spark.sql.shuffle.partitions = 500 for bigger tables 我想知道如何在spark中动态更改这些属性？我可以有多个配置文件并在程序中调用它吗？

浏览 4提问于2018-03-07得票数 1