spark写入hive分区表_基于Spark临时表的Hive创建分区表_spark-hive - 腾讯云开发者社区

、、、

当将数据写入已分区表中时，我会遇到以下错误。org.apache.spark.SparkException:请求的分区与tablename表不匹配：scala> data1.write.format("hive").partitionBy("category"，"state&quo

浏览 2提问于2019-04-17得票数 1

3回答

在Spark中将多个小文件合并为几个大文件

、、、、

我通过Spark使用hive。在我的spark代码中，我有一个Insert Insert my table查询。输入数据为200+gb格式。当Spark写入分区表时，它会生成非常小的文件(以kb为单位的文件)。因此，现在输出分区表文件夹中有5000+小kb文件。我想把这些合并成几个大的MB文件，可能是几个200mb的文件。("set hive.exec.dynamic.partition.mode=nonstrict") val

浏览 6提问于2015-06-24得票数 8

回答已采纳

2回答

当数据存储在对象存储中时，从Spark SQL访问配置单元表

、、

我使用spark dataframe编写器将数据写入IBM Cloud Object Storage中的内部hive表，格式为parquet。因此，我的配置单元元存储在HDP集群中，我正在从HDP集群运行spark作业。此spark作业将数据以parquet格式写入IBM COS。.config("hive.metastore.uris", "<thrift_url>")

浏览 40提问于2018-12-18得票数 0

1回答

无法使用pyspark将dataframe写入配置单元分区镶嵌表

、、

我正在尝试将我的数据帧写入分区的hive表中，.Hive表的格式是parquet。但我无法将df写到Hive表中。我正在尝试将我的数据帧写入分区的hive表中，.Hive表的格式是parquet。但我无法将df写到Hive表中。Spark2.3和分区配置单元表当我试图将finaldf加载到配置单元分区表中时，我得到了以下错误 finaldf.write.mode("overwrite").f

浏览 28提问于2019-05-27得票数 0

2回答

如何在使用spark数据帧写入时自动计算numRepartition

、、

当我尝试将dataframe写入Hive拼接分区表时我也理解，块的数量会提高Hadoop的性能，但达到阈值后也会降低性能。basing on df size or somethi

浏览 2提问于2018-08-13得票数 1

1回答

不要写信给蜂巢

、

我有一个Spark应用程序，它完美地写入了Hive分区表。我在Dataframe中添加了两个新列，这两个列是我在Hive中坚持的，它停止了对Hive的写入，并且默默地没有插入任何行。我在Hive模式中也添加了从DF2获得的两个新的cols，并且在代码和Hive模式之间保持了顺序(也就是在两个地方的最后一个col之后)。为什么不写进蜂巢里呢？

浏览 2提问于2017-02-23得票数 1

3回答

将数据帧存储到spark中的配置单元分区表

、、

我正在尝试将来自kafka主题的数据流存储到一个hive分区表中。我能够将数据流转换为数据帧，并创建了一个配置单元上下文。我的代码如下所示hiveContext.setConf("hive.exec.dynamic.partition", "true") hiveContext.setConf("hive.exec.dynamic.partition.mode", "nonst

浏览 0提问于2016-10-19得票数 2

1回答

如何自动更新流数据的Hive外部表元数据分区

、、、、

我正在使用pyspark将星火流数据写入hdfs分区。请找到密码 .outputMode("append")在将数

浏览 4提问于2022-02-13得票数 1

1回答

Spark HiveContext -从外部分区配置单元表分隔符读取问题

、、

我有一个外部分区Hive表，其下划线文件行格式的分隔字段以'|‘结尾，通过Hive直接读取数据是可以的，但当使用Spark的Dataframe API时，分隔符'|’不被考虑。创建外部分区表：partitionedTERMINATED BY '|' location '/cl

浏览 6提问于2016-08-20得票数 2

1回答

星星之火1.6蜂巢上下文setConf问题

、、

我在运行将数据加载到单元上下文中的分区表的sql时遇到了问题，我确实设置了dynamic partition = true，但仍然有问题。", "nonstrict") <dependency> <groupId>org.apache.spark<

浏览 3提问于2017-12-24得票数 0

回答已采纳

1回答

通过接受和InsertInto命令激发Scala性能问题

、

另一种情况是，它大约需要10分钟才能将数据存储器写入hive表(它有最多200行和10列)。-XX:+PrintGCTimeStamps -Djava.security.auth.login.config=kafka_spark_jaas.conf“--文件/home/ngap.app.rcrp/hive-site.xml，/home/kafka_ spark _jaas.conf，/etc/security/keytab&#

浏览 4提问于2019-01-15得票数 0

1回答

PySpark无法通过sparkContext/hiveContext读取Hive事务表？我们可以使用Pyspark更新/删除蜂箱表数据吗？

、、、、

我尝试过使用PySpark访问Hive事务表(它在HDFS上有底层的增量文件)，但是我无法通过sparkContext/hiveContext读取事务表。

浏览 5提问于2019-08-01得票数 1

回答已采纳

4回答

星火库中蜂巢表的HDFS定位

、、、、

我试图使用以下查询从星火库中的Hive分区表中解析出位置：我无法在Spark中找到任何查询或任何其他方式来具体地从该查询中选择Location列。

浏览 2提问于2019-06-17得票数 6

回答已采纳

2回答

Spark SQL saveAsTable返回空结果

、、、、

我使用以下代码在Spark SQL中创建/插入数据到Hive表中： .builder() .master("local/spark-warehouse/tablename/下创建地块文件，并使用正确的create table语句在hive中创建表。snappy.parquet └── part-r-00018-f42ce8ac-a42c-46c

浏览 3提问于2017-02-27得票数 3

2回答

无法从spark sql插入到配置单元分区表

、、、

我有一个配置单元分区表txnaggr_rt_fact，它有2个列分区txninterval和intervaltype。我正在尝试使用java从spark sql插入一条记录到这个表中。Java代码如下所示 .builder() spark.sql("use nadb

浏览 0提问于2018-08-20得票数 0

1回答

Spark SQL限制与Hive SQL限制的差异

、、

在Hive中，如果我们调用limit子句，它会给出更快的响应。同样的事情，如果我们在Spark SQL中运行，它会花费更多的时间。你能深入解释一下吗？在蜂巢中 SELECT * FROM employee LIMIT 10; 在Spark SQL中， spark.sql("SELECT * FROM employee LIMIT 10").show() 限制查询如何对分区表起作用？

浏览 18提问于2020-12-09得票数 0

6回答

将火花数据作为动态分区表保存在蜂巢中

、、、

可以使用df.saveAsTable(tablename,mode)方法以拼花格式将数据存储到Hive表中。上面的代码工作正常，但是我每天都有这么多的数据，所以我想根据creationdate(表中的列)动态地划分hive表。是否有任何方法来动态划分数据并将其存储到蜂窝仓库。

浏览 7提问于2015-07-10得票数 41

回答已采纳

1回答

使用Spark和Alluxio管理S3的文件大小

、、、

我使用Spark在Alluxio中写入数据，使用UFS作为S3，使用Hive拼接分区表。我在Alluxio中使用配置单元分区字段上的重分区函数来提高写操作的效率。

浏览 8提问于2019-07-02得票数 1

1回答

spark如何从Hive读取和写入数据？

、

val spark = SparkSession .appName("Spark Hive Example") .enableHiveSupport()当我使用spark-shell执行spark-sql从Hive</em

浏览 1提问于2017-11-10得票数 1

1回答

ValidationFailureSemanticException:分区规范包含非分区列

、、、

我正在尝试一个简单的用例，将其插入到S3上的单元格分区表中。我正在齐柏林飞艇笔记本上运行我的代码，下面是我的代码以及命令输出的截图。我检查了hive表和dataframe的模式，列名没有大小写差异。import org.apache.spark.sql.hive.HiveContext System.setProperty("hive.metastore.uris("hive.exec.dynamic.pa

浏览 2提问于2020-10-07得票数 2

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何解决此错误"org.apache.spark.SparkException:所请求的分区与火花壳中的tablename表不匹配“

在Spark中将多个小文件合并为几个大文件

当数据存储在对象存储中时，从Spark SQL访问配置单元表

无法使用pyspark将dataframe写入配置单元分区镶嵌表

如何在使用spark数据帧写入时自动计算numRepartition

不要写信给蜂巢

将数据帧存储到spark中的配置单元分区表

如何自动更新流数据的Hive外部表元数据分区

Spark HiveContext -从外部分区配置单元表分隔符读取问题

星星之火1.6蜂巢上下文setConf问题

通过接受和InsertInto命令激发Scala性能问题

PySpark无法通过sparkContext/hiveContext读取Hive事务表？我们可以使用Pyspark更新/删除蜂箱表数据吗？

星火库中蜂巢表的HDFS定位

Spark SQL saveAsTable返回空结果

无法从spark sql插入到配置单元分区表

Spark SQL限制与Hive SQL限制的差异

将火花数据作为动态分区表保存在蜂巢中

使用Spark和Alluxio管理S3的文件大小

spark如何从Hive读取和写入数据？

ValidationFailureSemanticException:分区规范包含非分区列

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐