在分区的hive表中插入spark Dataframe而不覆盖数据_如果hive表中存在多个分区，则Spark SQL(通过HiveContext的配置单元查询)插入覆盖不会覆盖现有数据_为什么在插入到时间分区的BigQuery表中时，流数据没有分区？ - 腾讯云开发者社区

scala、amazon-web-services、apache-spark、hadoop、hive

我正在使用AWS，我有使用Spark和Hive的工作流。我的数据是按日期划分的，所以每天我在S3存储中都有一个新的分区。我的问题是，当有一天加载数据失败时，我必须重新执行该分区。如果我使用SaveMode.Overwrite，完整的表将被删除，并且只保存分区。如果我使用SaveMode.Append，我可能有重复的</e

浏览 2提问于2018-04-23得票数 11

回答已采纳

1回答

Pyspark:使用dataframe在hive分区表上用新数据替换旧数据

apache-spark、hive、pyspark

您能指导我使用pyspark(dataframe)在特定的hive分区上用新数据替换旧数据吗？每个月我都会收到一些县的记录。我想用该分区上的新数据替换旧数据。我已经使用pyspark开发了脚本，并在数据帧中加载了特定分区

浏览 8提问于2016-08-16得票数 2

1回答

在分区的hive表中插入spark* Dataframe而不覆盖数据*

apache-spark、hive、pyspark

我有一个从分区表创建的数据帧。我需要在不覆盖先前数据的情况下，将此数据框插入到已创建的分区配置单元表中。我使用partitionBy("columnname"),insertInto("hivetable")，但是它给了我partitionBy和intsertInto不能同时使用的问题。

浏览 62提问于2019-09-25得票数 0

3回答

无法从配置单元查询`saveAsTable`之后的Spark* DF - Spark SQL特定格式，与配置单元不兼容*

scala、apache-spark、hadoop、hive、apache-spark-sql

我正在尝试将数据帧保存为外部表，该表将同时使用spark和可能的hive进行查询，但不知何故，我无法使用hive查询或查看任何数据。它在spark中工作。以下是如何重现该问题的方法：hive</em

浏览 3提问于2019-08-02得票数 0

1回答

spark数据集覆盖在spark 2.4中无法工作的特定分区

scala、apache-spark、hive、apache-spark-sql

在我的工作中，最后一步是将执行的数据存储在Hive表中，并在"date“列上进行分区。有时，由于作业失败，我需要单独为特定分区重新运行作业。正如所观察到的，当我使用下面的代码时，spark在使用覆盖模式时覆盖了所有分区。，我按照以下步骤仅覆盖了特定的</em

浏览 1提问于2020-03-18得票数 1

4回答

将火花数据存储到蜂巢中:表格不可读，因为“SequenceFile不是块”

apache-spark、hive、apache-spark-sql、pyspark

我希望使用PySpark将数据保存到一个Hive表中。指出： from pyspark.sql import HiveContext sqlContext = HiveContext(sc)

浏览 2提问于2015-07-17得票数 9

回答已采纳

2回答

如何使用HANA SDA虚拟表访问蜂窝酸表？

apache-spark、hive、hana、apache-drill、virtual-table

我们目前正在使用HANA 1、sps 12、和火花控制器来创建虚拟表并访问HANA中的单元数据。问题是，我们有一些SC2表，我们想要存档在HANA，我们需要完整的CRUD操作。我们已经将一些Hive表转换为ACID (事务性=真)。现在我们无法获取记录，它返回0条记录。我们尝试使用DSN，它具有对Hive acid表的本机支持，但是当我们使用钻孔ODBC驱动程序和DSN查询

浏览 5提问于2020-05-16得票数 0

回答已采纳

2回答

获取所有由火花写入Hive亚稳态的新分区

apache-spark、hive、apache-spark-sql

我有一个dataframe，用于使用spark (使用动态分区)将其插入到现有的分区单元表中。一旦写入了dataframe，我想知道我的dataframe刚刚在hive中创建了哪些分区。我可以查询dataframe是否有不同的分区，但这需要很长时间，因为它必须启动dataframe的<

浏览 1提问于2019-07-25得票数 0

回答已采纳

8回答

从单元表中读取数据，然后使用spark将其写回。

scala、apache-spark、hadoop、apache-spark-sql

我正在使用Spark读取一个Hive表，并将它分配给scala然后，我对dataframe进行了一些处理，最后得到了一个dataframe，它的确切模式是表some_table。最后，我正在尝试将y数据重写到同一个单元表some_table中。:无法将覆盖插入到也正在读取<em

浏览 31提问于2016-08-03得票数 17

1回答

火花-蜂巢分区

apache-spark、hive

Hive表是使用4个分区创建的。cells int, sms_in int) partitioned by (traffic_date_hour string) stored as ORC into 4 buckets 问题是，当插入发生在hive表

浏览 2提问于2016-03-21得票数 1

2回答

当指定分区时，Spark与Hive不兼容。

hive、apache-spark-sql、partitioning、parquet

一种边缘情况，当在带分区的Spark中保存拼花表时，final StructType schema = DataTypes.createStructType(Arrays.asListSpark特定格式的Hive转移，这与Hive不兼容 hive> describe tblclick8partitioned;col

浏览 2提问于2016-08-31得票数 14

1回答

从Hive表中读取数据创建的spark数据帧的分区数

hive、apache-spark-sql

我对spark dataframe的分区数量有疑问。如果employee表有10个不同的位置。因此，在HDFS中，数据将被划分为

浏览 0提问于2017-05-10得票数 4

3回答

如何在不删除没有新数据的分区的情况下在Spark中分区和写入DataFrame？

apache-spark、spark-dataframe、partitioning、parquet

).partitionBy("eventdate", "hour", "processtime").parquet(path)但是，我在理解如何将数据组织到单

浏览 2提问于2017-02-19得票数 37

1回答

具有区分大小写且未插入配置单元表中的DataFrame

apache-spark、hadoop、hive、pyspark、bigdata

面对这样一种场景，其中dataframe区分大小写，并且在将该dataframe插入到hive表中时，它会抛出错误，因为列不明确我们可以在运行时动态处理来自列的两个值而不抛出错误吗通过设置spark.set.conf("spark.sql.caseSensitive", "true

浏览 4提问于2019-08-02得票数 0

6回答

将火花数据作为动态分区表保存在蜂巢中

apache-spark、hadoop、hive、apache-spark-sql

我有一个示例应用程序可以从csv文件中读取数据。可以使用df.saveAsTable(tablename,mode)方法以拼花格式将数据存储到Hive表中。上面的代码工作正常，但是我每天都有这么多的数据，所以我想根据creationdate(表中的列)动态地划分hive表。是否有任何方法来动态划分数据并将其存储到蜂窝仓库。问题可以看作是对:<e

浏览 7提问于2015-07-10得票数 41

回答已采纳

2回答

在星火库上列出特定单元表的所有分区，并添加一个分区

apache-spark、hive

如何向hive表中添加新的分区？有什么api的蜂巢亚稳态，我可以使用火花？有没有办法获得映射dataframe row => partition_path的内部单元函数？现在我发现的唯一方法是FULL OUTER JOIN SQL +SaveMode.Overwrite，它效率不高，因为他会覆盖所有的表，而我的主要兴趣是对某些特定分区的增

浏览 2提问于2016-10-26得票数 6

回答已采纳

1回答

我正在尝试使用spark sql从pyspark dataframe创建一个hive paritioned表。下面是我正在执行的命令，但得到了一个错误。错误消息如下。df.createOrReplaceTempView(df_view) spark.sql("create table if not exists tablename PARTITION (date)df_view") 错误：pyspark.sql.utils.ParseException:u"

浏览 113提问于2021-09-19得票数 0

回答已采纳

1回答

替换Spark中的配置单元分区

apache-spark、apache-spark-sql、spark-dataframe、hiveql

有没有办法从Spark程序中替换(现有的) hive分区？仅替换最新的分区，其余分区保持不变。我们每分钟都会从我们的RDBMS系统中获得跨国数据进入HDFS。将有一个spark程序(每5分钟或10分钟运行一次)读取数据，执行ETL并将输出写入Hive Table。由于覆盖整个hive

浏览 12提问于2018-02-07得票数 0

回答已采纳

1回答

使用Spark* SQL将数据插入静态配置单元分区*

apache-spark、hive

我很难弄清楚如何使用Spark SQL将数据插入Hive表的静态分区。我可以使用这样的代码来写入动态分区：但是，我不知道如何将数据插入到静态分区中。这意味着，我希望定义在不需要向DataFrame

浏览 1提问于2016-07-29得票数 5

2回答

通过sparkSQL创建蜂窝

apache-spark、hive、apache-spark-sql、data-processing

我对蜂巢中的扣环有一个疑问。我已经创建了一个临时表，该表在列关键字上存储桶。当我检查这个表的基目录时，它显示了前缀为part_*的文件名。但是，当我通过另一个表</

浏览 1提问于2018-08-02得票数 5

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

用星星之火覆盖蜂窝分区

Pyspark:使用dataframe在hive分区表上用新数据替换旧数据

在分区的hive表中插入spark* Dataframe而不覆盖数据*

无法从配置单元查询`saveAsTable`之后的Spark* DF - Spark SQL特定格式，与配置单元不兼容*

spark数据集覆盖在spark 2.4中无法工作的特定分区

将火花数据存储到蜂巢中:表格不可读，因为“SequenceFile不是块”

如何使用HANA SDA虚拟表访问蜂窝酸表？

获取所有由火花写入Hive亚稳态的新分区

从单元表中读取数据，然后使用spark将其写回。

火花-蜂巢分区

当指定分区时，Spark与Hive不兼容。

从Hive表中读取数据创建的spark数据帧的分区数

如何在不删除没有新数据的分区的情况下在Spark中分区和写入DataFrame？

具有区分大小写且未插入配置单元表中的DataFrame

将火花数据作为动态分区表保存在蜂巢中

在星火库上列出特定单元表的所有分区，并添加一个分区

Pyspark sql用于创建配置单元分区表

替换Spark中的配置单元分区

使用Spark* SQL将数据插入静态配置单元分区*

通过sparkSQL创建蜂窝

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐