替换Spark中的配置单元分区

在Spark中，配置单元分区是指将数据集划分为多个分区，以便在集群中并行处理。如果需要替换Spark中的配置单元分区，可以考虑以下几个方面：

数据划分算法：Spark提供了多种数据划分算法，如哈希分区、范围分区等。根据具体的需求和数据特点，选择合适的数据划分算法可以提高计算效率和性能。
分区数量：合理设置分区数量可以充分利用集群资源，提高并行计算能力。分区数量过多可能会导致任务调度开销增加，而分区数量过少可能无法充分利用集群资源。根据数据量和集群规模，进行适当的调整。
数据倾斜处理：在数据分区过程中，可能会出现数据倾斜的情况，即某些分区的数据量远远大于其他分区。这会导致计算不均衡，影响整体性能。可以采用一些技术手段，如数据重分区、数据倾斜处理算法等，来解决数据倾斜问题。
动态分区：Spark支持动态分区，即根据数据的某个字段进行分区。这样可以根据数据的特点进行更精细的分区，提高计算效率。可以根据具体需求，选择合适的字段进行动态分区。
相关产品推荐：腾讯云提供了多个与Spark相关的产品，如腾讯云EMR（Elastic MapReduce）和腾讯云CVM（Cloud Virtual Machine）。EMR是一种大数据处理平台，可以快速部署和管理Spark集群。CVM是一种弹性计算服务，可以提供高性能的计算资源，用于运行Spark任务。您可以通过访问腾讯云官网了解更多关于EMR和CVM的详细信息。

总结起来，替换Spark中的配置单元分区需要考虑数据划分算法、分区数量、数据倾斜处理、动态分区等因素。腾讯云提供了EMR和CVM等产品，可以帮助您快速部署和管理Spark集群，并提供高性能的计算资源。

替换Spark中的配置单元分区

、、、

有没有办法从Spark程序中替换(现有的) hive分区？仅替换最新的分区，其余分区保持不变。我们每分钟都会从我们的RDBMS系统中获得跨国数据进入HDFS。将有一个spark程序(每5分钟或10分钟运行一次)读取数据，执行ETL并将输出写入Hive Table。由于覆盖整个hive表将是巨大的，我们只想覆盖今天分区<

浏览 12提问于2018-02-07得票数 0

回答已采纳

3回答

Spark在加载Hive表时创建了多少个分区

、、、

即使是Hive表或HDFS文件，当Spark读取数据并创建数据帧时，我认为RDD/dataframe中的分区数量将等于HDFS中的partfile数量。但是，当我使用配置单元外部表进行测试时，我可以看到这个数量与数据帧中分区的部分文件数量.The数量119不同。该表是一个Hive分区表，其中包含150个部分文件，最小文件大小为30MB，最大大小为118MB。那么，是什么决定了分区<

浏览 69提问于2020-04-02得票数 3

2回答

配置单元分区表上的spark行为

、、

我使用Spark 2。我们将hive表划分为2000个分区，并以拼接格式存储。当在spark中使用这个表时，在executors中恰好有2000个任务被执行。但是我们有一个256MB的块大小，我们期望(总大小/ 256 )分区的数量肯定会比2000小得多。spark是否有任何内部逻辑使用数据的物理结构来创建分区<

浏览 1提问于2018-04-05得票数 2

1回答

Pyspark:使用dataframe在hive分区表上用新数据替换旧数据

、、

您能指导我使用pyspark(dataframe)在特定的hive分区上用新数据替换旧数据吗？每个月我都会收到一些县的记录。我想用该分区上的新数据替换旧数据。我已经使用pyspark开发了脚本，并在数据帧中加载了特定分区的新数据。现在，我想单独为该分区用新数据替换旧数据(因为基表很大)。我尝试删除该

浏览 8提问于2016-08-16得票数 2

2回答

Spark SQL saveAsTable返回空结果

、、、、

我使用以下代码在Spark SQL中创建/插入数据到Hive表中： .builder() .master("local[2]") .enableHive

浏览 3提问于2017-02-27得票数 3

1回答

从spark* 2.3上的spark上下文中动态访问配置单元配置*

、

我使用的是spark 2.3 (启用了配置单元支持)，我想在运行时访问和设置一些配置单元的值，例如"hive.exec.max.dynamic.partitions"。如果我尝试从spark.conf对象中获取这些分区，即使设置了它们，我也无法找到它们，因为我的代码稍后会失败，因为我会报告动态分区的最大数量设置为2000 (我在集群的<

浏览 19提问于2018-12-27得票数 1

2回答

我有一个外部蜂窝表，存储为Parquet，分区在一个列上，比如as_of_dt，数据通过spark streaming插入。现在，每天都会添加新的分区。我正在执行msck repair table，以便配置单元元存储获得新添加的分区信息。这是唯一的办法，还是有更好的办法？我担心如果下游用户查询表，msck repair是否会导致数据不可用或数据陈旧的问题？我正在浏览HiveContext应用程序接口

浏览 8提问于2018-08-07得票数 13

3回答

无法从配置单元查询`saveAsTable`之后的Spark* DF - Spark SQL特定格式，与配置单元不兼容*

、、、、

我正在尝试将数据帧保存为外部表，该表将同时使用spark和可能的hive进行查询，但不知何故，我无法使用hive查询或查看任何数据。它在spark中工作。以下是如何重现该问题的方法：hivescala> spark<

浏览 3提问于2019-08-02得票数 0

3回答

如何在不删除没有新数据的分区的情况下在Spark中分区和写入DataFrame？

、、、

partitionBy将删除path中现有的完整分区层次结构，并将其替换为dataFrame中的分区。要做到这一点，我似乎需要使用它的完整路径分别保存每个分区，如下所示：

浏览 2提问于2017-02-19得票数 37

1回答

将配置单元分区表加载到Spark* Dataframe*

、、、、

我使用的是Spark 1.4.1版本。我正在尝试将一个已分区的配置单元表加载到一个DataFrame中，其中在配置单元表中按year_week编号进行分区，在这种情况下，我可能有104个分区。但是我可以看到DataFrame正在将数据加载到200个分区中，我知道这是因为spark.sql.shuffle.partitions默认

浏览 1提问于2016-03-28得票数 1

1回答

如何对数据进行物理分区以避免Spark* SQL连接中的混洗*

我需要连接5个中等大小的表(每个表大约80 gb )和大约800 gb的大型输入数据。所有数据都驻留在配置单元表中。我使用Spark SQL 1.6.1来实现这一点。Join需要40分钟的时间才能完成--num-executors 20 --driver-memory 40g --executor-memory 65g --executor-cores 6。也看到了大量的洗牌发生。我将hive中的所有表存储到相同数

浏览 3提问于2016-10-25得票数 1

2回答

当数据存储在对象存储中时，从Spark* SQL访问配置单元表*

、、

我使用spark dataframe编写器将数据写入IBM Cloud Object Storage中的内部hive表，格式为parquet。因此，我的配置单元元存储在HDP集群中，我正在从HDP集群运行spark作业。此spark作业将数据以parquet格式写入IBM COS。，当我对数据进行分区并存储(通过partitionBy)时，我无法直接从spark sql访问数据 spark<

浏览 40提问于2018-12-18得票数 0

1回答

使用Spark在Qubole metastore中设置分区位置

、、、

如何在Qubole metastore中为我的Hive表设置分区位置？我知道这是Spark，但是如何使用MySQL访问它并传递带有修复的SQL脚本呢？更新:问题是ALTER TABLE table_name PARTITION (partition_spec) SET LOCATION对于>1000个分区运行缓慢。你知道如何直接更新Qubole的转移存储吗？我希望将批处理中的位置传递给转移存储，以提高性能。

浏览 1提问于2018-04-11得票数 0

1回答

在spark* 2.0中访问指定数据库限定符的配置单元表*

、、

我正在尝试使用spark sql访问指定数据库限定符的配置单元表。我正在使用sparksession，因为它是spark 2.0或更高版本。例如，我正在尝试向现有表中添加一个分区。$tablename添加分区(...)位置...") 它不会抛出任何错误，但甚至不会创建任何分区。是不是不能在spark sql中指定databaseName？

浏览 1提问于2018-02-28得票数 0

1回答

即使在使用enableHiveSupport()之后，也无法使用spark* sql交换配置单元分区*

、、、

我正在尝试将增量数据推送到基本配置单元表中。为此，我在我的临时数据库中准备了数据，并将其存储在一个表中，其中包含我的基表的确切ddl。为了将数据从暂存移动到基表，我尝试在spark.sql的配置子表上使用"Exchange分区“，如下所示。sql不支持"Exchange分区“，尽管我已经在我的程序中设置了enableHiveS

浏览 49提问于2019-07-06得票数 2

1回答

无法使用pyspark将dataframe写入配置单元分区镶嵌表

、、

我正在尝试将我的数据帧写入分区的hive表中，.Hive表的格式是parquet。但我无法将df写到Hive表中。我正在尝试将我的数据帧写入分区的hive表中，.Hive表的格式是parquet。但我无法将df写到Hive表中。Spark2.3和分区配置单元表当我试图将finaldf加载到配置</

浏览 28提问于2019-05-27得票数 0

2回答

通过sparkSQL创建蜂窝

、、、

我对蜂巢中的扣环有一个疑问。我已经创建了一个临时表，该表在列关键字上存储桶。当我检查这个表的基目录时，它显示了前缀为part_*的文件名。但是，当我通过另一个表手动将数据插入到这个表中时，我看到了以00000_*为前缀的文件。我不确定spark sql是否将数据写入存储桶<em

浏览 1提问于2018-08-02得票数 5

1回答

将值插入到Row类型的Pyspark中的配置单元表

、、、、

我有一个函数，它计算查询的最大值，并插入类型为Row的最大值，以及另外两个值date和product name。reopen = hc.sql('insert into details values(row_date, row_name, count)')下面是调用该函数的代码= prod_date) & (col("prod_name") == row_name)) findCount(query, prod_date, prod

浏览 3提问于2018-10-10得票数 0

1回答

Spark SQL(通过HiveContext的配置单元查询)总是创建31个分区

、、

我在我的Spark代码中使用HiveContext运行hive查询。无论我运行哪个查询，以及它有多少数据，它总是生成31个分区。有人知道原因吗？是否有预定义/可配置的设置？我基本上需要更多的分区。我使用以下代码片段来执行配置单元查询：我使用的是Spark 1.3.1 谢谢你，妮汀

浏览 3提问于2016-04-28得票数 1

2回答

我收到"Failed with exception java.io.IOException:/user/hive/warehouse/people/part-r-00001.parquet not a SequenceFile“

、、、、

我通过在我的数据帧上调用.saveAsTable创建了一个Spark SQL表。该命令完全成功。但是，现在当我查询表时，拼图文件似乎已损坏。java.io.IOException: hdfs://ip:8020/user/hive/warehouse/people/part-r-00001.parquet not a SequenceFile"scala >val sqlC

浏览 3提问于2016-01-20得票数 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

替换Spark中的配置单元分区

相关·内容

替换Spark中的配置单元分区

Spark在加载Hive表时创建了多少个分区

配置单元分区表上的spark行为

Pyspark:使用dataframe在hive分区表上用新数据替换旧数据

Spark SQL saveAsTable返回空结果

从spark* 2.3上的spark上下文中动态访问配置单元配置*

外部配置单元表刷新表与MSCK修复

无法从配置单元查询`saveAsTable`之后的Spark* DF - Spark SQL特定格式，与配置单元不兼容*

如何在不删除没有新数据的分区的情况下在Spark中分区和写入DataFrame？

将配置单元分区表加载到Spark* Dataframe*

如何对数据进行物理分区以避免Spark* SQL连接中的混洗*

当数据存储在对象存储中时，从Spark* SQL访问配置单元表*

使用Spark在Qubole metastore中设置分区位置

在spark* 2.0中访问指定数据库限定符的配置单元表*

即使在使用enableHiveSupport()之后，也无法使用spark* sql交换配置单元分区*

无法使用pyspark将dataframe写入配置单元分区镶嵌表

通过sparkSQL创建蜂窝

将值插入到Row类型的Pyspark中的配置单元表

Spark SQL(通过HiveContext的配置单元查询)总是创建31个分区

我收到"Failed with exception java.io.IOException:/user/hive/warehouse/people/part-r-00001.parquet not a SequenceFile“

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐