以非常慢的速度使用分区的spark写入镶木_Spark将数据写入分区Hive表的速度非常慢_将数据帧写入Spark群集上的文件的速度非常慢 - 腾讯云开发者社区

apache-spark、parquet

当使用partitionBY写拼图时，我发现.Analyzing日志在目录中列出了文件，并且在列出文件时，我观察到了下面的行为，它花费了一个多小时，似乎是空闲的，然后又开始了。@7c64db53,/mnt/resource/hadoop/yarn/local/usercache/livy/appcache/application_1577238363313_38955/spark-487c8d3d-391c-47b3-9a1b-d816d95

浏览 27提问于2020-01-31得票数 0

1回答

Spark将数据写入分区Hive表的速度非常慢

hadoop、apache-spark、pyspark、spark-dataframe

我想将Spark数据帧以正常的可读文本格式存储到Hive表中。因为这样做，我首先这样做了我的DataFrame是这样的：final_data1_df.write.partitionBy("b").mode("overwrite").saveAsT

浏览 10提问于2016-08-08得票数 6

1回答

保存到SQL或从SQL加载的大型稀疏矩阵数据与Numpy文件数据

python、sql-server、pandas、dask、pyodbc

保存到SQL或从SQL加载的大型稀疏矩阵数据与Numpy文件数据我在我的python应用程序中使用了一个大的稀疏矩阵(~20k x 100k)和向量(~20K x 1)，速度很快，而且很成功。我原本计划使用numpy save和load函数进行保存和加载。SQL Server通过pyodbc的速度非常快，但我以前从未想过要使用SQL来管理和维护稀疏矩阵。问这个的动机是什么？在保存、增长和维护矩阵方

浏览 1提问于2020-10-10得票数 1

1回答

在pyspark中读取已分区的配置子母表，而不是在拼接中

python-3.x、pyspark、hiveql

我有一个分割的镶木地板。它按日期进行分区，如下所示：/server/my_dataset/dt=2021-08-01spark.read.parquet("/server/my_dataset&#x

浏览 0提问于2021-08-27得票数 0

5回答

如何控制输出文件的大小？

apache-spark、parquet

在spark中，控制输出文件大小的最佳方法是什么。例如，在log4j中，我们可以指定最大文件大小，超过此大小后，文件将旋转。我有几个变通方法，但没有一个是好的。如果我想将文件限制为64mb，那么一种选择是对数据进行重新分区并写入临时位置。然后使用临时位置中的文件大小将文件合并在一起。但是很难获得正确的文件大小。

浏览 1提问于2016-08-28得票数 25

2回答

Spark镶嵌读取性能

apache-spark、parquet

我有一个月的数据存储在HDFS中。31个文件夹，每个文件夹以yyyy-mm-dd格式按日期表示。举例: 2020-01-30 每隔5分钟我们将获得数据，我们将使用spark append mode将数据保存为拼图文件。一小时12个文件，一天288个文件。因此每个文件夹包含大约288个拼图文件。因此，对于一月份，它是关于8928(31*288)拼图文件的。我将使用spark读取数据。读取这么多文件会导致性能问题吗？另外，如果我每天都维护一个文件。

浏览 41提问于2020-01-31得票数 1

1回答

对Cassandra行进行分组，然后使用Spark将其写为拼图文件

scala、apache-spark、spark-cassandra-connector

我需要把Cassandra分区写成parquet文件。因为我不能在foreach函数中共享和使用sparkSession。首先，我调用collect方法收集驱动程序中的所有数据，然后将拼接文件写入HDFS，如下所示。感谢这个链接https://github.com/datastax/spark-cassandra-connector/blob/master/doc/16_partitioning.md 我能够获得我的<

浏览 22提问于2019-12-26得票数 1

1回答

当合并= 1时，加快星火书写速度？

apache-spark、parquet

我有一个火花作业，它从位置A读取一天值的数据并写入位置B。任务的目的是将许多小文件连接到s3中的每个单元样式分区的单个文件中。我的代码非常简单，但运行非常慢。spark://foobar \ --conf spark.dynamicAllocation.enabled=true \ --co

浏览 0提问于2018-04-10得票数 2

0回答

如何使用Spark读取以Avro逻辑格式存储的双精度值

apache-spark、binary、hive、double、avro

不管是什么原因，通过执行SELECT来读取这些数据是非常慢的。我还不知道为什么。数据是分区的，我的WHERE子句总是跟在分区列之后。因此，我决定通过导航到分区路径并使用Spark SQLContext直接读取数据。这样做的速度要快得多。然而，我遇到的问题是读取双精度值。Avro以二进制格式存储它们。当我在Hive中执行以下查询时： select

浏览 7提问于2016-07-19得票数 1

2回答

使用python将Oracle分区表转换为Datalake

python、oracle、azure-data-lake

你好，我正在尝试将Oracle分区表转换为Datalake parquet文件。使用此脚本 # Convert it to Spark SQL table and save it as parquet format .format("parquet"，而不是分区。spark = SparkSession.builder \ .appName("Load " + schema_name + " " +

浏览 29提问于2020-09-02得票数 0

回答已采纳

1回答

Spark Dataframe/Parquet中的枚举等效项

apache-spark、parquet

我有一个包含数亿行的表，我想将其存储在Spark的dataframe中，并作为拼图文件保存到磁盘上。我的拼图文件的大小现在超过了2TB，我想确保我已经对其进行了优化。这些列中有很大一部分是字符串值，这可能很长，但也往往只有很少的值。例如，我有一列只有两个不同的值(一个是20个字符，一个是30个字符的字符串)，另一个列有一个字符串，平均长度为400个字符，但所有条目中只有大约400个不同的值。在关系数据库中，我通常会将这些值规范化到一

浏览 13提问于2017-06-23得票数 5

回答已采纳

1回答

Spark:写入DynamoDB，写入容量有限

apache-spark、amazon-dynamodb、throttling

我的用例是从Spark应用程序写入DynamoDB。由于我对DynamoDB的写入容量有限，并且不想因为成本问题而增加它，我如何将Spark应用程序限制为以规定的速度写入？这可以通过将分区减少到1然后执行foreachPartition()来实现吗请建议其他方法处理此问题。编辑:当Spark应用程序在多节点EMR集群上运行时，需要实现

浏览 1提问于2018-05-18得票数 2

3回答

如何在Spark中读取ORC文件时保留分区列

apache-spark、apache-spark-sql、orc

在Spark中读取ORC文件时，如果在路径中指定分区列，则该列将不会包含在数据集中。例如，如果我们有我在scala上使用的是spark 2.2。EDIT:这是一个可重

浏览 1提问于2018-09-13得票数 5

1回答

火花s3写入(s3与s3a连接器)

amazon-web-services、apache-spark、amazon-s3、parquet、amazon-emr

我正在处理一个运行在EMR上的作业，它在s3上节省了数千个分区。分区是年/月/日。我有过去50年的数据。现在，当spark写入10000个分区时，使用s3a连接大约需要1小时。它非常慢。S3前缀，只需几分钟就可以将所有分区保存在s3上。，s3与s3a相比速度非常快。，s3a更成熟，目前正在使用中。s3/s3n是旧<

浏览 1提问于2021-11-16得票数 2

1回答

胶水火花写入数据一个分区的时间

apache-spark、pyspark、apache-spark-sql、aws-glue

需要帮助来理解它是如何工作的:我有2TB的数据，我正在使用胶水火花分区写在一个特定的日期列。我使用的是40个工作节点的g2x。由于上述原因，编写数据的速度

浏览 2提问于2022-01-31得票数 0

1回答

奇怪的Parquet写瓶颈

apache-spark、pyspark、parquet

我好像是新来的火花。我现在收到了一些非常奇怪的缓慢拼花写信给亚马逊s3后，我的火花calc完成。编写一个小文件花了1.8个小时(写入时有两个分区)我使用不同的更大的文件(更多的行+更多的列)运行相同的spark (编写时有3个分区)。即使速度慢是由于文件之间的差异，我也不

浏览 4提问于2020-06-19得票数 1

回答已采纳

1回答

如何在Apache中重新划分CassandraRDD

java、cassandra、apache-spark、datastax-java-driver、rdd

我使用的是3 Node Cassandra集群和6 Spark ，每个集群都有1核心和2GB内存。使用，我尝试从拥有超过300 K行的Cassandra中获取整个数据，并尝试进行一些聚合。我还浏览了Spark，我看到 stage有3个分区，其中两个分区执行得非常快(在几秒钟内)，而第三个分区则需要很长时间(7分钟)。我还试图重新划分CassandraRDD，以增加任务数量，并将任务分配给所有六个工作

浏览 6提问于2015-04-03得票数 2

回答已采纳

1回答

询问卡桑德拉的最快方法？主键还是分区键？

cassandra、cql

询问卡桑德拉的最快方法是什么？我有一个表，其中主键由3列组成。我按其中一个列进行查询，它非常慢(我通过Spark查询)。三个人的查询速度会更快吗？任何洞察力都是有用的。

浏览 3提问于2020-03-11得票数 2

回答已采纳

1回答

Apache使用动态分区覆盖和S3委员会将Parquet文件写入到S3

amazon-web-services、apache-spark、amazon-s3、pyspark、parquet

目前，我正在使用Apache (吡火花)构建一个应用程序，我有以下用例：确保每个作业覆盖它要写入的特定分区，以确保幂等作业。确保在提交到S3之前将火花暂存文件写入本地磁盘，因为

浏览 33提问于2022-01-17得票数 2

3回答

将大文本文件导入Spark

apache-spark、pyspark、bigdata

我有一个以竖线分隔的文本文件，大小为360 is，压缩(gzip)。该文件位于S3存储桶中。这是我第一次使用Spark。我知道，您可以对文件进行分区，以便允许多个工作节点对数据进行操作，这会带来巨大的性能提升。但是，我正在尝试找到一种有效的方法来将我的一个360‘m的文件转换为分区文件。有没有办法使用多个spark worker节点来处理我的一个压缩文件，以便对其

浏览 1提问于2017-10-25得票数 4

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云