Spark在一个非常小的数据集上运行非常慢

Spark是一个开源的分布式计算框架，用于处理大规模数据集的高速计算。它提供了内存计算和并行处理的能力，可以在集群中进行分布式计算，从而加快数据处理速度。

对于一个非常小的数据集，Spark运行慢的原因可能有以下几个方面：

数据规模不足：Spark适用于处理大规模数据集，当数据集很小的时候，Spark的分布式计算能力无法得到充分发挥，反而会因为数据划分、网络通信等开销导致运行速度变慢。
数据分区过多：Spark将数据划分为多个分区进行并行处理，但如果数据集很小，分区过多会导致每个分区的数据量很少，从而增加了任务调度和数据传输的开销，降低了计算效率。
硬件资源配置不合理：Spark通常在集群环境中运行，如果集群的硬件资源配置不合理，比如CPU核心数、内存容量等不足以支撑Spark的计算需求，就会导致运行速度变慢。

针对以上问题，可以采取以下优化措施：

增加数据规模：如果可能的话，可以尝试增加数据集的规模，使其达到Spark能够充分发挥分布式计算能力的程度。
调整数据分区：根据数据集的大小和集群资源情况，合理设置数据分区的数量，避免分区过多导致的性能损失。
优化硬件资源配置：确保集群的硬件资源配置足够支撑Spark的计算需求，包括CPU核心数、内存容量等。

此外，还可以考虑使用Spark的一些优化技术，如数据压缩、内存管理、并行度调整等，以提高Spark在小数据集上的运行速度。

腾讯云提供了一系列与Spark相关的产品和服务，如云服务器、弹性MapReduce、云数据库等，可以根据具体需求选择适合的产品。更多关于腾讯云Spark产品的信息，可以参考腾讯云官方网站：https://cloud.tencent.com/product/emr

Spark在一个非常小的数据集上运行非常慢

、、、

下面这个简单的spark程序需要4分钟才能运行。我不知道这段代码出了什么问题。首先，我生成一个非常小的rddP1 = spark.sparkContext.parallelize(list(zip(list(range(4)),

浏览 3提问于2019-08-02得票数 1

回答已采纳

1回答

小Spark数据帧在Databricks中速度非常慢

、

我使用了一个非常标准的Databricks集群(2个节点，14 GB内存，4核，0.75DBU)。我有一个定义为spark_shape的函数 def spark_shape(df): """ return (df.count(),len(df.columns)) 以及仅具有形状(590，2)的简单数据帧df。

浏览 9提问于2021-06-26得票数 0

1回答

使用spark进行非常小的批处理

、、

我们正在做一个项目，在这个项目中，我们需要处理一些非常小的数据集，实际上，csv格式的数据集少于100行。大约有20-30个这样的作业来处理这些类型的数据集。但是，负载在未来可能会增长，并且可以达到大数据类别。对于这些超小负载，可以从spark开始，这样系统明天就可以保持可伸

浏览 0提问于2018-06-18得票数 0

3回答

我有大约60k的文件存储在HDFS中，每个文件大小在4kb-70 4kb的千字节范围内。我正在试图通过对我所知道的特定文件执行regex搜索来处理它们，处理过程太长，而且似乎不正确.火花作业在纱线上运行硬件规格:3个节点，每个节点有4个核心和15G内存。filterMatchRegex).toDF(['file_name', 'result']) # this takes ~hour and still doesn't

浏览 1提问于2019-07-31得票数 1

2回答

Postgres在时间戳后面选择next，非常慢

、、

我想在我的表中查找下一个表中的每个时间戳。该查询在非常小的数据集(20行)上运行良好，但当我将其用于超过25000行的数据集时，它非常慢。即使等了几分钟，我还是没有得到任何结果。有什么方法可以提高我的查询的性能吗？

浏览 1提问于2018-08-02得票数 0

回答已采纳

1回答

R的hist函数在大数据集上运行非常慢

、

我有一个不太大的(好吧，"large“是相对的)数组/向量，包含1,224,647个p值。在我的Ubuntu虚拟机上运行大约需要15分钟。长时间的运行时间让我感到困扰，因为这只是我必须分析的数据的一小部分。我已经通读了手册，运行搜索引擎，我没有看到其他人有这个问题，这是非常令人费解的。utils datasets

浏览 25提问于2020-10-07得票数 1

1回答

在spark中使用scala将预测结果保存到HDFS表中，在纱线集群模式下速度非常慢

、、、、

我使用scala在spark中构建了一个机器学习项目，并使用spark-submit启动它，参数为"--master yarn-cluster“。计算步骤非常快，但它总是卡在写表的步骤上好几个小时。write .saveAsTable("tmp_sbu_vadmtestdb.AntiCF_ClickFarming_predicted")<em

浏览 1提问于2016-11-30得票数 0

1回答

使用和Java直接运行sql查询

、、、、

我试图弄清楚如何使用Spark直接执行查询。我指的是：sql.sql("QUERY HERE");格列茨

浏览 3提问于2016-10-07得票数 3

回答已采纳

1回答

比较SparkMlib和Scikit-收集数据帧后学习

、

我对SparkMlib的使用感到困惑，因为在大多数情况下，数据结构仍然是“局部”密集/稀疏的向量/矩阵。SparkMlib如何获得比Sckit-learn更好的性能？

浏览 0提问于2016-03-02得票数 0

1回答

如何在spark dataframe中加载avro时合并模式？

、、

我正在尝试使用读取avro文件，avro模式随着时间的推移而演变。我在mergeSchema选项设置为true的情况下读到了这篇文章，希望它能合并模式本身，但这并不起作用。sqlContext.read.format("com.databricks.spark.avro").option("mergeSchema", "true").load('s3://xxxx/d=2015-10-27/h=*/&#x

浏览 5提问于2015-12-30得票数 7

1回答

在大型数据集上通过Logstash加载弹性搜索运行非常慢

、

我在MySql中有一个很大的数据集(大约220万行)，我通过Logstash导入到Elasticsearch，但是现在的速度非常慢，。在我的本地机器上，在具有4GB内存的流浪实例中，与服务器到服务器传输的估计80+天数相比，它们运行得相对较快(花费了3天)。查询相当复杂(使用子查询等)。我的理论是，我偶尔会换

浏览 0提问于2018-05-11得票数 0

回答已采纳

1回答

postgres 9.3.6在小表上非常慢的截断

、

在Postgres 9.3.6中，对小于10行的表进行截断通常需要2-3分钟。在延迟的持续时间内，截断在事务中的waiting=f和state=idle中停滞。通过在线研究，这个问题的标准答案是锁争用，但这里似乎不是这样。这发生在除CI测试之外的已卸载的CI主机上。根据pg_stat_activity的说法，truncate是唯一运行的语句，并且根据pg_locks的</

浏览 0提问于2015-04-14得票数 4

2回答

熊猫在大型数据集上的合并速度非常慢。

、

我有一个获得4000 K HL7文件的管道。我得把它转换成csv。每个文件将有多个HL7段，每个段(OBX)将有一个列(COL1，COl2..COL100)，它的值和时间。我正在循环遍历每一列，创建熊猫数据框架，并附加列it.if列属于时间，它已经存在于数据帧中。如果数据帧中没有时间，则应追加列，在数据帧中创建新行。最后，我标记了所有文件的所有数据框架。这需要很长时间。df = df1

浏览 3提问于2020-04-24得票数 2

1回答

在大型数据集上WebView非常慢后的困惑

、、、

许多天后，我几乎完成了我的第一个应用程序，但WebView最终毁了它。搜索功能太慢了。我想要显示的HTML/CSS页面，在搜索之后，有时会变得非常大，就像用循环和连接DB的7100多条记录制作的页面一样。现在，我正在考虑使用其他方式，比如TextView和ScrollView等等。我

浏览 3提问于2017-09-09得票数 0

1回答

如何有效地比较两个1x1星火DataFrames？

、、

我有一个用例，需要有效地比较两列的平均值。更具体地说，我想找出两个值之间的百分比变化(这涉及到一些代数和数字之间的比较)。为此，我首先对所需列的平均值进行分组和聚合，这将给出一个DataFrame，其中包含一个浮点数(即一个单元格的DataFrame )。现在，我最初所做的是使用以下方法从DataFrame获取这个值：但是事实证明，这是非常慢<em

浏览 0提问于2021-12-05得票数 0

2回答

Spark查询花费的时间太长

、、、、

我正在评估Spark/Cassandra和Elasticsearch，以决定选择哪一个。我正在考虑将所有数据加载到内存中并缓存它，这样如果数据是预加载的内存，那么后续查询就可以运

浏览 1提问于2015-06-22得票数 0

1回答

为什么我的Spark运行得比纯Python慢？性能比较

、、、、

我试图用Spark在我的数据框上做一些pandas操作，令人惊讶的是，它比纯Python慢(即在Python中使用pandas包)。我的Spark比纯Python慢得多，可能有几个原因： 1)我的数据集大约有220,000条记录，24 MB，这不是一个足够大的数据集，无法显示Spark的缩放优

浏览 1提问于2016-01-06得票数 12

回答已采纳

1回答

EC2上的Apache星火--迭代的大幅度减速

、

我有一个驱动程序程序，运行一组5个实验-基本上驱动程序只是告诉程序使用哪个数据集(其中有5，他们非常相似)。第一次迭代需要3.5分钟，第二次6分钟，第三次30分钟，第四次运行超过30分钟。每次运行完SparkContext对象之后，就会重新启动它，以便下一次运行--我认为这个方法会防止速度减慢，因为当sc.stop被调用时，我的印象是实例被清除掉了所有的RDD数据--这至少是它在本地模式下

浏览 2提问于2015-04-22得票数 1

回答已采纳

1回答

在Windows上运行的所有.NET程序集都非常慢

、、、、

我有非常简单的、非常简单的C#代码，编译成.NET exe：class Program public static void Main() }编译后的程序集每次在我的桌面Windows 8.1机器上运行大约0.02秒，但在生产Windows Server 2012 R2上

浏览 2提问于2015-07-13得票数 3

回答已采纳

2回答

您的笔记本将自动重新连接。

、、、

我试图在Databricks中分析一个500 in的数据集。这些数据存储在Excel文件中。我做的第一件事是从Maven安装Spark包com.crealytics.spark.excel (最后一个版本- 0.11.1)。这些是集群的参数：然后，我在Scala笔记本中执行了以下代码：

浏览 0提问于2019-06-16得票数 6

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

Spark在一个非常小的数据集上运行非常慢

相关·内容

Spark在一个非常小的数据集上运行非常慢

小Spark数据帧在Databricks中速度非常慢

使用spark进行非常小的批处理

如何处理星火中很小的文件

Postgres在时间戳后面选择next，非常慢

R的hist函数在大数据集上运行非常慢

在spark中使用scala将预测结果保存到HDFS表中，在纱线集群模式下速度非常慢

使用和Java直接运行sql查询

比较SparkMlib和Scikit-收集数据帧后学习

如何在spark dataframe中加载avro时合并模式？

在大型数据集上通过Logstash加载弹性搜索运行非常慢

postgres 9.3.6在小表上非常慢的截断

熊猫在大型数据集上的合并速度非常慢。

在大型数据集上WebView非常慢后的困惑

如何有效地比较两个1x1星火DataFrames？

Spark查询花费的时间太长

为什么我的Spark运行得比纯Python慢？性能比较

EC2上的Apache星火--迭代的大幅度减速

在Windows上运行的所有.NET程序集都非常慢

您的笔记本将自动重新连接。

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐