Spark中大表上的sparklyr sdf_collect和dplyr collect函数需要很长时间才能运行？

在Spark中，sparklyr sdf_collect和dplyr collect函数在处理大表时可能需要很长时间才能运行的原因有以下几个方面：

数据量大：当处理的数据量非常大时，无论是使用sparklyr sdf_collect还是dplyr collect函数，都需要将整个数据集从分布式存储中收集到驱动节点上，这个过程需要消耗大量的时间和资源。
网络传输延迟：在分布式计算中，数据通常存储在集群的不同节点上，而sparklyr sdf_collect和dplyr collect函数需要将数据从各个节点传输到驱动节点上，如果网络传输延迟较高，会导致函数运行时间延长。
内存限制：当数据集的大小超过驱动节点的可用内存时，sparklyr sdf_collect和dplyr collect函数会触发数据溢出到磁盘的操作，这会导致额外的磁盘IO开销和性能下降。

为了改善这个问题，可以考虑以下几个方案：

使用分页查询：如果只需要部分数据，可以使用分页查询的方式，逐页获取数据，而不是一次性获取全部数据。
使用采样数据：如果数据集非常大，可以先对数据进行采样，获取一个较小的数据集进行分析和测试，以减少处理时间。
优化代码逻辑：通过优化代码逻辑，减少不必要的计算和数据传输，可以提高函数的运行效率。
增加集群资源：如果集群资源允许，可以增加计算节点的数量或者提升节点的配置，以提高整体的计算能力和并行处理能力。
使用分布式数据处理框架：除了Spark，还可以考虑其他分布式数据处理框架，如Hadoop、Flink等，根据具体需求选择适合的框架。

对于Spark中大表上的sparklyr sdf_collect和dplyr collect函数的优化，腾讯云提供了一系列的云原生产品和解决方案，例如：

腾讯云Spark：腾讯云提供了托管的Spark集群服务，可以根据实际需求弹性扩展计算资源，提供高性能的数据处理能力。详情请参考：腾讯云Spark产品介绍
腾讯云数据仓库（CDW）：腾讯云提供了高性能、弹性扩展的数据仓库服务，可以用于存储和分析大规模数据。CDW支持Spark等多种计算引擎，可以提供更高效的数据处理能力。详情请参考：腾讯云数据仓库产品介绍
腾讯云弹性MapReduce（EMR）：腾讯云提供了弹性、高可靠的大数据处理服务，支持Spark等多种计算引擎，可以快速处理大规模数据。详情请参考：腾讯云弹性MapReduce产品介绍

通过使用腾讯云的云原生产品和解决方案，可以提高Spark中大表上的数据处理效率，加快sparklyr sdf_collect和dplyr collect函数的运行速度。

页面内容是否对你有帮助？

有帮助

没帮助

Spark中大表上的sparklyr sdf_collect和dplyr collect函数需要很长时间才能运行？

、、、、

我正在运行R Studio和R 3.5.2。我已经使用来自S3a的sparklyr::spark_read_parquet加载了大约250个parquet文件。我需要从Spark (由sparklyr安装)收集数据： spark_install(version = "2.3.2", hadoop_version = "2.7") 但由于某些原因，这项工作需要很长</e

浏览 39提问于2019-01-28得票数 1

回答已采纳

2回答

在Databricks中使用sparklyr收集表

、、、

我有一个大约有5 billion rows的parquet表。在使用sparklyr进行所有操作之后，它被简化为1,880,573 rows和629 columns。当我尝试使用sdf_collect()为Factor Analysis收集它时，它给出了这个内存错误： Error : org.apache.spark.sql.execution.OutOfMemorySparkException: Total memory usage during row decode exceeds

浏览 4提问于2020-09-30得票数 0

1回答

Spark/Databricks:在R中收集()大型数据集

、、

问题:我可以在大约2分钟内使用python (pyspark)对数据进行collect()。但是，当我试图使用sparklyr在R中收集相同的数据集时，该命令在大约2.5天后仍在运行。我不能首先将数据集加载到DBFS中，因为我们需要比DBFS所允许的更严格的数据访问控制。下面是我在collect()和R中运行的单元格的屏幕截图。对于上下文，我使用的是sdf

浏览 8提问于2022-10-31得票数 1

1回答

通过火花导入卡桑德拉表到火花-可能只选择一些列？

、、、、

我一直在与sparklyr合作，使大型卡桑德拉表产生火花，向R注册这些表，并对它们进行dplyr操作。我已经成功地导入了cassandra表，代码如下： cass_df <- sparklyr:::spark_data_read_genericsc, cass_df, name = "cass_table", repartition = 0, memor

浏览 3提问于2017-03-02得票数 3

回答已采纳

1回答

如何用mclapply重用sparklyr上下文？

、、、

我有一个R代码，它在sparklyr中进行一些分布式数据预处理，然后将数据收集到R本地数据帧中，最后将结果保存在CSV中。一切都按预期运行，现在我计划在多个输入文件处理过程中重用spark上下文。我的代码看起来类似于这个可重现的示例：library(sparklyr) # Generatesummarise(n=n(

浏览 24提问于2020-02-16得票数 0

回答已采纳

2回答

为什么SparkR中的collect速度如此之慢？

、、

我使用的是spark 2.0.0和Spark (RStudio和R 3.3.1)中的SparkR包，它们都运行在具有4核和8 8gb内存的本地机器上。为了便于构建我可以在R中处理的数据集，我使用collect()方法将spark DataFrame引入R中。这样做需要大约3分钟，这比使用data.table包读取相同大小的CSV

浏览 9提问于2016-09-19得票数 8

7回答

SparkR vs sparklyr

、、、

有没有人概述一下SparkR和sparklyr的优缺点？谷歌没有产生任何令人满意的结果，两者似乎相当相似。尝试这两种方式，SparkR看起来要麻烦得多，而sparklyr非常简单(既要安装，也要使用，特别是在使用dplyr输入时)。sparklyr只能用于并行运行dplyr函数，还是“普通”的R-Code？最好的

浏览 0提问于2016-09-14得票数 53

1回答

EMA函数在R数据帧上有效，但在spark数据帧上失败- Sparklyr

、、

我对R和Spark都是新手。我正在编写一个函数来计算一组数据的指数移动平均值。我正在使用sparklyr包在Databricks Spark平台上工作。我目前对这些值的正确性不感兴趣(我使用的是虚拟值-例如。init = 10是任意的)。我更感兴趣的是让它在Spark

浏览 25提问于2019-11-08得票数 1

回答已采纳

2回答

使用筛选器或从火花中选择后的数据示例

、、、

我需要分析大量的数据，所以我使用sparklyr来快速管理它。我的目标是获取数据的样本，但在需要选择感兴趣的变量和筛选某些列的值之前。我尝试选择和/或过滤数据，然后使用函数sample_n，但它总是给出以下错误：以下是这种行为的

浏览 3提问于2018-02-08得票数 1

回答已采纳

1回答

将SparkR DataFrame序列化为jobj

、、、、

例如，使用sparklyr扩展，我可以这样做：sparklyr然而，对于我的用例，我希望能够使用SparkR::spark.lapply，这样我就可以在本地收集我的Cassandra表的子集，在它们上运

浏览 7提问于2017-01-22得票数 0

回答已采纳

1回答

闪速spark_apply非常慢

、

sparklyr spark_apply非常慢/根本没有响应。当签入spark时，正在执行的阶段是在utils.scala:204上收集。它正在执行0/1(1正在运行)任务。应用spark_apply的数据帧有30个分区。这个任务没有进展，也没有执行单个任务的原因。library(sparklyr)config=spark_con

浏览 0提问于2019-04-25得票数 1

回答已采纳

1回答

当与sample_n一起使用时，sparklyr真的是一个随机样本吗？

、、、、

我在一个spark数据帧中有5亿行。我对在dplyr中使用sample_n很感兴趣，因为它允许我显式地指定我想要的样本大小。如果我要使用sparklyr::sdf_sample()，我首先必须计算sdf_nrow()，然后创建数据sample_size / nrow的指定部分，然后将此部分传递给sdf_sample。这不是什么大问题，但sdf_nrow()可能需要一段时间才能完成。因此，最好是直接使用dplyr::samp

浏览 2提问于2018-07-24得票数 10

回答已采纳

2回答

星火代码需要很长时间才能返回查询。帮助加快速度

、、

我目前正在运行一些火花代码，我需要查询一个数据框架，这是一个很长的时间(超过1小时)每次查询。我需要多次查询以检查数据框架是否实际上是正确的。我对Spark还比较陌生，我知道Spark使用了惰性评估，这意味着只有在我调用某个操作(在我的例子中是.show())时，命令才会被执行。有没有办法对整个DF执行一次此过程，然后快速调用数据？目前，我正在将DF保存为一个临时表，然后直接<e

浏览 0提问于2018-03-12得票数 1

2回答

使用Sparklyr连接两个不同数据库的表

、

这是我在调用Sparklyr会话之后的当前方式：我遇到的错误： "Error: org.ap

浏览 0提问于2017-05-22得票数 3

3回答

是否可以在dplyr中执行完全连接并保留联接中使用的所有列？

、、

我有两个表，我想使用dplyr完成一个完整的连接，但我不希望它删除任何列。根据文档和我自己的经验，它只保留左侧的联接列。这是一个问题，当您有一个记录右侧的行，因为连接值已经消失。例如，假设我有两个表a和b，-----------|---------我用的是火花，所以这都是在火花里运行的。因此

浏览 4提问于2017-05-05得票数 5

回答已采纳

2回答

从星团中收集数据时内存不足的错误

、、

，然后cache表来激发内存时，它占用了<2GB的内存--比我的集群可用的内存还小--然后当我试图将数据collect到驱动程序节点时，我会得到一个OOM错误。我尝试过在以下设置上运行：对于其中的每一个，我都使用了许多executor.

浏览 7提问于2017-08-25得票数 20

1回答

在RStudio中，我能像正常的R数据格式一样在图形用户界面中可视化预览吗？

、、、、

背景看到这样的东西： 

浏览 0提问于2021-08-12得票数 1

回答已采纳

1回答

在Sparklyr中创建新的Spark表或数据框最有效的方法是什么？

、、、、

在Hadoop集群(而不是VM)上使用sparklyr包，我正在处理几种类型的表，这些表需要连接、过滤等。我正在尝试确定使用dplyr命令和sparklyr中的数据管理函数来运行处理，将其存储在缓存中，并使用中间数据对象来生成保留在缓存中的下游对象的最有效方法。我想从2016年的数据开始，合并姓名和当前地址<e

浏览 15提问于2017-06-24得票数 4

回答已采纳

2回答

有人知道我如何处理R中的大数据吗？

、、、

分析RStudio中的tweet：我的csv文件包含4,000,000条tweet，包含5列: screen_name、text、created_at、favorite_count和retweet_count我试图使用以下代码来识别哈希标签的频率，但是它运行得太慢了好几天，有时还会导致RStudio崩溃。，例如：或，以及Spark：。在Spark中，我执行以下操作，但是RStudio无法将我的数据集复制到Spark。我看到“星火正在

浏览 5提问于2020-03-29得票数 3

2回答

在R和Sparklyr中，向.CSV (spark_write_csv)写入表会产生许多文件，而不是一个文件。为什么？我能改变吗？

、、、、

背景下面是用于将.csv文件输出到硬盘驱动器上的

浏览 0提问于2021-08-10得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

Spark中大表上的sparklyr sdf_collect和dplyr collect函数需要很长时间才能运行？

相关·内容

Spark中大表上的sparklyr sdf_collect和dplyr collect函数需要很长时间才能运行？

在Databricks中使用sparklyr收集表

Spark/Databricks:在R中收集()大型数据集

通过火花导入卡桑德拉表到火花-可能只选择一些列？

如何用mclapply重用sparklyr上下文？

为什么SparkR中的collect速度如此之慢？

SparkR vs sparklyr

EMA函数在R数据帧上有效，但在spark数据帧上失败- Sparklyr

使用筛选器或从火花中选择后的数据示例

将SparkR DataFrame序列化为jobj

闪速spark_apply非常慢

当与sample_n一起使用时，sparklyr真的是一个随机样本吗？

星火代码需要很长时间才能返回查询。帮助加快速度

使用Sparklyr连接两个不同数据库的表

是否可以在dplyr中执行完全连接并保留联接中使用的所有列？

从星团中收集数据时内存不足的错误

在RStudio中，我能像正常的R数据格式一样在图形用户界面中可视化预览吗？

在Sparklyr中创建新的Spark表或数据框最有效的方法是什么？

有人知道我如何处理R中的大数据吗？

在R和Sparklyr中，向.CSV (spark_write_csv)写入表会产生许多文件，而不是一个文件。为什么？我能改变吗？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐