开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

Spark中大表上的sparklyr sdf_collect和dplyr collect函数需要很长时间才能运行？

在Spark中，sparklyr sdf_collect和dplyr collect函数在处理大表时可能需要很长时间才能运行的原因有以下几个方面：

数据量大：当处理的数据量非常大时，无论是使用sparklyr sdf_collect还是dplyr collect函数，都需要将整个数据集从分布式存储中收集到驱动节点上，这个过程需要消耗大量的时间和资源。
网络传输延迟：在分布式计算中，数据通常存储在集群的不同节点上，而sparklyr sdf_collect和dplyr collect函数需要将数据从各个节点传输到驱动节点上，如果网络传输延迟较高，会导致函数运行时间延长。
内存限制：当数据集的大小超过驱动节点的可用内存时，sparklyr sdf_collect和dplyr collect函数会触发数据溢出到磁盘的操作，这会导致额外的磁盘IO开销和性能下降。

为了改善这个问题，可以考虑以下几个方案：

使用分页查询：如果只需要部分数据，可以使用分页查询的方式，逐页获取数据，而不是一次性获取全部数据。
使用采样数据：如果数据集非常大，可以先对数据进行采样，获取一个较小的数据集进行分析和测试，以减少处理时间。
优化代码逻辑：通过优化代码逻辑，减少不必要的计算和数据传输，可以提高函数的运行效率。
增加集群资源：如果集群资源允许，可以增加计算节点的数量或者提升节点的配置，以提高整体的计算能力和并行处理能力。
使用分布式数据处理框架：除了Spark，还可以考虑其他分布式数据处理框架，如Hadoop、Flink等，根据具体需求选择适合的框架。

对于Spark中大表上的sparklyr sdf_collect和dplyr collect函数的优化，腾讯云提供了一系列的云原生产品和解决方案，例如：

腾讯云Spark：腾讯云提供了托管的Spark集群服务，可以根据实际需求弹性扩展计算资源，提供高性能的数据处理能力。详情请参考：腾讯云Spark产品介绍
腾讯云数据仓库（CDW）：腾讯云提供了高性能、弹性扩展的数据仓库服务，可以用于存储和分析大规模数据。CDW支持Spark等多种计算引擎，可以提供更高效的数据处理能力。详情请参考：腾讯云数据仓库产品介绍
腾讯云弹性MapReduce（EMR）：腾讯云提供了弹性、高可靠的大数据处理服务，支持Spark等多种计算引擎，可以快速处理大规模数据。详情请参考：腾讯云弹性MapReduce产品介绍

通过使用腾讯云的云原生产品和解决方案，可以提高Spark中大表上的数据处理效率，加快sparklyr sdf_collect和dplyr collect函数的运行速度。

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

什么是sparklyr

我们（RStudio Team）今天很高兴的宣布一个新的项目sparklyr（https://spark.rstudio.com），它是一个包，用来实现通过R连接Apache Spark。

09

如何使用CDSW在CDH中分布式运行所有R代码

无需额外花费过多的学习成本，sparklyr（https://spark.rstudio.com）可以让R用户很方便的利用Apache Spark的分布式计算能力。之前Fayson介绍了什么是sparklyr，大家知道R用户可以编写几乎相同的代码运行在Spark之上实现本地或者分布式计算。

06

如何使用CDSW在CDH集群通过sparklyr提交R的Spark作业

继上一章介绍如何使用R连接Hive与Impala后，Fayson接下来讲讲如何在CDH集群中提交R的Spark作业，Spark自带了R语言的支持，在此就不做介绍，本文章主要讲述如何使用Rstudio提供的sparklyr包，向CDH集群的Yarn提交R的Spark作业。

06

R︱sparkR的安装与使用、函数尝试笔记、一些案例

本节内容转载于博客： wa2003 spark是一个我迟早要攻克的内容呀~ ————————————————————————————————————— 一、SparkR 1.4.0 的安装及使用 1、./sparkR打开R shell之后，使用不了SparkR的函数装在了 /usr/local/spark-1.4.0/ 下 [root@master sparkR]#./bin/sparkR 能进入R，和没装SparkR的一样，无报错 > library(SparkR) 报错： Error i

05

Sparklyr与Docker的推荐系统实战

作者：Harry Zhu 链接：https://zhuanlan.zhihu.com/p/21574497 来源：知乎著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。相关内容：

01

R︱Rstudio 1.0版本尝鲜（R notebook、下载链接、sparkR、代码时间测试profile）

如果R的版本够的话，需要预装knitr，rmarkdown，同时你点击R notebook就会直接帮你加载。

05

R语言有多强大？十个你不知道的功能

R语言的确提供了很全面的统计分析的软件包，比如CRAN，Bioconductor，Neuroconductor，以及ROpenSci；并且提供了优秀的包管理功能。

03

《大数据+AI在大健康领域中最佳实践前瞻》---- 基于DBSCAN 与软聚类实现单一实体识别

This code takes in a list of cols and their values EG :

02

Apache Spark 2.2.0 中文文档 - SparkR (R on Spark) | ApacheCN

本文介绍了基于R语言的SparkR和基于Python的Spark-Python两个大数据平台的交互方式。主要内容包括：1.基于R语言的SparkR，支持R语言的所有统计函数和绘图功能；2.基于Python的Spark-Python，支持Python的多种数据处理和机器学习库；3.通过SparkR和Spark-Python交互，实现大数据的交互式分析。

05

Spark resampling

对时间序列的index进行resample是很常见的操作。比如，按日、周、月、季度统计用户新增、活跃、累计等，就需要对用户表进行resample操作。 pandas 的resample函数可以轻松地对时间序列数据进行重采样，并按照一定的频率聚合数据。但是因为spark中没有index的概念，所以做起来并不容易。

04

R语言︱H2o深度学习的一些R语言实践——H2o包

连接、搭建H2o环境（heo.init()）——数据转换成h2o格式（as.h2o）——模型拟合（h2o.deeplearning）——预测（h2o.predict）——数据呈现（h2o.performance）。

02

R︱并行计算以及提高运算效率的方式(parallel包、clusterExport函数、SupR包简介)

终于开始攻克并行这一块了，有点小兴奋，来看看网络上R语言并行办法有哪些：

01

【好书共享】《R for Data Science》的中译版

这本书将教我们如何用R来做数据科学：学习如何将自己的数据导入R中，把它变成最有用的结构，转换，可视化并对数据进行建模。在这本书中，我们会学习数据科学需要实用技能。就像化学家学习如何清洁试管和储存实验室一样，我们将学会如何清洁数据，绘制绘图——还有许多其他的东西。

03

【大数据哔哔集20210117】Spark面试题灵魂40问

1）本地模式 Spark不一定非要跑在hadoop集群，可以在本地，起多个线程的方式来指定。将Spark应用以多线程的方式直接运行在本地，一般都是为了方便调试，本地模式分三类 local：只启动一个executor local[k]:启动k个executor local[ * ]:启动跟cpu数目相同的 executor

02

Apache Hudi Timeline Server介绍

Hudi 不依赖任何外部第三方服务（如 Zookeeper），因此易于操作。一切都是独立的，并且不存在必须长期运行的服务器组件。启动一个 Spark 集群，摄取一批数据，一切都完全关闭（如果摄取模式是批处理）。但有时，拥有中央服务可能有助于提高表操作效率。因此 Hudi 有一个中央时间线服务器，它与 Driver 程序节点中的主线程一起运行，以协助定期写入和表服务。本文介绍时间线服务器的内容、它解决什么问题以及它如何使一些核心 Hudi 操作受益。

02

PySpark｜比RDD更快的DataFrame

DataFrame是一种不可变的分布式数据集，这种数据集被组织成指定的列，类似于关系数据库中的表。如果你了解过pandas中的DataFrame，千万不要把二者混为一谈，二者从工作方式到内存缓存都是不同的。

01

3.数据湖deltalake之时间旅行及版本管理

浪尖在deltalake第一讲的时候说过，它支持数据版本管理和时间旅行：提供了数据快照，使开发人员能够访问和还原早期版本的数据以进行审核、回滚或重新计算。

02

SparkR：数据科学家的新利器

摘要：R是数据科学家中最流行的编程语言和环境之一，在Spark中加入对R的支持是社区中较受关注的话题。作为增强Spark对数据科学家群体吸引力的最新举措，最近发布的Spark 1.4版本在现有的Scala/Java/Python API之外增加了R API（SparkR）。SparkR使得熟悉R的用户可以在Spark的分布式计算平台基础上结合R本身强大的统计分析功能和丰富的第三方扩展包，对大规模数据集进行分析和处理。本文将回顾SparkR项目的背景，对其当前的特性作总体的概览，阐述其架构和若干技术关键点，最后进行展望和总结。

02

Spark Core 学习笔记

1：Spark Core：内核，也是Spark中最重要的部分，相当于Mapreduce SparkCore 和 Mapreduce都是进行离线数据分析 SparkCore的核心：RDD（弹性分布式数据集），由分区组成 2：Spark Sql：相当于Hive 支持Sql和DSL语句 -》Spark任务（RDD）-》运行

02

大数据技术之_19_Spark学习_02_Spark Core 应用解析+ RDD 概念 + RDD 编程 + 键值对 RDD + 数据读取与保存主要方式 + RDD 编程进阶 + Spark Cor

我们需要一个效率非常快，且能够支持迭代计算和有效数据共享的模型，Spark 应运而生。RDD 是基于工作集的工作模式，更多的是面向工作流。但是无论是 MR 还是 RDD 都应该具有类似位置感知、容错和负载均衡等特性。

03

【数据科学家】SparkR：数据科学家的新利器

摘要：R是非常流行的数据统计分析和制图的语言及环境，有调查显示，R语言在数据科学家中使用的程度仅次于SQL，但大数据时代的海量数据处理对R构成了挑战。摘要：R是数据科学家中最流行的编程语言和环境之一，在Spark中加入对R的支持是社区中较受关注的话题。作为增强Spark对数据科学家群体吸引力的最新举措，最近发布的Spark 1.4版本在现有的Scala/Java/Python API之外增加了R API（SparkR）。SparkR使得熟悉R的用户可以在Spark的分布式计算平台基础上结合R本身强大的统计

命令行上的数据科学第二版：十、多语言数据科学

通晓多种语言的人就是能讲多种语言的人。在我看来，通晓多种语言的数据科学家是指使用多种编程语言、工具和技术来获取、清理、探索和建模数据的人。

02

5万字长文！搞定Spark方方面面

今天给大家分享一篇小白易读懂的 Spark 万字概念长文，本篇文章追求的是力求精简、通俗易懂。希望能为新手的入门学习扫清障碍，从基础概念入手、再到原理深入，由浅入深地轻松掌握 Spark。

05

惊了！10万字的Spark全文！

Hello，大家好，这里是857技术社区，我是社区创始人之一，以后会持续给大家更新大数据各组件的合集内容，路过给个关注吧!!!

01

R知识速查表-值得bia在墙上

Cheat Sheets也称作为cheatsheet,中文翻译过来就是速查表或小抄表，类似我们考试前将公式方程或大事记记录到一张纸上。截止到2018年RStudio发布了27个速查表，内容包括Keras深度学习、日期时间处理、字符串处理、数据导入、数据转换、正则表达式、ggplot2、Rmarkdown等等。刚刚入门R语言的小伙伴们可以在文章底部获取pdf版本并打印出来学习，可以按照以下学习路径记忆和学习：R基本知识，R高级知识，R数据导入，R数据可视化，R数据处理，字符串处理，正则表达式，日期时间

05

Spark常用的算子以及Scala函数总结

上海站 | 高性能计算之GPU CUDA培训 4月13-15日三天密集式学习快速带你晋级阅读全文 > 正文共11264个字，7张图，预计阅读时间28分钟。 Spark与Scala 首先，介绍一

随机生成某一段的时间

package com.dbgs.blct.utils; import java.text.SimpleDateFormat; import java.util.ArrayList; import java.util.Date; import java.util.List; import java.util.Random; import java.util.stream.Collectors; public class RandomDateUtil { public static void ma

02

Apache Spark 2.0 在作业完成时却花费很长时间结束

大家在使用 ApacheSpark2.x 的时候可能会遇到这种现象：虽然我们的SparkJobs 已经全部完成了，但是我们的程序却还在执行。比如我们使用SparkSQL 去执行一些 SQL，这个 SQL 在最后生成了大量的文件。然后我们可以看到，这个 SQL 所有的 Spark Jobs 其实已经运行完成了，但是这个查询语句还在运行。通过日志，我们可以看到 driver 节点正在一个一个地将 tasks 生成的文件移动到最终表的目录下面，当我们作业生成的文件很多的情况下，就很容易产生这种现象。本文将给大家介绍一种方法来解决这个问题。

01

11月大数据面试题复习

2 为什么要前后端分离开发？前后端分离开发的优势和劣势？让专业的人做专业的事情优势：分工明确，各司其职劣质：前后端联调需要消耗比较多的时间

01

Python大数据之PySpark(八)SparkCore加强

print(“释放缓存之后，直接从rdd的依赖链重新读取”) print(join_result_rdd.count())

03

hdfs文件按修改时间下载

应用于：对于不同用户创建的表目录，进行文件的下载，程序中执行hadoop cat命令下载文件到本地，随后通过ftp传至目标服务器，并将hdfs文件目录的修改时间存入mysql中。每次修改前将mysql中记录的数据，与本批次下载的HDFS文件路径修改时间对比，如果改变，则决定是否下载文件：

02

2021年大数据Spark（十七）：Spark Core的RDD持久化

在实际开发中某些RDD的计算或转换可能会比较耗费时间，如果这些RDD后续还会频繁的被使用到，那么可以将这些RDD进行持久化/缓存，这样下次再使用到的时候就不用再重新计算了，提高了程序运行的效率。

03

Spark Structured Streaming的高效处理-RunOnceTrigger

传统意义上，当人们想到流处理时，诸如”实时”，”24*7”或者”always on”之类的词语就会浮现在脑海中。生产中可能会遇到这种情况，数据仅仅会在固定间隔到达，比如每小时，或者每天。对于这些情况，对这些数据进行增量处理仍然是有益的。但是在集群中运行一个24*7的Streaming job就显得有些浪费了，这时候仅仅需要每天进行少量的处理即可受益。幸运的是，在spark 2.2版本中通过使用 Structured Streaming的Run Once trigger特性，可获得Catalyst Opti

08

揭秘Spark应用性能调优

我们知道Spark 可以通过 RDD 实现计算链的原理：转换函数包含在 RDD 链中，但仅在调用 action 函数后才会触发实际的求值过程，执行分布式运算，返回运算结果。要是在同一 RDD 上重复调用 action 会发生什么？

02

3万字长文，PySpark入门级学习教程，框架思维

关于PySpark，我们知道它是Python调用Spark的接口，我们可以通过调用Python API的方式来编写Spark程序，它支持了大多数的Spark功能，比如SparkDataFrame、Spark SQL、Streaming、MLlib等等。只要我们了解Python的基本语法，那么在Python里调用Spark的力量就显得十分easy了。下面我将会从相对宏观的层面介绍一下PySpark，让我们对于这个神器有一个框架性的认识，知道它能干什么，知道去哪里寻找问题解答，争取看完这篇文章可以让我们更加丝滑地入门PySpark。话不多说，马上开始！

02

强者联盟——Python语言结合Spark框架

框架由Scala语言开发，原生提供4种API，Scala、Java、Python以及最近版本开始支持的R。Python不是Spark的“亲儿子”，在支持上要略差一些，但基本上常用的接口都支持。得益于在数据科学中强大的表现，Python语言的粉丝遍布天下，如今又遇上强大的分布式内存计算框架Spark，两个领域的强者走到一起，自然能碰出更加强大的火花（Spark可以翻译为火花），因此PySpark是本节的主角。

03

数据流编程教程：R语言与DataFrame

DataFrame DataFrame 是一个表格或者类似二维数组的结构，它的各行表示一个实例，各列表示一个变量。一. DataFrame数据流编程二. 数据读取 readr/httr/DBI 1

BigData--大数据分析引擎Spark

（1）zeroValue：给每一个分区中的每一个key一个初始值；（2）seqOp：函数用于在每一个分区中用初始值逐步迭代value；（3）combOp：函数用于合并每个分区中的结果。

01

Spark常用的算子以及Scala函数总结

首先，介绍一下scala语言： Scala 是一种把面向对象和函数式编程理念加入到静态类型语言中的混血儿。

02

Spark 基础（一）

Spark中，数据集被抽象为分布式弹性数据集（Resilient Distributed Datasets, RDDs）。

04

总要到最后关头才肯重构代码，强如spark也不例外

用过Python做过机器学习的同学对Python当中pandas当中的DataFrame应该不陌生，如果没做过也没有关系，我们简单来介绍一下。DataFrame翻译过来的意思是数据帧，但其实它指的是一种特殊的数据结构，使得数据以类似关系型数据库当中的表一样存储。使用DataFrame我们可以非常方便地对整张表进行一些类似SQL的一些复杂的处理。Apache Spark在升级到了1.3版本之后，也提供了类似功能的DataFrame，也就是大名鼎鼎的SparkSQL。

01

Apache Spark 2.2.0 中文文档 - Spark RDD（Resilient Distributed Datasets）论文 | ApacheCN

本文介绍了基于Apache Spark的分布式大数据处理框架，从RDD、DataFrame、Dataset、Streaming等组件的角度讲解了Spark的基本特性、架构和实现原理。同时，本文还通过多个实际应用案例，详细介绍了Spark在大数据处理、实时计算、机器学习和深度学习等领域的应用实践。此外，本文还讨论了Spark与其他大数据处理框架（如Hadoop、Storm等）的对比和选择。

09

4.3 RDD操作

4.3 RDD操作 RDD提供了一个抽象的分布式数据架构，我们不必担心底层数据的分布式特性，而应用逻辑可以表达为一系列转换处理。通常应用逻辑是以一系列转换（Transformation）和执行（Action）来表达的，前者在RDD之间指定处理的相互依赖关系，后者指定输出的形式。其中： □转换：是指该操作从已经存在的数据集上创建一个新的数据集，是数据集的逻辑操作，并没有真正计算。 □执行：是指该方法提交一个与前一个Action之间的所有Transformation组成的Job进行计算，Spark会根据A

07

spark sql on hive笔记一

Spark sql on Hive非常方便，通过共享读取hive的元数据，我们可以直接使用spark sql访问hive的库和表，做更快的OLAP的分析。 spark 如果想直接能集成sql，最好自己编译下源码：切换scala的版本为新版本 dev/change-scala-version.sh 2.11编译支持hive mvn -Pyarn -Phive -Phive-thriftserver -Phadoop-2.7.3 -Dscala-2.11 -DskipTests clean pac

06

浅谈pandas，pyspark 的大数据ETL实践经验

本文主要以基于AWS 搭建的EMR spark 托管集群，使用pandas pyspark 对合作单位的业务数据进行ETL ---- EXTRACT（抽取）、TRANSFORM（转换）、LOAD（加载）等工作为例介绍大数据数据预处理的实践经验，很多初学的朋友对大数据挖掘，数据分析第一直观的印象，都只是业务模型，以及组成模型背后的各种算法原理。往往忽视了整个业务场景建模过程中，看似最普通，却又最精髓的数据预处理或者叫数据清洗过程。

03

Flink优化器与源码解析系列--让Flink飞奔起来这篇文章就够啦(一)

ApacheFlink是一个框架和分布式处理引擎，用于在无限和有界数据流上进行有状态计算。Flink被设计成在所有常见的集群环境中运行，以内存速度和任何规模执行计算。

04

SparkSql官方文档中文翻译(java版本)

Spark SQL是Spark的一个组件，用于结构化数据的计算。Spark SQL提供了一个称为DataFrames的编程抽象，DataFrames可以充当分布式SQL查询引擎。

03

Spark报错与日志问题查询姿势指南

可以在右侧搜索框中填对应application号找到任务，然后点击对应的application号链接，如下图所示：

04

Spark on Yarn年度知识整理

Spark是整个BDAS的核心组件，是一个大数据分布式编程框架，不仅实现了MapReduce的算子map 函数和reduce函数及计算模型，还提供更为丰富的算子，如filter、join、groupByKey等。是一个用来实现快速而同用的集群计算的平台。

02

深入理解Spark 2.1 Core （一）：RDD的原理与源码分析

该论文来自Berkeley实验室，英文标题为：Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing。下面的翻译，我是基于博文http://shiyanjun.cn/archives/744.html翻译基础上进行优化、修改、补充注释和源码分析。如果翻译措辞或逻辑有误，欢迎批评指正。

07

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭