R中的并行或snow包可以与spark集群接口吗？_可以在"Spark with Yarn“集群上运行任意的Python或R脚本吗？ - 腾讯云开发者社区

终于开始攻克并行这一块了，有点小兴奋，来看看网络上R语言并行办法有哪些：赵鹏老师（R与并行计算）做的总结已经很到位。...值得庆幸的是，现有R中的并行计算框架，如parallel (snow,multicores)，Rmpi和foreach等采用的是映射式并行模型（Mapping），使用方法简单清晰，极大地简化了编程复杂度...————————————————— 一、parallel包的使用方法多数内容参考：R语言并行化基础与提高 parallel是base包，所以不用install.packages就可以直接调用。...R与并行计算 3、sparklyr包：实现Spark与R的接口，会用dplyr就能玩Spark 4、Sparklyr与Docker的推荐系统实战 5、R语言︱H2o深度学习的一些R语言实践——H2o包...6、R用户的福音︱TensorFlow：TensorFlow的R接口 7、mxnet：结合R与GPU加速深度学习 8、碎片︱R语言与深度学习

8.5K1 0

您找到你想要的搜索结果了吗？

是的

没有找到

Spark，如何取舍?

Spark是一个较新的项目，最初于2012年诞生在加州大学伯克利分校的AMPLab。它也是一个顶级Apache项目，专注于在集群中并行处理数据，最大的区别在于它在内存中运行。...类似于Hadoop读取和写入文件到HDFS的概念，Spark使用RDD(弹性分布式数据集)处理RAM中的数据。Spark以独立模式运行，Hadoop集群可用作数据源，也可与Mesos一起运行。...Spark有几个API。原始界面是用Scala编写的，并且由于大量数据科学家的使用，还添加了Python和R接口。Java是编写Spark作业的另一种选择。...Spark Spark的计算过程在内存中执行并在内存中存储，直到用户保存为止。除此之外，Spark处理工作的方式基本与Hadoop类似。...这两者非常相似，但DataFrames将数据组织成命名列，类似于Python的pandas或R包。这使得它们比RDD更方便，RDD没有类似的一系列列级标题引用。

1K8 0

超越Spark，大数据集群计算的生产实践

针对开发人员，Spark还提供了一个友好的API，可以用数据科学家们喜爱的Python和R来访问它。这个功能存在很长一段时间了。...SparkSQL特有的接口是DataFrame（数据帧），这是受R语言启发而引入的。建议使用这个接口来访问结构化数据。我们将在下一节详细介绍DataFrame。先来看一个纯SQL接口。...首先，需要启动Spark集群。请注意，你必须下载不包含Hive JAR包的Spark版本。为了从Spark二进制包中排除Hive JAR包，输入下面的命令： $ ....几分钟后，你就有一个运行在YARN上的Spark集群了。这个集群默认不含Hive。你需要在此Spark集群上安装Hive包。...虽然数据并行很简单且易于实现，但是数据并行的收集任务（在前面的例子中，就是指计算平均值）会导致性能瓶颈，因为这个任务必须等待分布在集群中的其他并行任务完成后才能执行。

2.1K6 0

什么是sparklyr

创建extensions（https://spark.rstudio.com/extensions.html），可以调用完整的SparkAPI并提供Spark包的接口。...读取数据 ---- 你可以使用dplyr的copy_to函数将R的data frames拷贝到Spark。（更典型的是你可以通过spark_read的一系列函数读取Spark集群中的数据。）...函数与你在使用R的data frames时是一样的，但如果使用的是sparklyr，它们其实是被推到远端的Spark集群里执行的。...由于Spark是一个通用的分布式计算环境，因此有很多其他的扩展应用，比如自定义的机器学习管道的接口，第三方Spark包的接口等等。...sas7bdat（https://github.com/bnosac/spark.sas7bdat）扩展包可以并行的将SAS中的sas7bdat格式的数据集读入到Spark的DataFrames。

2.2K9 0

一文读懂Apache Spark

Spark支持在一个独立的集群中运行，只需在集群中的每台机器上使用Apache Spark框架和JVM。然而，你可能更希望利用资源或集群管理系统来负责分配任务。...在RDD上的操作也可以跨集群进行拆分，并在并行批处理过程中执行，从而导致快速和可伸缩的并行处理。...在Apache Spark 2.x中，dataframes和datasets的Spark SQL接口(本质上是一个类型化的dataframe，可以在编译时检查其正确性，并利用运行时的进一步内存和计算优化...MLLib采用分布式实现的集群和分类算法，如k-means集群和随机森林，可以轻松地在自定义管道中交换。...模型可以由Apache Spark的数据科学家使用R或Python进行训练，使用MLLib保存，然后导入基于java的或基于scala的管道用于生产。

1.7K0 0

Spark 开发环境搭建

2 方案简介分布式计算有两个基础性问题：计算的并行调度与数据的分布存储，我们使用 Spark 来解决计算并行调度的问题，使用 Hadoop HDFS 解决分布式存储的问题。...HDFS 集群，可以支持进行开发测试，下面介绍 spark 的搭建与编程。...: R 语言交互编程环境 4.4 小结本节中，我们搭建了一个最简单的单机独立模式集群，并通过 spark 提供的交互编程环境执行了单词计数的任务，感受到了 spark 对分布式计算优雅简洁的描述。...Spark 自身主要采用 Scala 进行开发，提供 Scala, Java, Python, R 等语言编程接口。...重要： scalaVersion 必须与当前 spark 使用的 scala 版本一致，否则生成的 jar 包不一定能在 spark 环境中运行，这个版本可以通过查看 $spark_root/jars/

6.8K2 1

2015 Bossie评选：最佳的10款开源大数据工具

Spark的新发展中也有新的为建立可重复的机器学习的工作流程，可扩展和可优化的支持各种存储格式，更简单的接口来访问机器学习算法，改进的集群资源的监控和任务跟踪。...使用H2O的最佳方式是把它作为R环境的一个大内存扩展，R环境并不直接作用于大的数据集，而是通过扩展通讯协议例如REST API与H2O集群通讯，H2O来处理大量的数据工作。...几个有用的R扩展包，如ddply已经被打包，允许你在处理大规模数据集时，打破本地机器上内存容量的限制。你可以在EC2上运行H2O，或者Hadoop集群/YARN集群，或者Docker容器。...用苏打水（Spark+ H2O）你可以访问在集群上并行的访问Spark RDDS，在数据帧被Spark处理后。再传递给一个H2O的机器学习算法。 4. Apex ?...开发人员可以使用原生JSON-over-HTTP接口或常用的几个开发语言进行交互，包括Ruby，Python，PHP，Perl，Java，JavaScript等。 8.

1.3K10 0

2015 Bossie评选：最佳开源大数据工具

Spark的新发展中也有新的为建立可重复的机器学习的工作流程，可扩展和可优化的支持各种存储格式，更简单的接口来访问机器学习算法，改进的集群资源的监控和任务跟踪。...使用H2O的最佳方式是把它作为R环境的一个大内存扩展，R环境并不直接作用于大的数据集，而是通过扩展通讯协议例如REST API与H2O集群通讯，H2O来处理大量的数据工作。...几个有用的R扩展包，如ddply已经被打包，允许你在处理大规模数据集时，打破本地机器上内存容量的限制。你可以在EC2上运行H2O，或者Hadoop集群/YARN集群，或者Docker容器。...用苏打水（Spark+ H2O）你可以访问在集群上并行的访问Spark RDDS，在数据帧被Spark处理后。再传递给一个H2O的机器学习算法。 4....开发人员可以使用原生JSON-over-HTTP接口或常用的几个开发语言进行交互，包括Ruby，Python，PHP，Perl，Java，JavaScript等。 8.

1.5K9 0

分布计算 | 大数据机器学习系统研究进展

SparkR也是作为一个R的扩展包，为R用户提供一个轻量级的、在R环境里使用SparkRDD API编写程序的接口。它允许用户在R的shell环境里交互式地向Spark集群提交运行作业。...，这和在Hadoop或Spark上写应用程序没有太大的区别，只是编程接口用R语言封装了一下。...Octopus提供给用户的编程API是基于R语言的高层矩阵计算接口，基于该接口，用户不需要了解分布和并行计算系统知识，就可以很容易地设计实现大数据机器学习和数据分析算法或应用。...（3）无缝融合R生态系统 Octopus可运行于标准的R环境下，实现与R环境的无缝融合，因此可以利用R生态系统中的丰富资源，比如第三方R包。...当OctMatrix运行在分布式环境中时，函数参数可以在集群中被应用于OctMatrix的每个元素、每行或每列，函数参数在集群的每个节点并行执行。

1.3K5 0

Apache Spark大数据分析入门（一）

Apache Spark 提供了内存中的分布式计算能力，具有Java、 Scala、Python、R四种编程语言的API编程接口。Spark生态系统如下图所示： ?...弹性分布式数据集（RDDs） Spark在集群中可以并行地执行任务，并行度由Spark中的主要组件之一——RDD决定。...弹性分布式数据集(Resilient distributed data, RDD)是一种数据表示方式，RDD中的数据被分区存储在集群中（碎片化的数据存储方式），正是由于数据的分区存储使得任务可以并行执行...分区数量越多，并行越高。下图给出了RDD的表示： ? 想像每列均为一个分区（partition ），你可以非常方便地将分区数据分配给集群中的各个节点。...例如，我们可以使用Spark中的文本文件README.md创建一个RDD textFile，文件中包含了若干文本行，将该文本文件读入RDD textFile时，其中的文本行数据将被分区以便能够分发到集群中并被并行化操作

9835 0

Spark 生态系统组件

相比其他的处理引擎要么只专注于流处理，要么只负责批处理（仅提供需要外部实现的流处理API 接口），而Spark Streaming 最大的优势是提供的处理引擎和RDD 编程模型可以同时进行批处理与流处理...在SparkStreaming 处理过程中，Receiver 并行接收数据，并将数据缓存至Spark 工作节点的内存中。...SparkR 特性如下： · 提供了Spark 中弹性分布式数据集（RDDs）的API，用户可以在集群上通过R Shell交互性地运行Spark 任务。...· 支持序化闭包功能，可以将用户定义函数中所引用到的变量自动序化发送到集群中其他的机器上。...· SparkR 还可以很容易地调用R 开发包，只需要在集群上执行操作前用includePackage读取R 开发包就可以了。下为SparkR 的处理流程示意图。 ?

1.9K2 0

深入理解Spark 2.1 Core （一）：RDD的原理与源码分析

Spark采用Scala语言[5]实现，提供类似于DryadLINQ的集成语言编程接口[34]，使用户可以非常容易地编写并行任务。...2.3 编程模型在Spark中，RDD被表示为对象，通过这些对象上的方法（或函数）调用转换。定义RDD之后，程序员就可以在动作（注：即action操作）中使用RDD了。...注意在Scala语法中filter的参数是一个闭包(什么是闭包？https://zhuanlan.zhihu.com/p/21346046)。这时集群还没有开始执行任何任务。...另外，函数名与Scala及其他函数式语言中的API匹配，例如map是一对一的映射，而flatMap是将每个输入映射为一个或多个输出（与MapReduce中的map类似）。...通过RDD接口，Spark只需要不超过20行代码实现便可以实现大多数转换。

7407 0

什么是 Apache Spark？大数据分析平台如是说

非常好，Spark 可以运行在一个只需要在你集群中的每台机器上安装 Apache Spark 框架和 JVM 的独立集群模式。然而，你将更有可能做的是，希望利用资源或集群管理系统来帮你按需分配工作。...RDD 上的操作也可以跨群集分割，并以批处理并行方式执行，从而实现快速和可扩展的并行处理。...Spark SQL 专注于结构化数据的处理，借用了 R 和 Python 的数据框架（在 Pandas 中）。...在 Apache Spark 2.x 版本中，Spark SQL 的数据框架和数据集的接口（本质上是一个可以在编译时检查正确性的数据框架类型，并在运行时利用内存并和计算优化）是推荐的开发方式。...数据科学家可以在 Apache Spark 中使用 R 或 Python 训练模型，然后使用 MLLib 存储模型，最后在生产中将模型导入到基于 Java 或者 Scala 语言的管道中。

1.3K6 0

大数据分析平台 Apache Spark详解

[图片] 非常好，Spark 可以运行在一个只需要在你集群中的每台机器上安装 Apache Spark 框架和 JVM 的独立集群模式。...然而，你将更有可能做的是，希望利用资源或集群管理系统来帮你按需分配工作。...RDD 上的操作也可以跨群集分割，并以批处理并行方式执行，从而实现快速和可扩展的并行处理。...在 Apache Spark 2.x 版本中，Spark SQL 的数据框架和数据集的接口（本质上是一个可以在编译时检查正确性的数据框架类型，并在运行时利用内存并和计算优化）是推荐的开发方式。...数据科学家可以在 Apache Spark 中使用 R 或 Python 训练模型，然后使用 MLLib 存储模型，最后在生产中将模型导入到基于 Java 或者 Scala 语言的管道中。

2.8K0 0

什么是 Apache Spark？大数据分析平台详解

Spark 可以运行在一个只需要在你集群中的每台机器上安装 Apache Spark 框架和 JVM 的独立集群模式。然而，你将更有可能做的是，希望利用资源或集群管理系统来帮你按需分配工作。...RDD 上的操作也可以跨群集分割，并以批处理并行方式执行，从而实现快速和可扩展的并行处理。...Spark SQL 专注于结构化数据的处理，借用了 R 和 Python 的数据框架(在 Pandas 中)。...在 Apache Spark 2.x 版本中，Spark SQL 的数据框架和数据集的接口(本质上是一个可以在编译时检查正确性的数据框架类型，并在运行时利用内存并和计算优化)是推荐的开发方式。...数据科学家可以在 Apache Spark 中使用 R 或 Python 训练模型，然后使用 MLLib 存储模型，最后在生产中将模型导入到基于 Java 或者 Scala 语言的管道中。

1.2K3 0

什么是 Apache Spark？大数据分析平台详解

非常好，Spark 可以运行在一个只需要在你集群中的每台机器上安装 Apache Spark 框架和 JVM 的独立集群模式。然而，你将更有可能做的是，希望利用资源或集群管理系统来帮你按需分配工作。...RDD 上的操作也可以跨群集分割，并以批处理并行方式执行，从而实现快速和可扩展的并行处理。...Spark SQL 专注于结构化数据的处理，借用了 R 和 Python 的数据框架(在 Pandas 中)。...在 Apache Spark 2.x 版本中，Spark SQL 的数据框架和数据集的接口(本质上是一个可以在编译时检查正确性的数据框架类型，并在运行时利用内存并和计算优化)是推荐的开发方式。...数据科学家可以在 Apache Spark 中使用 R 或 Python 训练模型，然后使用 MLLib 存储模型，最后在生产中将模型导入到基于 Java 或者 Scala 语言的管道中。

1.5K6 0

数据大师Olivier Grisel给志向高远的数据科学家的指引

Spark和Python或scikit-learn之间的主要区别是，Spark默认是一个系统，以分布式的方式管理那些其它数据处理方法无法在内存中处理的数据。...这也是MLlib一开始的设计方向（ed：Spark分布式机器学习框架）。他们选择仅实现可扩展性的算法，这些算法可以在它们有能力处理的那些数据上和大量集群中运行。...我们不想改变所有的功能，来处理存储在集群中的资源，但我们想把它作为一种可能性，确保scikit-learn模型可以嵌入到一个类似Spark的框架里，这样它们就可以分布在集群中。...例如，当你在训练一个随机森林时，如果你认为你的数据小到可以在整个集群中进行复制，那么你可以很容易地训练每棵树。对于中等规模的数据集，我们也想要加快超参数搜索和交叉验证的速度，这自然就是并行。...你要记住，MLlib是通过限制它的算法面板来达到可扩展性功能。这表示它们如今的库并不像R或Python包那样多。子样本总归还是好的，回到小数据世界能确保你遵循正确的方法。

7354 0

Apache Spark 2.2.0 中文文档 - Spark 编程指南 | ApacheCN

传递 Functions（函数）给 Spark 理解闭包示例 Local（本地）vs. cluster（集群）模式打印 RDD 的 elements 与 Key-Value Pairs...Spark 提供的主要抽象是一个弹性分布式数据集（RDD），它是可以执行并行操作且跨集群节点的元素的集合。...并行集合中一个很重要参数是 partitions（分区）的数量，它可用来切割 dataset（数据集）。Spark 将在集群中的每一个分区上运行一个任务。...但是，您也可用 persist (或 cache) 方法将 RDD persist（持久化）到内存中；在这种情况下，Spark 为了下次查询时可以更快地访问，会把数据保存在集群上。...与上面的级别功能相同，只不过每个分区在集群中两个节点上建立副本.

1.6K6 0

Apache Spark：大数据领域的下一件大事？

我的第一反应是“等等，这就是分布式集群吗？”相比之下，Hadoop似乎要比这个多很多，包括分布式文件系统，显而易见的map reduce，支持各种数据格式，数据源，单元测试，集群变体，等等等等。...其他人很快就指出事实上不止如此，Spark还提供了更复杂的集合操作，如连接，分组或分发操作，以便可以对相当复杂的数据流进行建模（不过无需迭代）。...如果以类似于分布式集群的方式表示，实际上用到的接口会更小（像Scalding这样的一些项目实际上构建了这样的东西，代码看起来与Spark很相似）。...弹性分布式数据集（RDDs）可以从磁盘读取，然后保存在内存中以提高速度，也可以缓存，这样不必每次都重新读取它们。与大多数基于磁盘的Hadoop相比，仅仅这一项就在很大程度上提高了速度。...因此，从本质上讲，与纯粹的Hadoop相比，Spark的接口更小（将来可能会变得相似），但是Hadoop之上有很多项目（例如Twitter的Scalding），它们的表现力达到了类似的水平。

3734 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

最新Apache Spark平台的NLP库,助你轻松搞定自然语言处理任务

R︱并行计算以及提高运算效率的方式(parallel包、clusterExport函数、SupR包简介)

Spark，如何取舍?

超越Spark，大数据集群计算的生产实践

什么是sparklyr

一文读懂Apache Spark

Spark 开发环境搭建

2015 Bossie评选：最佳的10款开源大数据工具

2015 Bossie评选：最佳开源大数据工具

分布计算 | 大数据机器学习系统研究进展

Apache Spark大数据分析入门（一）

Spark 生态系统组件

深入理解Spark 2.1 Core （一）：RDD的原理与源码分析

什么是 Apache Spark？大数据分析平台如是说

大数据分析平台 Apache Spark详解

什么是 Apache Spark？大数据分析平台详解

什么是 Apache Spark？大数据分析平台详解

数据大师Olivier Grisel给志向高远的数据科学家的指引

Apache Spark 2.2.0 中文文档 - Spark 编程指南 | ApacheCN

Apache Spark：大数据领域的下一件大事？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐