Spark RDDs类型的混淆_从错误的JSON合并Spark RDDs_理解RDDs的Spark中的lambda函数输入 - 腾讯云开发者社区

本文介绍了基于Apache Spark的分布式大数据处理框架，从RDD、DataFrame、Dataset、Streaming等组件的角度讲解了Spark的基本特性、架构和实现原理。同时，本文还通过多个实际应用案例，详细介绍了Spark在大数据处理、实时计算、机器学习和深度学习等领域的应用实践。此外，本文还讨论了Spark与其他大数据处理框架（如Hadoop、Storm等）的对比和选择。

您找到你想要的搜索结果了吗？

是的

没有找到

Spark Core快速入门系列(1) | 什么是RDD?一文带你快速了解Spark中RDD的概念!

大数据随记 —— Spark Core 与 RDD 简介

Spark Core 是 Spark 的核心，Spark SQL、Spark Streaming、MLib、GraphX 等都需要在 Spark Core 的基础上进行操作。Spark Core 定义了 RDD、DataFrame 和 DataSet，而 Spark Core 的核心概念是 RDD（Resilient Distributed Datasets，即弹性分布式数据集）。

在Apache Spark上跑Logistic Regression算法

本文旨在介绍使用机器学习算法，来介绍Apache Spark数据处理引擎。我们一开始会先简单介绍一下Spark，然后我们将开始实践一个机器学习的例子。我们将使用Qualitative Bankruptcy数据集，来自UCI机器学习数据仓库。虽然Spark支持同时Java，Scala，Python和R，在本教程中我们将使用Scala作为编程语言。不用担心你没有使用Scala的经验。练习中的每个代码段，我们都会详细解释一遍。 APACHE SPARK Apache Spark是一个开源的集群计算框架，用Spa

Spark Streaming如何使用checkpoint容错

在互联网场景下，经常会有各种实时的数据处理，这种处理方式也就是流式计算，延迟通常也在毫秒级或者秒级，比较有代表性的几个开源框架，分别是Storm，Spark Streaming和Filnk。曾经在一个项目里面用过阿里改造后的JStrom，整体感受就是编程略复杂，在不使用Trident Api的时候是不能保证准确一次的数据处理的，但是能保证不丢数据，但是不保证数据重复，我们在使用期间也出现过几次问题，bolt或者worker重启时候会导致大量数据重复计算，这个问没法解决，如果想解决就得使用Trident来保

Spark 转换算子源码

可以从源码看出其入参是f: T ⇒ U 是一个函数，首先经过sc.clean(f) 进行闭包检测，然后创建一个MapPartitionsRDD。sc.clean()函数的作用检测用户构建的函数是否可以序列化，这是因为Spark中的map是一个分布式的函数，最终的执行是在Executor上开线程执行，而我们的函数构建都是在Driver端进行。Spark实际上进行的是计算的转移，将函数传递到数据所在的Worker节点。

2021年大数据Spark（十二）：Spark Core的RDD详解

1.MR:只提供了map和reduce的API,而且编写麻烦,运行效率低!---早就淘汰了!

spark原著

MapReduce 批处理计算模型 Pregel 图处理模型 Strom/impala 流式处理模型

通过可视化来了解你的Spark应用程序

本文为CSDN原创编译文章，禁止转载。【编者按】在"Spark 1.4：SparkR发布，钨丝计划锋芒初露"一文中，我们有简单地介绍了1.4版本给Spark注入的新特性，在各个组件的介绍中也提到了新UI给用户带来的便捷。而从本文开始，我们将通过Databricks Blog上的系列文章深入了解新版本中的数据可视化，首先分享的是这个系列的第一篇博文——Understanding your Spark application through visualization，作者Andrew Or。以下为译文图

010

hashpartitioner-Spark分区计算器

一点点回忆年初了，帮助大家回忆一下spark的重要知识点。首先，我们回顾的知识点是RDD的五大特性: 1，一系列的分区。 2，一个函数作用于分区上。 3，RDD之间有一系列的依赖。 4，分区器。 5，最佳位置。 Spark属于链式计算，rdd之间有着依赖关系：窄依赖，宽依赖。 RDD执行的时候会将计算链条分为很多task，rdd的task分为：ResultTask和ShuffleMapTask。 Partitioner简介书归正传，RDD之间的依赖如果是宽依赖，那么上游RDD该如何确定每个分区的输

【精通Spark系列】一文搞懂Spark的运行架构，文末附带大数据Spark的学习路线

在开始讲Spark运行的整体架构之前，先来讲讲为什么会有Spark？这个框架被设计出来是要解决什么问题的？

在Apache Spark上跑Logistic Regression算法

弹性式数据集RDDs

RDD 全称为 Resilient Distributed Datasets，是 Spark 最基本的数据抽象，它是只读的、分区记录的集合，支持并行操作，可以由外部数据集或其他 RDD 转换而来，它具有以下特性：

Apache Spark：大数据领域的下一件大事？

Apache Spark正在引起很大的热议。Databricks是为支持Spark而成立的一个公司，它从Andreessen Horowitz募集到了$ 1400万美元，Cloudera决定全力支持Spark，其他人也认为这是下一件大事。所以我认为现在是时候看看并了解整个动态了。

【Spark研究】如何用 Spark 快速开发应用？

如果你还没有仔细研究过 Spark （或者还不知道 Spark 是什么），那么本文很好地介绍了 Spark。描述了基本的数据结构、shell ，并对其包含的 API 进行了概述。 ---- 你已经知道

pandas和spark的dataframe互转

由于pandas的方式是单机版的，即toPandas()的方式是单机版的，所以参考breeze_lsw改成分布式版本：

Spark开发指南

总的来说，每一个Spark的应用，都是由一个驱动程序（driver program）构成，它运行用户的main函数，在一个集群上执行各种各样的并行操作。Spark提出的最主要抽象概念是弹性分布式数据集 (resilient distributed dataset,RDD)，它是元素的集合，划分到集群的各个节点上，可以被并行操作。RDDs的创建可以从HDFS(或者任意其他支持Hadoop文件系统) 上的一个文件开始，或者通过转换驱动程序（driver program）中已存在的Scala集合而来。用户也可以让Spark保留一个RDD在内存中，使其能在并行操作中被有效的重复使用。最后，RDD能自动从节点故障中恢复。

Spark(1.6.1) Sql 编程指南+实战案例分析

首先看看从官网学习后总结的一个思维导图概述(Overview) Spark SQL是Spark的一个模块，用于结构化数据处理。它提供了一个编程的抽象被称为DataFrames，也可以作为分布式SQ

Spark详解02Job 逻辑执行图Job 逻辑执行图

Job 逻辑执行图 General logical plan GeneralLogicalPlan.png 典型的 Job 逻辑执行图如上所示，经过下面四个步骤可以得到最终执行结果：从数据源（可以是

011

Spark Job 逻辑执行图和数据依赖解析

了解了 Job 的逻辑执行图后，写程序时候会在脑中形成类似上面的数据依赖图。然而，实际生成的 RDD 个数往往比我们想想的个数多。

GraphX编程指南-官方文档-整理

GraphX 是新的(alpha)的图形和图像并行计算的Spark API。从整理上看，GraphX 通过引入弹性分布式属性图(Resilient Distributed Property Graph)继承了Spark RDD：一个将有效信息放在顶点和边的有向多重图。为了支持图形计算，GraphX 公开了一组基本的运算（例如，subgraph，joinVertices和mapReduceTriplets），以及在一个优化后的 PregelAPI的变形。此外，GraphX 包括越来越多的图算法和 builder 构造器，以简化图形分析任务。

我说Java基础重要，你不信？来试试这几个问题

代码生成技术广泛应用于现代的数据库系统中。代码生成是将用户输入的表达式、查询、存储过程等现场编译成二进制代码再执行，相比解释执行的方式，运行效率要高很多。尤其是对于计算密集型查询、或频繁重复使用的计算过程，运用代码生成技术能达到数十倍的性能提升。

spark作业-源码分析

b.默认分区器，对于第一个join会返回一个以电脑core总数为分区数量的HashPartitioner.第二个join会返回我们设定的HashPartitioner(分区数目3)

pySpark | pySpark.Dataframe使用的坑与经历

笔者最近在尝试使用PySpark，发现pyspark.dataframe跟pandas很像，但是数据操作的功能并不强大。由于，pyspark环境非自建，别家工程师也不让改，导致本来想pyspark环境跑一个随机森林，用《Comprehensive Introduction to Apache Spark, RDDs & Dataframes (using PySpark) 》中的案例，也总是报错…把一些问题进行记录。

Spark SQL，DataFrame以及 Datasets 编程指南 - For 2.0

Spark SQL 是 Spark 用来处理结构化数据的一个模块。与基础的 Spark RDD API 不同，Spark SQL 提供了更多数据与要执行的计算的信息。在其实现中，会使用这些额外信息进行优化。可以使用 SQL 语句和 Dataset API 来与 Spark SQL 模块交互。无论你使用哪种语言或 API 来执行计算，都会使用相同的引擎。这让你可以选择你熟悉的语言（现支持 Scala、Java、R、Python）以及在不同场景下选择不同的方式来进行计算。

第1天：PySpark简介及环境搭建

Apache Spark是Scala语言实现的一个计算框架。为了支持Python语言使用Spark，Apache Spark社区开发了一个工具PySpark。利用PySpark中的Py4j库，我们可以通过Python语言操作RDDs。

【容错篇】Spark Streaming的还原药水——Checkpoint

一个 Streaming Application 往往需要7*24不间断的跑，所以需要有抵御意外的能力（比如机器或者系统挂掉，JVM crash等）。为了让这成为可能，Spark Streaming需要 checkpoint 足够多信息至一个具有容错设计的存储系统才能让 Application 从失败中恢复。Spark Streaming 会 checkpoint 两种类型的数据。

Spark生态系统的顶级项目

Spark开发了一个丰富的生态系统，包括le 官方和第三方工具。我们来看看5个以不同方式加强了Spark的第三方项目。

利用基因突变和K均值预测地区种群

这是一篇关于西北基因组中心的Deborah Siegel和华盛顿大学联合Databricks的Denny Lee，就ADAM和Spark基因组变异分析方面的合作的专访。

010

Apache Spark 2.2.0 中文文档 - Spark 编程指南 | ApacheCN

本文介绍了 Apache Spark 的 RDD 程序设计指南，从 RDD 的基本概念、创建与操作、缓存与存储、性能优化等方面进行了详细阐述，并提供了丰富的实例和代码以帮助读者更好地理解和掌握 RDD 的使用方法。

Spark源码解析：DStream

0x00 前言本篇是Spark源码解析的第二篇，主要通过源码分析Spark Streaming设计中最重要的一个概念——DStream。本篇主要来分析Spark Streaming中的Dstream，重要性不必多讲，明白了Spark这个几个数据结构，容易对Spark有一个整体的把握。和RDD那篇文章类似，虽说是分析Dstream，但是整篇文章会围绕着一个具体的例子来展开。算是对Spark Streaming源码的一个概览。文章结构 Spark Streaming的一些概念，主要和Dstream

SparkSql官方文档中文翻译(java版本)

Spark SQL是Spark的一个组件，用于结构化数据的计算。Spark SQL提供了一个称为DataFrames的编程抽象，DataFrames可以充当分布式SQL查询引擎。

慕课网Spark SQL日志分析 - 5.DateFrame&Dataset

DataFrame 不是Spark Sql提出的。而是在早起的Python、R、Pandas语言中就早就有了的。

2018-08-08

1、spark程序停-启，实时数据量一下子太多，如何处理 2、spark程序数据丢失，如何处理？duration是多少？

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐