理解RDDs的Spark中的lambda函数输入_列表理解中的Lambda函数返回函数_如何理解Haskell中的嵌套lambda函数 - 腾讯云开发者社区

您找到你想要的搜索结果了吗？

是的

没有找到

Apache Spark 2.2.0 中文文档 - Spark RDD（Resilient Distributed Datasets）论文 | ApacheCN

本文介绍了基于Apache Spark的分布式大数据处理框架，从RDD、DataFrame、Dataset、Streaming等组件的角度讲解了Spark的基本特性、架构和实现原理。同时，本文还通过多个实际应用案例，详细介绍了Spark在大数据处理、实时计算、机器学习和深度学习等领域的应用实践。此外，本文还讨论了Spark与其他大数据处理框架（如Hadoop、Storm等）的对比和选择。

什么是RDD?带你快速了解Spark中RDD的概念!

【Spark教程】核心概念RDD

本文介绍了如何使用Spark对大数据进行流式处理和分析，通过介绍Spark的架构、编程模型、核心概念、数据分区和转换操作等方面，让读者快速掌握Spark的核心功能和应用场景。同时，还通过一个简单的WordCount示例，展示了如何使用Spark进行快速的数据分析。

学习笔记TF065: TensorFlowOnSpark

Hadoop生态大数据系统分为Yam、 HDFS、MapReduce计算框架。TensorFlow分布式相当于MapReduce计算框架，Kubernetes相当于Yam调度系统。TensorFlow

RDD的join和Dstream的join有什么区别？

Dstream这个类实际上支持的只是Spark Streaming的基础操作算子，比如： map, filter 和window.PairDStreamFunctions 这个支持key-valued类型的流数据

Apache Spark：大数据领域的下一件大事？

Apache Spark正在引起很大的热议。Databricks是为支持Spark而成立的一个公司，它从Andreessen Horowitz募集到了$ 1400万美元，Cloudera决定全力支持Spark，其他人也认为这是下一件大事。所以我认为现在是时候看看并了解整个动态了。

在Apache Spark上跑Logistic Regression算法

本文旨在介绍使用机器学习算法，来介绍Apache Spark数据处理引擎。我们一开始会先简单介绍一下Spark，然后我们将开始实践一个机器学习的例子。我们将使用Qualitative Bankruptcy数据集，来自UCI机器学习数据仓库。虽然Spark支持同时Java，Scala，Python和R，在本教程中我们将使用Scala作为编程语言。不用担心你没有使用Scala的经验。练习中的每个代码段，我们都会详细解释一遍。 APACHE SPARK Apache Spark是一个开源的集群计算框架，用Spa

Spark 转换算子源码

可以从源码看出其入参是f: T ⇒ U 是一个函数，首先经过sc.clean(f) 进行闭包检测，然后创建一个MapPartitionsRDD。sc.clean()函数的作用检测用户构建的函数是否可以序列化，这是因为Spark中的map是一个分布式的函数，最终的执行是在Executor上开线程执行，而我们的函数构建都是在Driver端进行。Spark实际上进行的是计算的转移，将函数传递到数据所在的Worker节点。

在Apache Spark上跑Logistic Regression算法

Spark入门

Transformation：进行数据的转换，即将一个RDD转换成另一个RDD，这类转换并不触发提交作业，完成作业中间过程处理。

GeoSpark 数据分区及查询介绍

GeoSpark是一个用于处理大规模空间数据的开源内存集群计算系统。是传统GIS与Spark的结合。GeoSpark由三层组成:Apache Spark层、Spatial RDD层和空间查询处理层。

spark浅谈

学习和使用一段时间的spark，对spark的总结一下，希望对大家有用，不介绍怎么使用，只从设计上谈谈。

Spark Streaming编程指南

Overview Spark Streaming属于Spark的核心api，它支持高吞吐量、支持容错的实时流数据处理。它可以接受来自Kafka, Flume, Twitter, ZeroMQ和TCP

2021年大数据Spark（十二）：Spark Core的RDD详解

1.MR:只提供了map和reduce的API,而且编写麻烦,运行效率低!---早就淘汰了!

Spark2.4.0源码分析之WorldCount FinalRDD构建(一)

Spark2.4.0源码分析之WorldCount FinalRDD构建(一) 更多资源 github: https://github.com/opensourceteams/spark-scala-maven-2.4.0 主要内容描述 Spark dataSet执行计算转成FinalRDD FinalRdd从第一个RDD到最到一个RDD的转化过程 RDD之间的依赖引用关系 ShuffleRowRDD默认分区器为HashPartitioning,实际new Partitioner,分区个数为200 Fina

Spark Streaming 数据清理机制

为啥要了解机制呢？这就好比JVM的垃圾回收，虽然JVM的垃圾回收已经巨牛了，但是依然会遇到很多和它相关的case导致系统运行不正常。

Spark源码解析：DStream

0x00 前言本篇是Spark源码解析的第二篇，主要通过源码分析Spark Streaming设计中最重要的一个概念——DStream。本篇主要来分析Spark Streaming中的Dstream，重要性不必多讲，明白了Spark这个几个数据结构，容易对Spark有一个整体的把握。和RDD那篇文章类似，虽说是分析Dstream，但是整篇文章会围绕着一个具体的例子来展开。算是对Spark Streaming源码的一个概览。文章结构 Spark Streaming的一些概念，主要和Dstream

pySpark | pySpark.Dataframe使用的坑与经历

笔者最近在尝试使用PySpark，发现pyspark.dataframe跟pandas很像，但是数据操作的功能并不强大。由于，pyspark环境非自建，别家工程师也不让改，导致本来想pyspark环境跑一个随机森林，用《Comprehensive Introduction to Apache Spark, RDDs & Dataframes (using PySpark) 》中的案例，也总是报错…把一些问题进行记录。

spark杂记：Word Count

GraphX编程指南-官方文档-整理

GraphX 是新的(alpha)的图形和图像并行计算的Spark API。从整理上看，GraphX 通过引入弹性分布式属性图(Resilient Distributed Property Graph)继承了Spark RDD：一个将有效信息放在顶点和边的有向多重图。为了支持图形计算，GraphX 公开了一组基本的运算（例如，subgraph，joinVertices和mapReduceTriplets），以及在一个优化后的 PregelAPI的变形。此外，GraphX 包括越来越多的图算法和 builder 构造器，以简化图形分析任务。

hashpartitioner-Spark分区计算器

一点点回忆年初了，帮助大家回忆一下spark的重要知识点。首先，我们回顾的知识点是RDD的五大特性: 1，一系列的分区。 2，一个函数作用于分区上。 3，RDD之间有一系列的依赖。 4，分区器。 5，最佳位置。 Spark属于链式计算，rdd之间有着依赖关系：窄依赖，宽依赖。 RDD执行的时候会将计算链条分为很多task，rdd的task分为：ResultTask和ShuffleMapTask。 Partitioner简介书归正传，RDD之间的依赖如果是宽依赖，那么上游RDD该如何确定每个分区的输

Spark的Streaming和Spark的SQL简单入门学习

1、Spark Streaming是什么？ a、Spark Streaming是什么？　　Spark Streaming类似于Apache Storm，用于流式数据的处理。根据其官方文档介绍，Spark Streaming有高吞吐量和容错能力强等特点。Spark Streaming支持的数据输入源很多，例如：Kafka、Flume、Twitter、ZeroMQ和简单的TCP套接字等等。数据输入后可以用Spark的高度抽象原语如：map、reduce、join、window等进行运算。而结果也能保存在很多地

Spark Streaming如何使用checkpoint容错

在互联网场景下，经常会有各种实时的数据处理，这种处理方式也就是流式计算，延迟通常也在毫秒级或者秒级，比较有代表性的几个开源框架，分别是Storm，Spark Streaming和Filnk。曾经在一个项目里面用过阿里改造后的JStrom，整体感受就是编程略复杂，在不使用Trident Api的时候是不能保证准确一次的数据处理的，但是能保证不丢数据，但是不保证数据重复，我们在使用期间也出现过几次问题，bolt或者worker重启时候会导致大量数据重复计算，这个问没法解决，如果想解决就得使用Trident来保

大数据随记 —— Spark Core 与 RDD 简介

Spark Core 是 Spark 的核心，Spark SQL、Spark Streaming、MLib、GraphX 等都需要在 Spark Core 的基础上进行操作。Spark Core 定义了 RDD、DataFrame 和 DataSet，而 Spark Core 的核心概念是 RDD（Resilient Distributed Datasets，即弹性分布式数据集）。

Spark(1.6.1) Sql 编程指南+实战案例分析

首先看看从官网学习后总结的一个思维导图概述(Overview) Spark SQL是Spark的一个模块，用于结构化数据处理。它提供了一个编程的抽象被称为DataFrames，也可以作为分布式SQ

弹性式数据集RDDs

RDD 全称为 Resilient Distributed Datasets，是 Spark 最基本的数据抽象，它是只读的、分区记录的集合，支持并行操作，可以由外部数据集或其他 RDD 转换而来，它具有以下特性：

SparkSQL入门_1

本文介绍了SparkSQL的使用方法和基本概念，包括DataFrame、SQLQuery、ReadWrite、Example等。同时，还介绍了HiveQL和Hive的常见操作。

011

大数据技术之_19_Spark学习_04_Spark Streaming 应用解析 + Spark Streaming 概述、运行、解析 + DStream 的输入、转换、输出 + 优化

Spark Streaming 类似于 Apache Storm，用于流式数据的处理。根据其官方文档介绍，Spark Streaming 有高吞吐量和容错能力强等特点。Spark Streaming 支持的数据输入源很多，例如：Kafka、Flume、Twitter、ZeroMQ 和简单的 TCP 套接字等等。数据输入后可以用 Spark 的高度抽象，如：map、reduce、join、window 等进行运算。而结果也能保存在很多地方，如 HDFS，数据库等。另外 Spark Streaming 也能和 MLlib（机器学习）以及 Graphx 完美融合。

Spark RDD / Dataset 相关操作及对比汇总笔记

本篇博客将会汇总记录大部分的Spark RDD / Dataset的常用操作以及一些容易混淆的操作对比。

Spark RDD / Dataset 相关操作及对比汇总笔记

本篇博客将会汇总记录大部分的Spark RDD / Dataset的常用操作以及一些容易混淆的操作对比。

Spark Streaming——Spark第一代实时计算引擎

虽然SparkStreaming已经停止更新，Spark的重点也放到了 Structured Streaming ，但由于Spark版本过低或者其他技术选型问题，可能还是会选择SparkStreaming。SparkStreaming对于时间窗口，事件时间虽然支撑较少，但还是可以满足部分的实时计算场景的，SparkStreaming资料较多，这里也做一个简单介绍。

Spark Streaming 整体介绍

1. 概要 Hadoop的MapReduce及Spark SQL等只能进行离线计算，无法满足实时性要求较高的业务需求，例如实时推荐，实时网站性能分析等，流式计算可以解决这些问题，spark Streaming就是现在常用的流式计算框架。作为spark的五大核心组件之一，spark Streaming原生地支持多种数据源的接入，而且可以与Spark MLLib、Graphx结合起来使用，具有高吞吐量，容错机制，

图解大数据 | 流式数据处理-Spark Streaming

教程地址：http://www.showmeai.tech/tutorials/84

Java接入Spark之创建RDD的两种方式和操作RDD

首先看看思维导图，我的spark是1.6.1版本，jdk是1.7版本 spark是什么？ Spark是基于内存计算的大数据并行计算框架。Spark基于内存计算，提高了在大数据环境下数据处理的

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐