Albert陈凯

代码在线跑，知识轻松学

Python精品学习库

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

博客搬家 | 分享价值百万资源包

往期视频·干货材料·成员作品 最新动态

技术创作特训营·精选知识专栏

新邀入驻腾讯云开发者社区，福利多多！

如何运用「云、端融合的数智化安全体系」高效护航数据安全

左手AI，右手安全 —— 一汽丰田数字化转型之路

项目介绍
项目介绍
电商网站的各种用户行为进行分析
访问首页 → 点击商品 → 添加购物车 → 结算
 访问首页 → 输入关键词 → 点击商品列表 → 点击商品→ 关闭网页
 访问详情页 → 查看推荐

Spark开发电商日志分析用户行为聚合功能练习下面开始搭建开发环境注意Task表中最后一个列task_param中，Json的StartDate和EndDate需要设置成今天，因为mock数据的时候，

安装scala 2.11.4
1、将课程提供的scala-2.11.4.tgz使用WinSCP拷贝到sparkproject1的/usr/local目录下。
 2、对scala-2.11.4.tgz进行解压缩：tar -zxvf scala-2.11.4.tgz。
 3、对scala目录进行重命名：mv scala-2.11.4 scala
 4、配置scala相关的环境变量
 vi ~/.bashrc
 export SCALA_HOME=/usr/local/scala
 export PATH=$SC

P05_kafka_2.9.2-0.8.1集群搭建

企业级Hadoop、Spark平台应用、开发、整合
公司从Hadoop向Spark整合，主要的业务需求是做实时性要求更高的一些业务
系列课程的重点就是：
实用的一些技巧，
调优的一些手段、
企业中实际应用的一个场景
根据企业的应用场景，我们如何用Hadoop、Spark去解决
在这里，聆听最专业的实战指引
 和我们一起，学习最热门的大数据技术
课程大纲
大数据的故事
Hadoop的演变
企业级大数据应用
大数据必备技能
平台一览
IOE VS HADOOP
 --IBM Oracle EMC  想必大家也都

企业级Hadoop、Spark平台应用、开发、整合企业级Hadoop、Spark平台应用、开发、整合

spark2.x依赖包POM

rdd的全称为Resilient Distributed Datasets（弹性分布式数据集）
 rdd的操作有两种transfrom和action。
 transfrom并不引发真正的rdd计算，action才会引发真正的rdd计算。
 rdd的持久化是便于rdd计算的重复使用。
在rdd参与第一次计算后，设置rdd的存储级别可以保持rdd计算后的值在内存中。(1)另外，只有未曾设置存储级别的rdd才能设置存储级别，设置了存储级别的rdd不能修改其存储级别。(2)(1)的举例如下：rdd1要经过trans

spark中的rdd的持久化

当第一次对RDD2执行算子，获取RDD3的时候，就会从RDD1开始计算，就是读取HDFS文件，然后对RDD1执行算子，获取到RDD2，然后再计算，得到RDD3
默认情况下，多次对一个RDD执行算子，去获取不同的RDD；都会对这个RDD以及之前的父RDD，全部重新计算一次；读取HDFS->RDD1->RDD2-RDD4这种情况，是绝对绝对，一定要避免的，一旦出现一个RDD重复计算的情况，就会导致性能急剧降低。
 比如，HDFS->RDD1-RDD2的时间是15分钟，那么此时就要走两遍，变成30分钟
另外一种情

spark性能调优之重构RDD架构，RDD持久化

1.RDD持久化原理
Spark非常重要的一个功能特性就是可以将RDD持久化在内存中。当对RDD执行持久化操作时，每个节点都会将自己操作的RDD的partition持久化到内存中，并且在之后对该RDD的反复使用中，直接使用内存缓存的partition。这样的话，对于针对一个RDD反复执行多个操作的场景，就只要对RDD计算一次即可，后面直接使用该RDD，而不需要反复计算多次该RDD。 2.巧妙使用RDD持久化，甚至在某些场景下，可以将spark应用程序的性能提升10倍。对于迭代式算法和快速交互式应用来说，RD

RDD持久化

下面我们一起来看一下Spark的任务调度
Spark任务调度.png
首先最左边的叫做RDD Object就是一个一个的RDD对象
 一个一个的RDD对象，可以组成一个有向无环图
 一个有向无环图，我

Spark系列课程-00xxSpark任务调度疑问，生成有向无环图的这个东西叫什么名字？

我们这节课讲一下RDD的持久化
RDD的持久化
这段代码我们上午已经看过了，有瑕疵大家看出来了吗？
 有什么瑕疵啊?
 大家是否还记得我在第二节课的时候跟大家说，RDD实际是不存数据的？
image.

Spark系列课程-00xxSpark RDD持久化

我们这节课开始讲Spark的算子，
 我们说transformation类算子是转换算子
 我们称Action类算子是行动算子
image.png
我们回顾一下，我们说转换类算子，他有什么特点？ 延迟

Spark系列课程-0030Spark 简单的算子

4.4 共享变量

一般来说，当一个被传递给Spark操作（例如，Map和Reduce）的函数在一个远程集群上运行时，该函数实际上操作的是它用到的所有变量的独立副本。
这些变量会被复制到每一台机器，在远程机器上对变量的所有更新都不会传回主驱动程序。默认来说，当Spark以多个Task在不同的Worker上并发运行一个函数时，它传递每一个变量的副本并缓存在Worker上，用于每一个独立Task运行的函数中。
有时，我们需要变量能够在任务中共享，或者在任务与驱动程序之间共享。
而Spark提供两种模式的共享变量

4.4 共享变量

4.3 RDD操作

RDD提供了一个抽象的分布式数据架构，我们不必担心底层数据的分布式特性，而应用逻辑可以表达为一系列转换处理。
通常应用逻辑是以一系列转换（Transformation）和执行（Action）来表达的，前者在RDD之间指定处理的相互依赖关系，后者指定输出的形式。
其中：
□转换：是指该操作从已经存在的数据集上创建一个新的数据集，是数据集的逻辑操作，并没有真正计算。
□执行：是指该方法提交一个与前一个Action之间的所有Transformation组成的Job进行计算，Spark会根据A

4.3 RDD操作

Spark大数据处理：技术、应用与性能优化

第3章 Spark计算模型
创新都是站在巨人的肩膀上产生的，在大数据领域也不例外。微软的Dryad使用DAG执行模式、子任务自由组合的范型。该范型虽稍显复杂，但较为灵活。Pig也针对大关系表的处理提出了很多有创意的处理方式，如flatten、cogroup。经典虽难以突破，但作为后继者的Spark借鉴经典范式并进行创新。经过实践检验，Spark的编程范型在处理大数据时显得简单有效。＜Key,Value＞的数据处理与传输模式也大获全胜。
Spark站在巨人的肩膀上

3.0Spark计算模型

循序渐进学Saprk
与Hadoop相比，Spark最初为提升性能而诞生。Spark是Hadoop MapReduce的演化和改进，并兼容了一些数据库的基本思想，可以说，Spark一开始就站在Hadoop与数据库这两个巨人的肩膀上。同时，Spark依靠Scala强大的函数式编程Actor通信模式、闭包、容器、泛型，并借助统一资源调度框架，成为一个简洁、高效、强大的分布式大数据处理框架。
 Spark在运算期间，将输入数据与中间计算结果保存在内存中，直接在内存中计算。另外，用户也可以将重复利用的数据缓存在内存

2.0Spark编程模型

Spark大数据分析实战
1.4　弹性分布式数据集
 本节将介绍弹性分布式数据集RDD。Spark是一个分布式计算框架，而RDD是其对分布式内存数据的抽象，可以认为RDD就是Spark分布式算法的数据结构，而RDD之上的操作是Spark分布式算法的核心原语，由数据结构和原语设计上层算法。Spark最终会将算法（RDD上的一连串操作）翻译为DAG形式的工作流进行调度，并进行分布式任务的分发。
1.4.1　RDD简介
 在集群背后，有一个非常重要的分布式数据架构，即弹性分布式数据集（Resilient Dist

1.4　弹性分布式数据集

4.2 创建RDD

由于Spark一切都是基于RDD的，如何创建RDD就变得非常重要，除了可以直接从父RDD转换，还支持两种方式来创建RDD：
1）并行化一个程序中已经存在的集合（例如，数组）；
2）引用一个外部文件存储系统（HDFS、HBase、Tachyon或是任何一个支持Hadoop输入格式的数据源）中的数据集。
4.2.1 集合（数组）创建RDD
通过并行集合（数组）创建RDD，主要是调用SparkContext的parallelize方法，在Driver（驱动程序）中一个已经存在的集合（数组）上

4.2 创建RDD

我们从这节课开始，讲Spark的内核，英文叫做Spark Core，在讲Spark Core之前我们先讲一个重要的概念，RDD，
image.png
我们Spark所有的计算，都是基于RDD来计算的，

Spark系列课程-0020Spark RDD图例讲解

Spark核心技术与高级应用
第4章

编程模型
不自见，故明；不自是，故彰；不自伐，故有功；不自矜，故能长。
——《道德经》第二十二章
在面对自我的问题上，不自我表扬，反能显明；不自以为是，反能彰显；不自我夸耀，反能见功；不自我矜恃，反能长久。
与许多专有的大数据处理平台不同，基于Spark的大数据处理平台，建立在统一抽象的RDD之上，这是Spark这朵小火花让人着迷的地方，也是学习Spark编程模型的瓶颈所在，充满了很深的理论和工程背景。
本章重点讲解Spark编程模型的最主要抽象，第一个抽象是RDD（

4.0Spark编程模型﻿RDD

Spark技术内幕：深入解析Spark内核架构设计与实现原理
第三章 Spark RDD实现详解
RDD是Spark最基本也是最根本的数据抽象，它具备像MapReduce等数据流模型的容错性，并且允许开发人员在大型集群上执行基于内存的计算。现有的数据流系统对两种应用的处理并不高效：一是迭代式算法，这在图应用和机器学习领域很常见；二是交互式数据挖掘工具。这两种情况下，将数据保存在内存中能够极大地提高性能。为了有效地实现容错，RDD提供了一种高度受限的共享内存，即RDD是只读的，并且只能通过其他RDD上的批量操

3.0Spark RDD实现详解

Cache 和 Checkpoint
作为区别于 Hadoop 的一个重要 feature，cache 机制保证了需要访问重复数据的应用（如迭代型算法和交互式应用）可以运行的更快。与 Hadoop MapReduce job 不同的是 Spark 的逻辑/物理执行图可能很庞大，task 中 computing
 chain 可能会很长，计算某些 RDD 也可能会很耗时。这时，如果 task 中途运行出错，那么 task 的整个 computing chain 需要重算，代价太高。因此，有必要将计算代价较大的

Spark详解06容错机制Cache 和 Checkpoint Cache 和 Checkpoint

文章

问答

视频

学习中心

腾讯云实验室

直播

竞赛

腾讯云代码分析专区

腾讯iOA零信任安全管理系统专区

腾讯云架构师技术同盟交流圈

腾讯云数据库专区

腾讯云顾问专区

腾讯云原生专区

腾讯混元专区

腾讯云TCE专区

腾讯云Lighthouse专区

腾讯云HAI专区

腾讯云Edgeone专区

腾讯云存储专区

腾讯云智能专区

腾讯轻联专区 

腾讯云开发专区

TAPD专区

腾讯轻量云游戏服专区

腾讯云最具价值专家

腾讯云架构师技术同盟

腾讯云创作之星

腾讯云开发者先锋

腾讯云代码助手

云原生构建

TAPD 敏捷项目管理

Cloud Studio

SDK中心

API中心

命令行工具

涵盖代码开发、场景应用、自动测试全流程，助你从零构建专属AI助手

一站式MCP教程库，解锁AI应用新玩法

腾讯云开发者社区推出了Albert陈凯专栏，为你提供了Albert陈凯的相关文章，致力于帮助开发者快速成长与发展。

Albert陈凯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐