文章/答案/技术大牛

发布

首页视频107 - 尚硅谷 - SparkCore - 核心编程 - 数据结构 -累加器 - 自定义实现

107 - 尚硅谷 - SparkCore - 核心编程 - 数据结构 -累加器 - 自定义实现

2022-12-022022-12-02 16:02:16播放44

点赞0 收藏 0

2.尚硅谷大数据学科--核心框架/尚硅谷spark教程/视频/107 - 尚硅谷 - SparkCore - 核心编程 - 数据结构 -累加器 - 自定义实现.avi

原链接：http://www.atguigu.com/

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
呃，累加器咱们前面给大家演示的一些基本操作，那么现在回过头来咱们再看一看啊，说累加器它是一个分布式的共享的止血变量啊，同学们看一下啊，来咱们这边稍微的描述一下这个东西写上啊，咱们叫做什么呢？叫分布式共享，咱们叫只写变量好了，那么这个分布式呢，其实我相信到了现在这个时候应该好理解了吧，同学们对不对，为什么呢？这个累加器的这个值呀。它是分布式来统计执行的啊，还有个叫共享，那么就意味着driver当中的这个累加器被多个我们这边啊所共享，对不对，诶好，还有一个叫止血是什么概念。它表述的是我们的这个累加器的值，他们互相之间是不能访问的，是读不到的，比方说咱们这个累加器，它是读不到这个累加器的，他是读不到他的啊，但是你自己肯定能读自己的嘛，对不对，那肯定没问题，但是你想互相访问，那不行，那谁能访问呢？咱们driver，因为你最终的结果都是要返回到我们的driver这一边呢，对不对，所以driver可以真正的把它们每一个都读到，然后呢，给它合并在一起，所以呀，这就叫止血的意思啊，那么首先它是我们一个变量啊，咱们生命的一个变量，然后在这边传递，所以通过这个呢，把这个概念稍微的理解一下，诶老师呀，那咱们这个累加器是不是只能做一些事件数据的一个累加呢？其实不是，在某些情况下，我们也可以用累加器实现一些特殊的功能，而且比方说我们可以把一些需要杀Le的东西可以用累加去实现，这样的话就没有沙Le了，比方说word count，那咱们word count呢？
01:44
其实就可以想办法用累加器来实现，那好我们这里呢，一块给他演示一下，那首先我们先来把这个先关掉啊来。好，那我们写上一个啊，咱们叫零四啊，然后拿过来我们写上一个叫做什么呢？叫word count，嗯，来word count好了，咱们拿过来点击OK啊，放在这边，那么大家想一想，我们以前的word count我们一般都怎么写啊，比方说啊，咱们来咱们写上，当然咱们叫做hello啊hello，然后呢，我们再来一个，咱们叫Spark，然后再来一个hello，所以啊，咱们的数据呢，可能是现在这个样子，那咱们为了给他大家呢，什么实现这个word count我们怎么办？咱们RDD，点咱们的map，然后呢，括号下划线，逗号一变成我们渐值类型对不对，然后呢，点我们叫reduce by key没问题吧，下划线加下划线，所以大家可以想象一下，这边是肯定有沙否操作的，对不对，这个肯定是这样的吧，嗯，数据他们hello，放一块来做聚合。
02:44
但是其实我们换一个思路，如果我不需要沙，能不能实现呢？其实也能实现，为什么呢？就一个一个便利，一个一个统计班，比方说嗨来了，诶我现在呢，就找一个什么呢，找一个map，找一个map啊，我看看这个hello有没有，如果有把它的数量加一。
03:01
如果没有呢，把它添加进去对不对？诶，那这样的话，Hello是一次，Spark是一次，Hello之前出现过是两次，这样的话呢，其实就没有沙uffle了，那如果在数据量多的情况下，你没有沙uffle，那么你的性能不也就得到提高了吗？所以啊，咱们一些简单的数据的累加，其实都是可以用累加器的啊，像咱们这种word count用累加器肯定是没有问题的啊，那好，那我们该怎么做呢？首先第一个咱们是RDD点，我们叫for it。干嘛呀，把每个单词诶，我们要进行数据的累加，所以在这里呢，我们说一下叫数据的累加，大家想想你这就是一个循环便离，怎么可能会有沙，不可能有对不对，那么既然不可能有的话，你要想办法准备你自己的那个变量了，所以在这里我们写上啊，咱们叫累加器，叫累加器，这个累加器它应该会有一个什么呢？我们的诶呃，名字，这个名字我们就叫WC吧，对吧，咱们叫word，就这么写啊，咱们叫ACC，好，那问题来了，你后面写什么呀？
04:07
诶，老师，那我们后面就写咱们的这个sc.long好像不行，因为你想求的是word count，你肯定不是光一个浪，那么你用double。好像也不行，对不对，那好，还有一个叫collection，这个集，集合是可以吧，但是也不行，因为咱们集合当中它保存的是我们的list，那也就意味它保存的是list，这个list按理说你要保存个什么键值，对啊，什么word count也行，可是你再去匹配数据的时候就会感觉不方便，所以啊，咱们这个地方啊，好像浪不行，Double不行，那个collection好像也不行，所以在这种情况下，如果我们能够自己来定一个累加器，这不是一个好的选择吗？所以啊，大家看，我想实现一个功能，就叫word count，那么这个时候我就要自己来定义累加器了，所以在这我就写上叫class，叫MY，咱们叫ACC IQ military，哎，怎么写啊，好了，嗯，我们这么写上啊，嗯。
05:07
咱们叫做自定义啊，数据累加器，它要实现的功能呢，就是word count，嗯，好了，那你随便写个类就能叫累加器了吗？那肯定不行，对不对？所以我们要看一看，我们模仿一下，天下文章一大抄，别人怎么写，咱们抄别人的不就完了吗？那么好，咱们来看一看我们的SC点它不有一个叫做long accumulator吗？我们就看看它是怎么做的啊，咱们点一下点点完以后大家看一下它是这样的，它首先new了一个我们的类，然后呢，有个register，有个注册，这个就是上下文对象的注册功能，所以他就把累加器注册进去，并且起了个名，然后返回累加器，那所以啊，对于咱们来讲，咱们也可以这么做呀，大家看一下来，咱们叫创建累加器对象，好，然后呢，我们叫做向Spark进行注册，向Spark进行注册，诶就是这样的，然后呢，你这个数据的累加，其实说白了不就是。
06:08
使用累加气吗？哎，使用累加气，然后呢，最后这个地方来写上获取累加的结果，获取累加器累加的结果。对不对，哎，分这么几个步骤，其实就可以了，那好了，那我们现在就发现哦，我要创建累加期对象，那来吧，拷贝，所以呢，我放到这边，我们写上一个什么呢？咱们叫做WC的，然后呢，等于咱们叫做new，诶我就放过来了，放过来以后干什么呀，咱们要给它什么注册，诶所以呢，我们写的sc.register注册，注册的时候大家会发现他有要求了，你的这个累加器啊，不能随便给你要给他。那我的对象要想传进去的话，是不是要跟他有关系啊，所以这个叫iqul VR。它到底怎么回事，咱们不知道，所以呢，我们来再去看一看，大家看一下我们写上一个我们的long啊，来我们这边写上一个啊，咱们来放到这边，我们写上一个，嗯，SC点咱们的long，我现在点它一下，点完之后大家看一下我们的这个自定义的累加器，跟这个就的感觉差不多，所以我点点完以后你看这儿，这个不就是我们的IQ me VR吗？所以呀，咱们再去点它是一个抽象类，有两个泛型，所以后退，后退以后拷贝过来，那么我们现在就明白了，哦，原来如果你想要能够诶定义累加器，你要遵循它的要求，它的第一个要求就是继承。
07:41
继承咱们的AQVR，所以来咱们写上继承叫做它。好了，写完以后，那这个时候你会发现它里面会有什么，我们的红色的波浪线，咱们点它一下，因为它是一个抽象类，所以它其中的抽象方法其实啊是什么，是应该需要重写的，所以我们要重写它的方法，但是你重写方法的话，会有一个要求什么呢？它有一个输入和输出的一个类型的约束，大家看一下这个aqm，它里面有一个中国号in和out，这是两个泛型，这两个泛型它是需要给它事先定义好的，所以咱们继承IQ minute VR干嘛呢？然后定义我们的泛型，呃，这个泛型呢，首先有一个in啊，有一个我们的out啊，In和out，那么这个in和out呢，我们看看表示什么含义，那顾名思义啊，就是往累加器器里面增加了什么样的内容，就是我们叫累加器啊，累加器输入的内容啊，或者叫输入的数据。
08:48
类型，嗯，好，而这个out呢，就表示的是什么呢？累加器，它需要返回的数据的类型，咱们叫累加器啊，咱们叫做什么呢？嗯，返回吧，叫返回的数据类型，嗯。
09:03
那我们就想一想吧，你这个是用来做word count的，那么你就会把每一个单词给它往里面放，对不对，所以啊，它的输入类型应该是什么，每一个单词呀，所以我给他个string没有问题，然后呢，你的累加器的返回结果不就是应该是word count吗？就是我们的count所形成的一个集合，那我们应该是一个map吧，对不对？诶点我们写上一个map，然后写上一个string，咱们叫做long就可以了啊。好了，那我现在的这个地方呢，就把它准备好了啊，所以来我们这里写上咱们第一个叫做string类型，第二个是一个map类型，为什么是map，就是因为它里面放的是我们的K键字，对word count不就是键对吗？嗯，好，那这个如果没问题的话，我重写它的方法，所以来。大家看一下我现在呢，重写它的方法了，那我先不重写了，我先把上面准备好，同学们看，我在这个地方把它准备好了，那这个地方呢，我们就去掉，我们来写上，叫做点，我们叫resist，然后把它放进去。
10:08
放进去以后给它起个名，这个名称我们就叫做word count ACC，哎，就行了，好，那你注册完毕之后，那我不就可以累加了吗？所谓的累加就是把这个累加器咱们拿过来。点我们叫A，那这个A呢，就把每个单词放进去就行了，放进去以后，当所有的数据循环遍历结束之后，结果就应该出来了，所以说我们的来，我们的累加器，点它有个叫Y6，这个Y6就是累加器的结果，那么好，我们直接点咱们叫做打印就可以了啊，所以基本的操作咱们已经算是做完了啊，但是我们累加器的细节咱们还没有做，没关系，咱们慢慢来啊。

展开

我来说两句

0 条评论

登录后参与评论

作者

腾讯云开发者课程

【合辑】尚硅谷spark教程

（107/210）

4分47秒

001 - 尚硅谷 - Spark框架 - 简介

460

7分47秒

002 - 尚硅谷 - Spark框架 - Vs Hadoop

530

2分23秒

003 - 尚硅谷 - Spark框架 - 核心模块 - 介绍

400

5分45秒

004 - 尚硅谷 - Spark框架 - 快速上手 - 开发环境准备

510

7分56秒

005 - 尚硅谷 - Spark框架 - 快速上手 - WordCount - 案例分析

440

7分6秒

006 - 尚硅谷 - Spark框架 - 快速上手 - WordCount - Spark环境

410

11分55秒

007 - 尚硅谷 - Spark框架 - 快速上手 - WordCount - 功能实现

420

8分30秒

008 - 尚硅谷 - Spark框架 - 快速上手 - WordCount - 不同的实现

470

4分23秒

009 - 尚硅谷 - Spark框架 - 快速上手 - WordCount - Spark的实现

370

3分49秒

010 - 尚硅谷 - Spark框架 - 快速上手 - WordCount - 日志和错误

440

8分10秒

011 - 尚硅谷 - Spark框架 - 运行环境 - 本地环境 - 基本配置和操作

520

3分9秒

012 - 尚硅谷 - Spark框架 - 运行环境 - 本地环境 - 提交应用程序

420

6分11秒

013 - 尚硅谷 - Spark框架 - 运行环境 - 独立部署环境 - 基本配置和操作

390

3分7秒

014 - 尚硅谷 - Spark框架 - 运行环境 - 独立部署环境 - 提交参数解析

360

4分7秒

015 - 尚硅谷 - Spark框架 - 运行环境 - 独立部署环境 - 配置历史服务

390

5分50秒

016 - 尚硅谷 - Spark框架 - 运行环境 - 独立部署环境 - 配置高可用

470

6分40秒

017 - 尚硅谷 - Spark框架 - 运行环境 - Yarn环境 - 基本配置 & 历史服务

360

11分5秒

018 - 尚硅谷 - Spark框架 - 运行环境 - Windows环境 & 总结

470

3分32秒

019 - 尚硅谷 - Spark框架 - 核心组件 - 介绍

370

3分30秒

020 - 尚硅谷 - Spark框架 - 核心概念 - Executor & Core & 并行度

410

6分59秒

021 - 尚硅谷 - Spark框架 - 核心概念 - DAG & 提交流程 & Yarn两种部署模式

410

12分47秒

022 - 尚硅谷 - SparkCore - 分布式计算模拟 - 搭建基础的架子

470

10分49秒

023 - 尚硅谷 - SparkCore - 分布式计算模拟 - 客户端向服务器发送计算任务

490

11分38秒

024 - 尚硅谷 - SparkCore - 分布式计算模拟 - 数据结构和分布式计算

460

5分30秒

025 - 尚硅谷 - SparkCore - 核心编程 - RDD - 概念介绍

380

10分10秒

026 - 尚硅谷 - SparkCore - 核心编程 - RDD - IO基本实现原理 - 1

440

8分48秒

027 - 尚硅谷 - SparkCore - 核心编程 - RDD - IO基本实现原理 - 2

450

12分23秒

028 - 尚硅谷 - SparkCore - 核心编程 - RDD - RDD和IO之间的关系

400

13分33秒

029 - 尚硅谷 - SparkCore - 核心编程 - RDD - 特点

410

11分18秒

030 - 尚硅谷 - SparkCore - 核心编程 - RDD - 五大主要配置

440

3分4秒

031 - 尚硅谷 - SparkCore - 核心编程 - RDD - 执行原理

410

11分1秒

032 - 尚硅谷 - SparkCore - 核心编程 - RDD - 创建 - 内存

400

6分27秒

033 - 尚硅谷 - SparkCore - 核心编程 - RDD - 创建 - 文件

300

4分41秒

034 - 尚硅谷 - SparkCore - 核心编程 - RDD - 创建 - 文件1

400

11分40秒

035 - 尚硅谷 - SparkCore - 核心编程 - RDD - 集合数据源 - 分区的设定

450

13分52秒

036 - 尚硅谷 - SparkCore - 核心编程 - RDD - 集合数据源 - 分区数据的分配

370

11分31秒

037 - 尚硅谷 - SparkCore - 核心编程 - RDD - 文件数据源 - 分区的设定

400

8分20秒

038 - 尚硅谷 - SparkCore - 核心编程 - RDD - 文件数据源 - 分区数据的分配

370

6分12秒

039 - 尚硅谷 - SparkCore - 核心编程 - RDD - 文件数据源 - 分区数据的分配 - 案例分析

410

7分48秒

040 - 尚硅谷 - SparkCore - 核心编程 - RDD - 算子介绍

400

7分45秒

041 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - map

440

5分10秒

042 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - map - 小功能

330

8分52秒

043 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - map - 并行计算效果演示

400

6分10秒

044 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - mapPartitions

500

3分48秒

045 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - mapPartitions - 小练习

460

2分20秒

046 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - mapPartitions & map的区别 - 完成比完美更重要

400

6分29秒

047 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - mapPartitionsWithIndex

410

5分6秒

048 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - flatMap

440

2分39秒

049 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - flatMap - 小练习

400

6分32秒

050 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - glom

380

6分47秒

051 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - 理解分区不变的含义

410

5分24秒

052 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - groupBy

390

6分0秒

053 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - groupBy - shuffle来袭

390

7分50秒

054 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - groupBy - 小练习

350

7分10秒

055 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - filter - 数据倾斜

390

16分10秒

056 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - sample - 抽奖喽

390

6分12秒

057 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - distinct

370

11分10秒

058 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - coalesce

370

7分26秒

059 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - repartition

310

6分30秒

060 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - sortBy

390

8分18秒

061 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - 交集&并集&差集&拉链

480

8分9秒

062 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - 交集&并集&差集&拉链 - 注意事项

460

10分17秒

063 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - partitionBy（前面有吸气，中间有等待）

390

5分54秒

064 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - partitionBy - 思考的问题

400

6分5秒

065 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - reduceByKey

410

4分13秒

066 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - groupByKey

420

18分56秒

067 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - groupByKey & reduceByKey的区别

440

11分8秒

068 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - aggregateByKey

490

13分28秒

069 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - aggregateByKey - 图解

380

3分53秒

070 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - foldByKey

440

8分49秒

071 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - aggregateByKey - 小练习

320

6分3秒

072 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - aggregateByKey - 小练习 - 图解

370

8分3秒

073 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - combineByKey

420

9分11秒

074 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - 聚合算子的区别

410

6分59秒

075 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - join

450

3分24秒

076 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - leftOuterJoin & rightOuterJoin

450

4分27秒

077 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - cogroup

410

18分49秒

078 - 尚硅谷 - SparkCore - 核心编程 - RDD - 案例实操 - 需求介绍 & 分析

510

6分39秒

079 - 尚硅谷 - SparkCore - 核心编程 - RDD - 案例实操 - 需求设计

440

8分17秒

080 - 尚硅谷 - SparkCore - 核心编程 - RDD - 案例实操 - 功能实现

410

4分31秒

081 - 尚硅谷 - SparkCore - 核心编程 - RDD - 行动算子 - 介绍

360

7分59秒

082 - 尚硅谷 - SparkCore - 核心编程 - RDD - 行动算子 - 算子演示

350

4分23秒

083 - 尚硅谷 - SparkCore - 核心编程 - RDD - 行动算子 - aggregate

390

4分44秒

084 - 尚硅谷 - SparkCore - 核心编程 - RDD - 行动算子 - countByKey & countByValue

410

10分15秒

085 - 尚硅谷 - SparkCore - 核心编程 - RDD - WordCount不同的实现方式 - (1-8)

430

6分2秒

086 - 尚硅谷 - SparkCore - 核心编程 - RDD - WordCount不同的实现方式 - (9-11)

410

3分40秒

087 - 尚硅谷 - SparkCore - 核心编程 - RDD - 行动算子 - save的方法

370

11分36秒

088 - 尚硅谷 - SparkCore - 核心编程 - RDD - 行动算子 - foreach

340

14分9秒

089 - 尚硅谷 - SparkCore - 核心编程 - RDD - 序列化 - 闭包检测

390

12分3秒

090 - 尚硅谷 - SparkCore - 核心编程 - RDD - 序列化 - 实际执行时的问题

350

10分5秒

091 - 尚硅谷 - SparkCore - 核心编程 - RDD - 序列化 - Kryo序列化Core介绍

370

5分16秒

092 - 尚硅谷 - SparkCore - 核心编程 - RDD - 依赖关系 - 依赖 & 血缘关系介绍

390

11分35秒

093 - 尚硅谷 - SparkCore - 核心编程 - RDD - 依赖关系 - 血缘关系 - 演示

330

11分34秒

094 - 尚硅谷 - SparkCore - 核心编程 - RDD - 依赖关系 - 宽窄依赖

410

9分40秒

095 - 尚硅谷 - SparkCore - 核心编程 - RDD - 依赖关系 - 阶段&分区&任务 - 概念解析 - 秋游了

340

11分30秒

096 - 尚硅谷 - SparkCore - 核心编程 - RDD - 依赖关系 - 阶段划分源码解读

390

8分56秒

097 - 尚硅谷 - SparkCore - 核心编程 - RDD - 依赖关系 - 任务划分源码解读

390

2分50秒

098 - 尚硅谷 - SparkCore - 核心编程 - RDD - 依赖关系 - 任务分类

390

14分45秒

099 - 尚硅谷 - SparkCore - 核心编程 - RDD - 持久化 - cache & persist基本原理和演示

380

100

5分17秒

100 - 尚硅谷 - SparkCore - 核心编程 - RDD - 持久化 - 作用

430

101

2分58秒

101 - 尚硅谷 - SparkCore - 核心编程 - RDD - 持久化 - 检查点

320

102

11分46秒

102 - 尚硅谷 - SparkCore - 核心编程 - RDD - 持久化 - 区别

370

103

9分1秒

103 - 尚硅谷 - SparkCore - 核心编程 - RDD - 分区器 - 自定义数据分区规则

340

104

4分35秒

104 - 尚硅谷 - SparkCore - 核心编程 - RDD - 文件读取与保存

350

105

15分48秒

105 - 尚硅谷 - SparkCore - 核心编程 - 数据结构 -累加器 - 原理及简单演示

350

106

3分37秒

106 - 尚硅谷 - SparkCore - 核心编程 - 数据结构 -累加器 - 问题

410

107

10分53秒

107 - 尚硅谷 - SparkCore - 核心编程 - 数据结构 -累加器 - 自定义实现

440

108

7分13秒

108 - 尚硅谷 - SparkCore - 核心编程 - 数据结构 -累加器 - 自定义实现 - 1

480

109

17分14秒

109 - 尚硅谷 - SparkCore - 核心编程 - 数据结构 - 广播变量

380

110

12分2秒

110 - 尚硅谷 - SparkCore - 案例实操 - 数据准备 & 数据说明

400

111

9分45秒

111 - 尚硅谷 - SparkCore - 案例实操 - 需求一 - 需求设计 & 思路梳理

400

112

9分53秒

112 - 尚硅谷 - SparkCore - 案例实操 - 需求一 - 功能实现 - 分别统计点击，下单，支付的数量

410

113

12分17秒

113 - 尚硅谷 - SparkCore - 案例实操 - 需求一 - 功能实现 - 合并点击，下单，支付的数量

350

114

12分16秒

114 - 尚硅谷 - SparkCore - 案例实操 - 需求一 - 功能实现 - 第二种实现方式

350

115

12分55秒

115 - 尚硅谷 - SparkCore - 案例实操 - 需求一 - 功能实现 - 第三种实现方式

300

116

18分28秒

116 - 尚硅谷 - SparkCore - 案例实操 - 需求一 - 功能实现 - 第四种实现方式

430

117

14分47秒

117 - 尚硅谷 - SparkCore - 案例实操 - 需求二 - 功能实现

360

118

3分40秒

118 - 尚硅谷 - SparkCore - 案例实操 - 需求三 - 需求介绍

420

119

19分3秒

119 - 尚硅谷 - SparkCore - 案例实操 - 需求三 - 需求分析 - 图解

470

120

5分57秒

120 - 尚硅谷 - SparkCore - 案例实操 - 需求三 - 代码实现 - 分母的计算

340

121

15分26秒

121 - 尚硅谷 - SparkCore - 案例实操 - 需求三 - 代码实现 - 分子的计算并求转换率

340

122

8分29秒

122 - 尚硅谷 - SparkCore - 案例实操 - 需求三 - 代码实现 - 优化需求

340

123

11分3秒

123 - 尚硅谷 - SparkCore - 工程化代码 - 架构模式 - 三层架构介绍

400

124

13分46秒

124 - 尚硅谷 - SparkCore - 工程化代码 - 架构模式 - 三层架构代码实现

370

125

17分47秒

125 - 尚硅谷 - SparkCore - 工程化代码 - 架构模式 - 架构代码优化

420

126

4分30秒

126 - 尚硅谷 - SparkCore - 工程化代码 - 架构模式 - ThreadLocal解释

380

127

30分8秒

127 - 尚硅谷 - SparkCore - 总结 - 课件梳理

430

128

5分36秒

128 - 尚硅谷 - Spark内核 & 源码 - 总体介绍

410

129

6分28秒

129 - 尚硅谷 - Spark内核 & 源码 - 环境准备 - SparkSubmit - 起点

430

130

13分26秒

130 - 尚硅谷 - Spark内核 & 源码 - 环境准备 - SparkSubmit - 向Yarn提交应用

440

131

14分18秒

131 - 尚硅谷 - Spark内核 & 源码 - 环境准备 - SparkSubmit - 启动ApplicationMaster

360

132

10分20秒

132 - 尚硅谷 - Spark内核 & 源码 - 环境准备 - ApplicationMaster - 启动Driver线程

350

133

15分22秒

133 - 尚硅谷 - Spark内核 & 源码 - 环境准备 - ApplicationMaster - 启动Executor进程

430

134

17分29秒

134 - 尚硅谷 - Spark内核 & 源码 - 环境准备 - ExecutorBackend - 创建Executor计算对象

340

135

10分28秒

135 - 尚硅谷 - Spark内核 & 源码 - 环境准备 - 流程梳理

410

136

7分54秒

136 - 尚硅谷 - Spark内核 & 源码 - 通信环境 - 通信原理

360

137

12分43秒

137 - 尚硅谷 - Spark内核 & 源码 - 通信环境 - 通信组件

390

138

4分21秒

138 - 尚硅谷 - Spark内核 & 源码 - 通信环境 - 课件梳理

370

139

7分22秒

139 - 尚硅谷 - Spark内核 & 源码 - 应用程序执行 - 上下文对象SparkContext

340

140

7分25秒

140 - 尚硅谷 - Spark内核 & 源码 - 应用程序执行 - RDD依赖关系

360

141

13分44秒

141 - 尚硅谷 - Spark内核 & 源码 - 应用程序执行 - 阶段的划分

340

142

6分12秒

142 - 尚硅谷 - Spark内核 & 源码 - 应用程序执行 - 任务的切分

370

143

16分51秒

143 - 尚硅谷 - Spark内核 & 源码 - 应用程序执行 - 任务的调度

380

144

5分5秒

144 - 尚硅谷 - Spark内核 & 源码 - 应用程序执行 - 任务的执行

400

145

6分20秒

145 - 尚硅谷 - Spark内核 & 源码 - 应用程序执行 - 课件梳理

370

146

7分3秒

146 - 尚硅谷 - Spark内核 & 源码 - shuffle - 原理回顾

400

147

12分17秒

147 - 尚硅谷 - Spark内核 & 源码 - shuffle - 图解

330

148

8分15秒

148 - 尚硅谷 - Spark内核 & 源码 - shuffle - 实现过程

380

149

15分45秒

149 - 尚硅谷 - Spark内核 & 源码 - shuffle - 写流程源码解读

440

150

16分18秒

150 - 尚硅谷 - Spark内核 & 源码 - shuffle - 归并排序和读流程

260

151

5分54秒

151 - 尚硅谷 - Spark内核 & 源码 - shuffle - 课件梳理

410

152

18分50秒

152 - 尚硅谷 - Spark内核 & 源码 - 内存管理

380

153

5分35秒

153 - 尚硅谷 - SparkSQL - 介绍

410

154

2分38秒

154 - 尚硅谷 - SparkSQL - 特点

370

155

6分43秒

155 - 尚硅谷 - SparkSQL - 数据模型 - DataFrame & DataSet

470

156

7分20秒

156 - 尚硅谷 - SparkSQL - 核心编程 - DataFrame - 简单演示

380

157

10分25秒

157 - 尚硅谷 - SparkSQL - 核心编程 - DataFrame - SQL的基本使用

500

158

6分34秒

158 - 尚硅谷 - SparkSQL - 核心编程 - DataFrame - DSL语法的基本使用

440

159

7分0秒

159 - 尚硅谷 - SparkSQL - 核心编程 - DataFrame - RDD之间的转换

460

160

4分5秒

160 - 尚硅谷 - SparkSQL - 核心编程 - DataSet - 介绍

460

161

3分27秒

161 - 尚硅谷 - SparkSQL - 核心编程 - DataSet - DataFrame的转换

400

162

5分3秒

162 - 尚硅谷 - SparkSQL - 核心编程 - DataSet - RDD的转换

340

163

4分50秒

163 - 尚硅谷 - SparkSQL - 核心编程 - DataSet & DataFrame & RDD之间的关系

410

164

7分20秒

164 - 尚硅谷 - SparkSQL - 核心编程 - IDEA创建SparkSQL环境对象

370

165

7分48秒

165 - 尚硅谷 - SparkSQL - 核心编程 - IDEA - DataFrame基本操作

380

166

3分17秒

166 - 尚硅谷 - SparkSQL - 核心编程 - IDEA - DataSet基本操作

350

167

5分46秒

167 - 尚硅谷 - SparkSQL - 核心编程 - IDEA - RDD & DataFrame & DataSet互相转换

310

168

4分17秒

168 - 尚硅谷 - SparkSQL - 核心编程 - IDEA - UDF函数

340

169

5分10秒

169 - 尚硅谷 - SparkSQL - 核心编程 - IDEA - UDAF函数 - 实现原理

360

170

16分13秒

170 - 尚硅谷 - SparkSQL - 核心编程 - IDEA - UDAF函数 - 弱类型函数实现

470

171

10分57秒

171 - 尚硅谷 - SparkSQL - 核心编程 - IDEA - UDAF函数 - 强类型函数实现

390

172

6分23秒

172 - 尚硅谷 - SparkSQL - 核心编程 - IDEA - UDAF函数 - 早期强类型函数实现

420

173

3分21秒

173 - 尚硅谷 - SparkSQL - 核心编程 - IDEA - UDAF函数 - 课件梳理

380

174

6分34秒

174 - 尚硅谷 - SparkSQL - 核心编程 - 数据读取和保存 - 通用方法

380

175

8分29秒

175 - 尚硅谷 - SparkSQL - 核心编程 - 数据读取和保存 - 操作JSON & CSV

380

176

4分20秒

176 - 尚硅谷 - SparkSQL - 核心编程 - 数据读取和保存 - 操作MySQL

360

177

5分39秒

177 - 尚硅谷 - SparkSQL - 核心编程 - 数据读取和保存 - 操作内置Hive

460

178

3分52秒

178 - 尚硅谷 - SparkSQL - 核心编程 - 数据读取和保存 - 操作外置Hive

440

179

4分27秒

179 - 尚硅谷 - SparkSQL - 核心编程 - 数据读取和保存 - 代码操作外置Hive

310

180

4分14秒

180 - 尚硅谷 - SparkSQL - 核心编程 - 数据读取和保存 - beeline操作Hive

430

181

6分36秒

181 - 尚硅谷 - SparkSQL - 案例实操 - 数据准备

530

182

12分55秒

182 - 尚硅谷 - SparkSQL - 案例实操 - 需求部分实现

470

183

26分53秒

183 - 尚硅谷 - SparkSQL - 案例实操 - 需求完整实现

490

184

13分38秒

184 - 尚硅谷 - SparkSQL - 总结 - 课件梳理

380

185

9分24秒

185 - 尚硅谷 - SparkStreaming - 概念 - 介绍

430

186

10分23秒

186 - 尚硅谷 - SparkStreaming - 概念 - 原理 & 特点

370

187

14分39秒

187 - 尚硅谷 - SparkStreaming - 入门 - WordCount - 实现

400

188

3分10秒

188 - 尚硅谷 - SparkStreaming - 入门 - WordCount - 解析

400

189

2分37秒

189 - 尚硅谷 - SparkStreaming - DStream创建 - Queue

430

190

7分34秒

190 - 尚硅谷 - SparkStreaming - DStream创建 - 自定义数据采集器

320

191

3分24秒

191 - 尚硅谷 - SparkStreaming - DStream创建 - Socket数据采集器源码解读

390

192

10分50秒

192 - 尚硅谷 - SparkStreaming - DStream创建 - Kafka数据源

430

193

16分7秒

193 - 尚硅谷 - SparkStreaming - DStream转换 - 状态操作

350

194

9分5秒

194 - 尚硅谷 - SparkStreaming - DStream转换 - 无状态操作 - transform

360

195

3分58秒

195 - 尚硅谷 - SparkStreaming - DStream转换 - 无状态操作 - join

350

196

12分16秒

196 - 尚硅谷 - SparkStreaming - DStream转换 - 有状态操作 - window

370

197

8分38秒

197 - 尚硅谷 - SparkStreaming - DStream转换 - 有状态操作 - window - 补充

370

198

4分42秒

198 - 尚硅谷 - SparkStreaming - DStream输出

330

199

15分43秒

199 - 尚硅谷 - SparkStreaming - 优雅地关闭

350

200

3分29秒

200 - 尚硅谷 - SparkStreaming - 优雅地关闭 - 恢复数据

300

201

16分41秒

201 - 尚硅谷 - SparkStreaming - 案例实操 - 环境和数据准备

370

202

10分19秒

202 - 尚硅谷 - SparkStreaming - 案例实操 - 需求一 - 分析

340

203

19分27秒

203 - 尚硅谷 - SparkStreaming - 案例实操 - 需求一 - 功能实现 - 黑名单判断

270

204

16分25秒

204 - 尚硅谷 - SparkStreaming - 案例实操 - 需求一 - 功能实现 - 统计数据更新

290

205

19分29秒

205 - 尚硅谷 - SparkStreaming - 案例实操 - 需求一 - 功能实现 - 测试 & 简化 & 优化

400

206

9分25秒

206 - 尚硅谷 - SparkStreaming - 案例实操 - 需求二 - 功能实现

330

207

6分10秒

207 - 尚硅谷 - SparkStreaming - 案例实操 - 需求二 - 乱码问题

420

208

15分49秒

208 - 尚硅谷 - SparkStreaming - 案例实操 - 需求三 - 介绍 & 功能实现

300

209

9分52秒

209 - 尚硅谷 - SparkStreaming - 案例实操 - 需求三 - 效果演示

390

210

8分11秒

210 - 尚硅谷 - SparkStreaming - 总结 - 课件梳理

360

107 - 尚硅谷 - SparkCore - 核心编程 - 数据结构 -累加器 - 自定义实现

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐