文章/答案/技术大牛

发布

首页视频056 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - sample - 抽奖喽

056 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - sample - 抽奖喽

2022-12-022022-12-02 16:02:16播放39

点赞0 收藏 0

2.尚硅谷大数据学科--核心框架/尚硅谷spark教程/视频/056 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - sample - 抽奖喽.avi

原链接：http://www.atguigu.com/

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
好了，同学们，我们接下来给大家讲下面的一个，嗯方法啊，这个方法的名字呢，我们叫做simple啊，呃，这个simple呢，其实它来自于我们的古法语是吧？嗯，它有样品呢，样本的意思啊，那在咱们这个功能当中，它其实表述的是从数据源当中抽取一部分的样品数据啊，做一些我们简单的分析是这样的啊，那么简单来讲呢，就是抽取数据的意思啊，那么这个抽取数据的，嗯，其实它会有不同的抽取方式，那什么意思呢？比方说我们从一个数据源当中把数据抽取回来之后，那么你这个数据是不是还要放回到数据源当中。就好像我们抽奖一样，对吧，抽奖箱里面啊，把里面的一些比方说有十个球，那么你把这十个球呢，抽出来一个，那这个球抽完了是放不放回去，诶它是不一样的，因为如果你放回去的话，就有可能被重复的抽到，对不对，但是如果你要不放回去的话，那就不会重复抽到，对不对，所以啊，我们的抽取数据啊，它就有一个重复的概念啊，是这样的，还有一个就是你的每一个球，它有可能得有多少的概率被抽取到，这也不一定。
01:13
啊，所以说我们这个抽取数据啊，它其实它是随机的啊，它是随机的，那所以在我们的使用当中，大家可以看到我们的simple的这个方法呀，这个算子它里面有三个参数，这三个参数当中的第一个他就问你了，诶我们是不是抽取完之后放不放回去，那么这个叫with replacement就是。如果为true啊，它的值如果取true的话，就表示的是我要放回去，那如果为false的话，就示的是不放回的意思啊，然后呢，这个叫ction，这个fraction是分数分值比率的意思，对不对啊，是这么个概念啊，那么然后这个叫seed，它表述的是一个叫随机数的种子，这个咱们一会儿再给大家稍微的说一下啊来，那么我们这里呢，一块儿呢，给大家看一看，嗯。
02:00
把这个呢，我们关掉啊，咱们这个关掉，然后拷贝啊呃，拷贝以后呢，我们写上一个零八，然后呢，把这个呢，我们去掉啊，然后拿过来放到这边把这个去掉。然后这个地方呢，我们的数据啊，咱们都不要的啊，咱们都不要了。然后这个地方我写上咱们叫make r DD，然后咱们写上一数据源，然后写上一个123456789啊，写个十吧，嗯，好了，然后呢，我现在要干嘛呢？我现在要想从这十个数据里面来抽取数据，所以呢，我们写上叫做点儿啊，咱们叫simple。那么这个simple当中，我们说了它有三个参数，对不对，所以在这里咱们说明一下，咱们叫做simple。这个算子呢，需要传递三个参数，那三个参数当中的第一个参数，它表示的是我们抽取数据后是否将数据放回，那么这个数据放回当中啊，首先给个true表示放回的意思，嗯。
03:08
好了，那么如果为false呢，就表示丢弃，就是不放回的意思啊，咱们叫丢弃，嗯，好了，那所以呢，我这边可以可以给大家分别演示一下，比方说诶，我们false，那么你false的话，比方说我抽到了二，那我以后再抽的话，这个二就抽取不到了，对不对？诶就是这个意思啊，然后呢，我们接下来呢，我们再来，当然还有第二个参数，第一个参数表述的是是否会放回去，那第二个是什么意思呢？它就表述的是每条数据可能被抽取的概率，所以啊，这边比方说我写个0.4，咱们随便写的一个啊，这是个double类型嘛，所以我们给他一个这个fraction，嗯，那么第二个参数。第二个啊，我们的参数它表什么意思呢？它表示我们的数据源中，它每条数据，它被我们叫什么呢？叫每条数据被抽取的一个概率，就是这个东西啊，但是这么说其实不准确啊，为什么呢？一会儿咱们再去解释啊，就是这么说其实没有那么准确啊，好，那么我们来看一看，我们再看我们的什么来，嗯。
04:14
写上一个三，它还有第三个参数啊，第三个参数它表示什么呢？表示的是我们抽取数据时随机算法的种子，其实说白了就是随机数的种子啊，因为咱们大家都知道随机数它靠的是随机算法来实现的，对不对啊，所以说它是一个种子，说的简单点就是这个算法的第一个数，那你说有啥用啊，诶咱们一会儿再说啊，咱们先不管它，先写上一个我们的一好了，写完以后，那么这个时候就会被抽取数据对不对，所以点点了以后记住我们现在collect采集，采集之后我们这里来，我们写上一个叫for it，然后呢print，嗯。记住了同学们我诶我觉得这么写是不是不太好啊，不太好的原因呢，是因为我这个可能感觉上是诶是回航的，那所以呢，我这么写吧，咱们叫mix string，然后写成一个逗号，然后写成一个点啊，咱们叫做它，然后呢，这么写是不是会好一些呢？对吧？所以我们运行啊，看一看我们抽取数据是什么意思啊，首先这里面就有一个false，它抽取完数据它是不会放回去的，那么这样的话是不会被重新抽取的，所以他们数据是不重复的啊，咱们看一看。
05:27
大家可以看到是不是我们的一二六十呀，诶，你会发现是不是我们的数据并没有重复的对吗？所以啊，这就是我们当前所演示的效果啊，这个是我们的force，表述的是抽取数据，它不放回去，第二个零四呢，表述的是每条数据被抽取的概率，但是有的同学在这个环节他就会误会了，说老师你看那这个是0.4，这个是十条，那是不是意味着他表述的是抽取数据的百分比呢？就是你有十条，那么我就抽取四条，是不是这个意思呢？所以有的同学会误会，所以呢，我们再给大家执行一下，大家看啊，记住现在是多少幺二六十。
06:09
所以啊，咱们再给大家执行一下，让大家来体会一下是什么意思，嗯。刚才呢是幺二六十。执行以后怎么了？同学们看，诶，你会发现这个抽取数据好像抽的是一样的，那么我们再来给他看，再运行，记住啊，这是第三回运行了，第三回运行的情况下，我们看它的结果是多少。你会发现其实它的结果依然是幺二六十，哎，那这是为什么呀，其实这就是第三个参数决定的，因为当你把这个种子确定好之后，那么我们的随机数就已经确定了，那么在这种情况下，咱们这个每个数据抽取的概率就已经发生了什么诶变化了，为什么呢？因为它统一了你的种子是一样的，你们每条数据那个概率的那个随机值就被确定了，那么确定以后，那么就只可能是一二六十出来，不可能别的出来。
07:12
这是为什么呢？我们说一下啊，就是我们的第二个参数，其实有什么概念呢？有一个叫做基准值的概念啊，来咱们说一下啊，咱们叫基准值啊的概念。什么叫基准值呢？咱们举个例子啊，比方说我们考试，你考试的时候，咱们有个60分，那个60分是不是意味着及格啊，那如果你考了70是及格还是没及格，那及格了，那如果你考一个我们的65是不是也及格了，所以有的时候啊，并不会区分你具体的什么，那个值只是有个标准，有个及准对不对，所以啊，这个0.4就这种感觉啊，就这种感觉，就是说我现在给你打个分儿啊，这个分儿是诶，大于0.4还是小于0.4，那么当你大大于0.4以后，你就能够出来，当你小于0.4就出不来，对不对，就是这种感觉啊，就这种感觉，就是咱们说了嘛，是概率嘛，那概率是多少啊，比方说0.5 0.3，诶不一样，那么所以当你种子确定以后，你每个数据的那个概率就被确定好了，确定好了之后，那么只有一二六十才能出来，所以说这个种子你其实是可以不用传的，如果你传就固定了，你不传它就是随机的啊，所以来咱们说一下啊，来第三个，嗯。
08:23
那么如果啊，来写上，如果不传递第三个我们的参数，那么啊，如果不传递第三个参数的话，那么使用的啊，我们叫做当前的什么呢？系统时间啊，那么当前系统时间每次执行是不一样的嘛，所以说你把这个注掉啊。把这个给它逗号去掉啊，好了，这个值我就不要了啊，咱们暂时现在就不要了，然后呢，我们再来执行，同学们看还是0.4，但是我那个随机数种子发生了变化，拿当前的系统时间当成随机数的种子，这个时候跟刚才的结果就应该会发生变化啊。这个时候是多少，三八九十，然后呢，我们再来啊，咱们多执行几次啊，看一看效果，因为光执行那么个一两次，可能这个效果不是很明显啊。
09:11
咱们来执行一下看看啊。诶，大家有没有发现并不是那个百分比吧？啊说十条数据0.4就是四条数据出来不是吧，你看我们这里是不是就出现了三条，而且每一次好像也都不太一样，对不对？诶就是这个概念啊，所以这个0.4它是一个我们的概率啊，它是一个概率这个怎么体会呢？其实呀，大家看啊，我们点击这个点击点击完成以后，在源码当中，它其实是有判断的，就是如果这个值为false的话，它会走这么样的一个RDD这个RD当中啊，会传一个我们的这个，这个呢叫什么呢？咱们称之为叫做伯努力算法，这个伯努力呢，其实我们简单的理解为它是一种离散型的几率的分布，它是我们N等于一的时候的二项分布的特殊情况，所以它就类似于我们抛硬币，你抛硬币的话，不是正面不就反面嘛，对不对，诶所以就这么个意思啊，就是说给他一个分值来决定这个数据到底是否能够被抽取出来，就是这个概念啊，所以它有一个我们这个。
10:17
比率的概念，一个概率，嗯，好，那么除了这个以外，咱们再看，如果当前你的这个值是一个true的情况下，那么这个true的情况下，它其实用的一个算法呢，什么呢？叫做波松啊，分布的一个离散，嗯，概率分布算法，那就是这样的，所以呢，这个其实啊，是由一个法国的数学家啊提出来的，对不对，它也是用来做统计和概率学里面的一些分布的算法，这个咱们了解一下就行了，这个不是我们的重点好不好，同学们，所以后退啊，后退，后退以后回到这边来讲啊，所以我们分别的给大家演示了一下这个随机数，包括这个值的变化啊，那么接下来我们要给大家说这个false的问题了，好，这个呢，我们现在给他来拷贝，拷贝以后再来复制一下，嗯。
11:02
把这个呢，给他干嘛的注掉啊，注掉注掉以后干嘛呢？我就要改成个true，改成个true是什么意思啊，它表述的就是说我们的抽取完数据是要放回到咱们的数据源当中的啊，那这样的话，你的数据就可能被重新再抽取，对不对，那么这个时候第二个参数就有变化了啊，所以咱们这个地方说一下，我刚才说了这个地方不准确吗？为什么不准确呢？来。呃，如果我们是抽取啊，咱们叫做抽取放回啊，放回的这么场合啊，就是抽取不放回啊，抽取不放回的场合，数据源中的每条数据，它表示的是抽取的概率啊，然后呢，这边有一个基准值的一个概念啊，就是这样，但是如果它是什么呢？抽取他要什么放回的场合呢？来咱们叫做放回的场合，那么这个它表什么呢？它表示来嗯，表示我们的数据源中啊，源中的每条数据，每条数据它被啊抽取的一个什么次数。
12:12
就是你抽取的可能次数啊，就是嗯，可能次数，比方说诶，我写个二来看啊，我写个二，这个二啥意思，它表述的是每条数据可能被抽取两次，记住我说的是可能是两次，但没说一定是两次，可能一次都没有，也可能很多次，这都是有可能的啊，所以我们现在呢来这个为true，这个为二啊，那行我们运行一下看结果，嗯。看一看会得到什么样的一个结果啊。好了，大家看一下诶，有没有发现我们的一它就被抽取了两次，但是这个二就被抽取了一次，然后呢，三和四是没有被抽取到的，我们的五被抽取了两次，六被抽取了三次，这个七就很多，对不对，七是六次，八是一次九，诶所以每个数据啊，它不是说一定会被抽取到，但是呢，如果抽取到的话，它会有一个次数的概念在里面啊，所以这个呢，我们就了解一下啊，有这么一个功能，它是用来抽取数据的啊，它可能呢，就是诶抽取完数据他不放回去，有可能会重复抽取，对吧？它会底层有算法在里面啊好回过头来看课件，课件当中，其实我们这里呢，都把这个分别的写了一下，这个同学们下来呢，可以按照这个参数呢，自己设定一下试一试啊，然后呢，他说了思考一个问题有什么用啊，是不是用来抽奖啊，其实不是。
13:39
呃，当然你抽奖也可以这么用，对不对，但是其实啊，它我们一般用它怎么用呢？比方说我们可以呢，在数据倾斜的时候来使用它，为什么会产生数据倾斜呀，大家想想你之前咱们讲过，咱们之前的那个分区的数据是不是怎么啦，你分区的数据是不是都是我们均衡的呀，对不对啊，你分区数据啊，它其实是均衡的啊，它是均衡的，既然均衡的话，怎么会出现数据倾斜呢？恰恰是咱们之前讲的那个叫沙否。
14:11
因为你杀否的时候会打乱重新组合，那么大家想一想，有没有可能极限情况下所有的数据就分在了一个组当中啊，对不对？那现在你有两个分区，所有的数据都到了一个组当中，这边根本就没有数据，那是不是就数据倾斜了对不对？你的这个就根本就浪费资源了嘛，所以这种是肯定不合理的嘛，为什么呢？这个数据量特别少啊，都执行不了，而这个数据量特别的多，执行非常的慢，你的资源的利用是不合理的，那该怎么办？那是不是应该给他调整一下呀？诶，所以啊，咱们的这个simple啊，就可以判断一下到底你的数据它怎么倾斜了，举个例子，比方说相同的key放在一个我们的什么我们的主当中，对不对？比方说我们是相同的A啊，都放一个主当中，那么如果是A对不对，都放一个主当中了，那我就要想办法把这个A变了，对不对？可是你怎么知道是A导致它数据倾斜的呢？它是不是B呢？我不知道，所以啊，我现在就想办法从这个里面去抽取数据。
15:11
比方说它里面有1万条啊，我从1万条里面干嘛呢，抽取100条。我抽取100条的情况下，我发现呢，它有98个我们的A，对不对，然后呢，干嘛呢，我再抽取下个100条，我发现呢，有97个A，然后呢，我再抽取100条，诶我发现有90什么九个A，那我就有理由判断对不对，但是我可以再多次抽取嘛，我就有理由判断是不是里面的A太多了，你看我抽了这么多次，它都有大量的A，那么说明我的A太多对不对，那这个时候我就想办法在咱们处理之前呢，对这个A的这个key啊进行特殊的操作，比方说进行转换呀，让他不要重复呀，对不对，有没有什么别的办法呢？诶把它改善一下，那么这是这个时候呢，他们就不会放到一个组当中，是不是就好一些呢？所以啊，咱们抽取数据其实是在一些特殊的场合下去使用呢，好吧，同学们，这个咱们了解一下，当然了，你要说我们这个抽奖呢，其实也可以，对不对，看你怎么做了。

展开

我来说两句

0 条评论

登录后参与评论

作者

腾讯云开发者课程

【合辑】尚硅谷spark教程

（56/210）

4分47秒

001 - 尚硅谷 - Spark框架 - 简介

460

7分47秒

002 - 尚硅谷 - Spark框架 - Vs Hadoop

530

2分23秒

003 - 尚硅谷 - Spark框架 - 核心模块 - 介绍

400

5分45秒

004 - 尚硅谷 - Spark框架 - 快速上手 - 开发环境准备

510

7分56秒

005 - 尚硅谷 - Spark框架 - 快速上手 - WordCount - 案例分析

440

7分6秒

006 - 尚硅谷 - Spark框架 - 快速上手 - WordCount - Spark环境

410

11分55秒

007 - 尚硅谷 - Spark框架 - 快速上手 - WordCount - 功能实现

420

8分30秒

008 - 尚硅谷 - Spark框架 - 快速上手 - WordCount - 不同的实现

470

4分23秒

009 - 尚硅谷 - Spark框架 - 快速上手 - WordCount - Spark的实现

370

3分49秒

010 - 尚硅谷 - Spark框架 - 快速上手 - WordCount - 日志和错误

440

8分10秒

011 - 尚硅谷 - Spark框架 - 运行环境 - 本地环境 - 基本配置和操作

520

3分9秒

012 - 尚硅谷 - Spark框架 - 运行环境 - 本地环境 - 提交应用程序

420

6分11秒

013 - 尚硅谷 - Spark框架 - 运行环境 - 独立部署环境 - 基本配置和操作

390

3分7秒

014 - 尚硅谷 - Spark框架 - 运行环境 - 独立部署环境 - 提交参数解析

360

4分7秒

015 - 尚硅谷 - Spark框架 - 运行环境 - 独立部署环境 - 配置历史服务

390

5分50秒

016 - 尚硅谷 - Spark框架 - 运行环境 - 独立部署环境 - 配置高可用

470

6分40秒

017 - 尚硅谷 - Spark框架 - 运行环境 - Yarn环境 - 基本配置 & 历史服务

360

11分5秒

018 - 尚硅谷 - Spark框架 - 运行环境 - Windows环境 & 总结

470

3分32秒

019 - 尚硅谷 - Spark框架 - 核心组件 - 介绍

370

3分30秒

020 - 尚硅谷 - Spark框架 - 核心概念 - Executor & Core & 并行度

410

6分59秒

021 - 尚硅谷 - Spark框架 - 核心概念 - DAG & 提交流程 & Yarn两种部署模式

410

12分47秒

022 - 尚硅谷 - SparkCore - 分布式计算模拟 - 搭建基础的架子

470

10分49秒

023 - 尚硅谷 - SparkCore - 分布式计算模拟 - 客户端向服务器发送计算任务

490

11分38秒

024 - 尚硅谷 - SparkCore - 分布式计算模拟 - 数据结构和分布式计算

460

5分30秒

025 - 尚硅谷 - SparkCore - 核心编程 - RDD - 概念介绍

380

10分10秒

026 - 尚硅谷 - SparkCore - 核心编程 - RDD - IO基本实现原理 - 1

440

8分48秒

027 - 尚硅谷 - SparkCore - 核心编程 - RDD - IO基本实现原理 - 2

450

12分23秒

028 - 尚硅谷 - SparkCore - 核心编程 - RDD - RDD和IO之间的关系

400

13分33秒

029 - 尚硅谷 - SparkCore - 核心编程 - RDD - 特点

410

11分18秒

030 - 尚硅谷 - SparkCore - 核心编程 - RDD - 五大主要配置

440

3分4秒

031 - 尚硅谷 - SparkCore - 核心编程 - RDD - 执行原理

410

11分1秒

032 - 尚硅谷 - SparkCore - 核心编程 - RDD - 创建 - 内存

400

6分27秒

033 - 尚硅谷 - SparkCore - 核心编程 - RDD - 创建 - 文件

300

4分41秒

034 - 尚硅谷 - SparkCore - 核心编程 - RDD - 创建 - 文件1

400

11分40秒

035 - 尚硅谷 - SparkCore - 核心编程 - RDD - 集合数据源 - 分区的设定

450

13分52秒

036 - 尚硅谷 - SparkCore - 核心编程 - RDD - 集合数据源 - 分区数据的分配

370

11分31秒

037 - 尚硅谷 - SparkCore - 核心编程 - RDD - 文件数据源 - 分区的设定

400

8分20秒

038 - 尚硅谷 - SparkCore - 核心编程 - RDD - 文件数据源 - 分区数据的分配

370

6分12秒

039 - 尚硅谷 - SparkCore - 核心编程 - RDD - 文件数据源 - 分区数据的分配 - 案例分析

410

7分48秒

040 - 尚硅谷 - SparkCore - 核心编程 - RDD - 算子介绍

400

7分45秒

041 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - map

440

5分10秒

042 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - map - 小功能

330

8分52秒

043 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - map - 并行计算效果演示

400

6分10秒

044 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - mapPartitions

500

3分48秒

045 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - mapPartitions - 小练习

460

2分20秒

046 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - mapPartitions & map的区别 - 完成比完美更重要

400

6分29秒

047 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - mapPartitionsWithIndex

410

5分6秒

048 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - flatMap

440

2分39秒

049 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - flatMap - 小练习

400

6分32秒

050 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - glom

380

6分47秒

051 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - 理解分区不变的含义

410

5分24秒

052 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - groupBy

390

6分0秒

053 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - groupBy - shuffle来袭

390

7分50秒

054 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - groupBy - 小练习

350

7分10秒

055 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - filter - 数据倾斜

390

16分10秒

056 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - sample - 抽奖喽

390

6分12秒

057 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - distinct

370

11分10秒

058 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - coalesce

370

7分26秒

059 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - repartition

310

6分30秒

060 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - sortBy

390

8分18秒

061 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - 交集&并集&差集&拉链

480

8分9秒

062 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - 交集&并集&差集&拉链 - 注意事项

460

10分17秒

063 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - partitionBy（前面有吸气，中间有等待）

390

5分54秒

064 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - partitionBy - 思考的问题

400

6分5秒

065 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - reduceByKey

410

4分13秒

066 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - groupByKey

420

18分56秒

067 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - groupByKey & reduceByKey的区别

440

11分8秒

068 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - aggregateByKey

490

13分28秒

069 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - aggregateByKey - 图解

380

3分53秒

070 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - foldByKey

440

8分49秒

071 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - aggregateByKey - 小练习

320

6分3秒

072 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - aggregateByKey - 小练习 - 图解

370

8分3秒

073 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - combineByKey

420

9分11秒

074 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - 聚合算子的区别

410

6分59秒

075 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - join

450

3分24秒

076 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - leftOuterJoin & rightOuterJoin

450

4分27秒

077 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - cogroup

410

18分49秒

078 - 尚硅谷 - SparkCore - 核心编程 - RDD - 案例实操 - 需求介绍 & 分析

510

6分39秒

079 - 尚硅谷 - SparkCore - 核心编程 - RDD - 案例实操 - 需求设计

440

8分17秒

080 - 尚硅谷 - SparkCore - 核心编程 - RDD - 案例实操 - 功能实现

410

4分31秒

081 - 尚硅谷 - SparkCore - 核心编程 - RDD - 行动算子 - 介绍

360

7分59秒

082 - 尚硅谷 - SparkCore - 核心编程 - RDD - 行动算子 - 算子演示

350

4分23秒

083 - 尚硅谷 - SparkCore - 核心编程 - RDD - 行动算子 - aggregate

390

4分44秒

084 - 尚硅谷 - SparkCore - 核心编程 - RDD - 行动算子 - countByKey & countByValue

410

10分15秒

085 - 尚硅谷 - SparkCore - 核心编程 - RDD - WordCount不同的实现方式 - (1-8)

430

6分2秒

086 - 尚硅谷 - SparkCore - 核心编程 - RDD - WordCount不同的实现方式 - (9-11)

410

3分40秒

087 - 尚硅谷 - SparkCore - 核心编程 - RDD - 行动算子 - save的方法

370

11分36秒

088 - 尚硅谷 - SparkCore - 核心编程 - RDD - 行动算子 - foreach

340

14分9秒

089 - 尚硅谷 - SparkCore - 核心编程 - RDD - 序列化 - 闭包检测

390

12分3秒

090 - 尚硅谷 - SparkCore - 核心编程 - RDD - 序列化 - 实际执行时的问题

350

10分5秒

091 - 尚硅谷 - SparkCore - 核心编程 - RDD - 序列化 - Kryo序列化Core介绍

370

5分16秒

092 - 尚硅谷 - SparkCore - 核心编程 - RDD - 依赖关系 - 依赖 & 血缘关系介绍

390

11分35秒

093 - 尚硅谷 - SparkCore - 核心编程 - RDD - 依赖关系 - 血缘关系 - 演示

330

11分34秒

094 - 尚硅谷 - SparkCore - 核心编程 - RDD - 依赖关系 - 宽窄依赖

410

9分40秒

095 - 尚硅谷 - SparkCore - 核心编程 - RDD - 依赖关系 - 阶段&分区&任务 - 概念解析 - 秋游了

340

11分30秒

096 - 尚硅谷 - SparkCore - 核心编程 - RDD - 依赖关系 - 阶段划分源码解读

390

8分56秒

097 - 尚硅谷 - SparkCore - 核心编程 - RDD - 依赖关系 - 任务划分源码解读

390

2分50秒

098 - 尚硅谷 - SparkCore - 核心编程 - RDD - 依赖关系 - 任务分类

390

14分45秒

099 - 尚硅谷 - SparkCore - 核心编程 - RDD - 持久化 - cache & persist基本原理和演示

380

100

5分17秒

100 - 尚硅谷 - SparkCore - 核心编程 - RDD - 持久化 - 作用

430

101

2分58秒

101 - 尚硅谷 - SparkCore - 核心编程 - RDD - 持久化 - 检查点

320

102

11分46秒

102 - 尚硅谷 - SparkCore - 核心编程 - RDD - 持久化 - 区别

370

103

9分1秒

103 - 尚硅谷 - SparkCore - 核心编程 - RDD - 分区器 - 自定义数据分区规则

340

104

4分35秒

104 - 尚硅谷 - SparkCore - 核心编程 - RDD - 文件读取与保存

350

105

15分48秒

105 - 尚硅谷 - SparkCore - 核心编程 - 数据结构 -累加器 - 原理及简单演示

350

106

3分37秒

106 - 尚硅谷 - SparkCore - 核心编程 - 数据结构 -累加器 - 问题

410

107

10分53秒

107 - 尚硅谷 - SparkCore - 核心编程 - 数据结构 -累加器 - 自定义实现

440

108

7分13秒

108 - 尚硅谷 - SparkCore - 核心编程 - 数据结构 -累加器 - 自定义实现 - 1

480

109

17分14秒

109 - 尚硅谷 - SparkCore - 核心编程 - 数据结构 - 广播变量

380

110

12分2秒

110 - 尚硅谷 - SparkCore - 案例实操 - 数据准备 & 数据说明

400

111

9分45秒

111 - 尚硅谷 - SparkCore - 案例实操 - 需求一 - 需求设计 & 思路梳理

400

112

9分53秒

112 - 尚硅谷 - SparkCore - 案例实操 - 需求一 - 功能实现 - 分别统计点击，下单，支付的数量

410

113

12分17秒

113 - 尚硅谷 - SparkCore - 案例实操 - 需求一 - 功能实现 - 合并点击，下单，支付的数量

350

114

12分16秒

114 - 尚硅谷 - SparkCore - 案例实操 - 需求一 - 功能实现 - 第二种实现方式

350

115

12分55秒

115 - 尚硅谷 - SparkCore - 案例实操 - 需求一 - 功能实现 - 第三种实现方式

300

116

18分28秒

116 - 尚硅谷 - SparkCore - 案例实操 - 需求一 - 功能实现 - 第四种实现方式

430

117

14分47秒

117 - 尚硅谷 - SparkCore - 案例实操 - 需求二 - 功能实现

360

118

3分40秒

118 - 尚硅谷 - SparkCore - 案例实操 - 需求三 - 需求介绍

420

119

19分3秒

119 - 尚硅谷 - SparkCore - 案例实操 - 需求三 - 需求分析 - 图解

470

120

5分57秒

120 - 尚硅谷 - SparkCore - 案例实操 - 需求三 - 代码实现 - 分母的计算

340

121

15分26秒

121 - 尚硅谷 - SparkCore - 案例实操 - 需求三 - 代码实现 - 分子的计算并求转换率

340

122

8分29秒

122 - 尚硅谷 - SparkCore - 案例实操 - 需求三 - 代码实现 - 优化需求

340

123

11分3秒

123 - 尚硅谷 - SparkCore - 工程化代码 - 架构模式 - 三层架构介绍

400

124

13分46秒

124 - 尚硅谷 - SparkCore - 工程化代码 - 架构模式 - 三层架构代码实现

370

125

17分47秒

125 - 尚硅谷 - SparkCore - 工程化代码 - 架构模式 - 架构代码优化

420

126

4分30秒

126 - 尚硅谷 - SparkCore - 工程化代码 - 架构模式 - ThreadLocal解释

380

127

30分8秒

127 - 尚硅谷 - SparkCore - 总结 - 课件梳理

430

128

5分36秒

128 - 尚硅谷 - Spark内核 & 源码 - 总体介绍

410

129

6分28秒

129 - 尚硅谷 - Spark内核 & 源码 - 环境准备 - SparkSubmit - 起点

430

130

13分26秒

130 - 尚硅谷 - Spark内核 & 源码 - 环境准备 - SparkSubmit - 向Yarn提交应用

440

131

14分18秒

131 - 尚硅谷 - Spark内核 & 源码 - 环境准备 - SparkSubmit - 启动ApplicationMaster

360

132

10分20秒

132 - 尚硅谷 - Spark内核 & 源码 - 环境准备 - ApplicationMaster - 启动Driver线程

350

133

15分22秒

133 - 尚硅谷 - Spark内核 & 源码 - 环境准备 - ApplicationMaster - 启动Executor进程

430

134

17分29秒

134 - 尚硅谷 - Spark内核 & 源码 - 环境准备 - ExecutorBackend - 创建Executor计算对象

340

135

10分28秒

135 - 尚硅谷 - Spark内核 & 源码 - 环境准备 - 流程梳理

410

136

7分54秒

136 - 尚硅谷 - Spark内核 & 源码 - 通信环境 - 通信原理

360

137

12分43秒

137 - 尚硅谷 - Spark内核 & 源码 - 通信环境 - 通信组件

390

138

4分21秒

138 - 尚硅谷 - Spark内核 & 源码 - 通信环境 - 课件梳理

370

139

7分22秒

139 - 尚硅谷 - Spark内核 & 源码 - 应用程序执行 - 上下文对象SparkContext

340

140

7分25秒

140 - 尚硅谷 - Spark内核 & 源码 - 应用程序执行 - RDD依赖关系

360

141

13分44秒

141 - 尚硅谷 - Spark内核 & 源码 - 应用程序执行 - 阶段的划分

340

142

6分12秒

142 - 尚硅谷 - Spark内核 & 源码 - 应用程序执行 - 任务的切分

370

143

16分51秒

143 - 尚硅谷 - Spark内核 & 源码 - 应用程序执行 - 任务的调度

380

144

5分5秒

144 - 尚硅谷 - Spark内核 & 源码 - 应用程序执行 - 任务的执行

400

145

6分20秒

145 - 尚硅谷 - Spark内核 & 源码 - 应用程序执行 - 课件梳理

370

146

7分3秒

146 - 尚硅谷 - Spark内核 & 源码 - shuffle - 原理回顾

400

147

12分17秒

147 - 尚硅谷 - Spark内核 & 源码 - shuffle - 图解

330

148

8分15秒

148 - 尚硅谷 - Spark内核 & 源码 - shuffle - 实现过程

380

149

15分45秒

149 - 尚硅谷 - Spark内核 & 源码 - shuffle - 写流程源码解读

440

150

16分18秒

150 - 尚硅谷 - Spark内核 & 源码 - shuffle - 归并排序和读流程

260

151

5分54秒

151 - 尚硅谷 - Spark内核 & 源码 - shuffle - 课件梳理

410

152

18分50秒

152 - 尚硅谷 - Spark内核 & 源码 - 内存管理

380

153

5分35秒

153 - 尚硅谷 - SparkSQL - 介绍

410

154

2分38秒

154 - 尚硅谷 - SparkSQL - 特点

370

155

6分43秒

155 - 尚硅谷 - SparkSQL - 数据模型 - DataFrame & DataSet

470

156

7分20秒

156 - 尚硅谷 - SparkSQL - 核心编程 - DataFrame - 简单演示

380

157

10分25秒

157 - 尚硅谷 - SparkSQL - 核心编程 - DataFrame - SQL的基本使用

500

158

6分34秒

158 - 尚硅谷 - SparkSQL - 核心编程 - DataFrame - DSL语法的基本使用

440

159

7分0秒

159 - 尚硅谷 - SparkSQL - 核心编程 - DataFrame - RDD之间的转换

460

160

4分5秒

160 - 尚硅谷 - SparkSQL - 核心编程 - DataSet - 介绍

460

161

3分27秒

161 - 尚硅谷 - SparkSQL - 核心编程 - DataSet - DataFrame的转换

400

162

5分3秒

162 - 尚硅谷 - SparkSQL - 核心编程 - DataSet - RDD的转换

340

163

4分50秒

163 - 尚硅谷 - SparkSQL - 核心编程 - DataSet & DataFrame & RDD之间的关系

410

164

7分20秒

164 - 尚硅谷 - SparkSQL - 核心编程 - IDEA创建SparkSQL环境对象

370

165

7分48秒

165 - 尚硅谷 - SparkSQL - 核心编程 - IDEA - DataFrame基本操作

380

166

3分17秒

166 - 尚硅谷 - SparkSQL - 核心编程 - IDEA - DataSet基本操作

350

167

5分46秒

167 - 尚硅谷 - SparkSQL - 核心编程 - IDEA - RDD & DataFrame & DataSet互相转换

310

168

4分17秒

168 - 尚硅谷 - SparkSQL - 核心编程 - IDEA - UDF函数

340

169

5分10秒

169 - 尚硅谷 - SparkSQL - 核心编程 - IDEA - UDAF函数 - 实现原理

360

170

16分13秒

170 - 尚硅谷 - SparkSQL - 核心编程 - IDEA - UDAF函数 - 弱类型函数实现

470

171

10分57秒

171 - 尚硅谷 - SparkSQL - 核心编程 - IDEA - UDAF函数 - 强类型函数实现

390

172

6分23秒

172 - 尚硅谷 - SparkSQL - 核心编程 - IDEA - UDAF函数 - 早期强类型函数实现

420

173

3分21秒

173 - 尚硅谷 - SparkSQL - 核心编程 - IDEA - UDAF函数 - 课件梳理

380

174

6分34秒

174 - 尚硅谷 - SparkSQL - 核心编程 - 数据读取和保存 - 通用方法

380

175

8分29秒

175 - 尚硅谷 - SparkSQL - 核心编程 - 数据读取和保存 - 操作JSON & CSV

380

176

4分20秒

176 - 尚硅谷 - SparkSQL - 核心编程 - 数据读取和保存 - 操作MySQL

360

177

5分39秒

177 - 尚硅谷 - SparkSQL - 核心编程 - 数据读取和保存 - 操作内置Hive

460

178

3分52秒

178 - 尚硅谷 - SparkSQL - 核心编程 - 数据读取和保存 - 操作外置Hive

440

179

4分27秒

179 - 尚硅谷 - SparkSQL - 核心编程 - 数据读取和保存 - 代码操作外置Hive

310

180

4分14秒

180 - 尚硅谷 - SparkSQL - 核心编程 - 数据读取和保存 - beeline操作Hive

430

181

6分36秒

181 - 尚硅谷 - SparkSQL - 案例实操 - 数据准备

530

182

12分55秒

182 - 尚硅谷 - SparkSQL - 案例实操 - 需求部分实现

470

183

26分53秒

183 - 尚硅谷 - SparkSQL - 案例实操 - 需求完整实现

490

184

13分38秒

184 - 尚硅谷 - SparkSQL - 总结 - 课件梳理

380

185

9分24秒

185 - 尚硅谷 - SparkStreaming - 概念 - 介绍

430

186

10分23秒

186 - 尚硅谷 - SparkStreaming - 概念 - 原理 & 特点

370

187

14分39秒

187 - 尚硅谷 - SparkStreaming - 入门 - WordCount - 实现

400

188

3分10秒

188 - 尚硅谷 - SparkStreaming - 入门 - WordCount - 解析

400

189

2分37秒

189 - 尚硅谷 - SparkStreaming - DStream创建 - Queue

430

190

7分34秒

190 - 尚硅谷 - SparkStreaming - DStream创建 - 自定义数据采集器

320

191

3分24秒

191 - 尚硅谷 - SparkStreaming - DStream创建 - Socket数据采集器源码解读

390

192

10分50秒

192 - 尚硅谷 - SparkStreaming - DStream创建 - Kafka数据源

430

193

16分7秒

193 - 尚硅谷 - SparkStreaming - DStream转换 - 状态操作

350

194

9分5秒

194 - 尚硅谷 - SparkStreaming - DStream转换 - 无状态操作 - transform

360

195

3分58秒

195 - 尚硅谷 - SparkStreaming - DStream转换 - 无状态操作 - join

350

196

12分16秒

196 - 尚硅谷 - SparkStreaming - DStream转换 - 有状态操作 - window

370

197

8分38秒

197 - 尚硅谷 - SparkStreaming - DStream转换 - 有状态操作 - window - 补充

370

198

4分42秒

198 - 尚硅谷 - SparkStreaming - DStream输出

330

199

15分43秒

199 - 尚硅谷 - SparkStreaming - 优雅地关闭

350

200

3分29秒

200 - 尚硅谷 - SparkStreaming - 优雅地关闭 - 恢复数据

300

201

16分41秒

201 - 尚硅谷 - SparkStreaming - 案例实操 - 环境和数据准备

370

202

10分19秒

202 - 尚硅谷 - SparkStreaming - 案例实操 - 需求一 - 分析

340

203

19分27秒

203 - 尚硅谷 - SparkStreaming - 案例实操 - 需求一 - 功能实现 - 黑名单判断

270

204

16分25秒

204 - 尚硅谷 - SparkStreaming - 案例实操 - 需求一 - 功能实现 - 统计数据更新

290

205

19分29秒

205 - 尚硅谷 - SparkStreaming - 案例实操 - 需求一 - 功能实现 - 测试 & 简化 & 优化

400

206

9分25秒

206 - 尚硅谷 - SparkStreaming - 案例实操 - 需求二 - 功能实现

330

207

6分10秒

207 - 尚硅谷 - SparkStreaming - 案例实操 - 需求二 - 乱码问题

420

208

15分49秒

208 - 尚硅谷 - SparkStreaming - 案例实操 - 需求三 - 介绍 & 功能实现

300

209

9分52秒

209 - 尚硅谷 - SparkStreaming - 案例实操 - 需求三 - 效果演示

390

210

8分11秒

210 - 尚硅谷 - SparkStreaming - 总结 - 课件梳理

360

056 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - sample - 抽奖喽

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐