文章/答案/技术大牛

发布

首页视频117 - 尚硅谷 - SparkCore - 案例实操 - 需求二 - 功能实现

117 - 尚硅谷 - SparkCore - 案例实操 - 需求二 - 功能实现

2022-12-022022-12-02 16:02:16播放36

点赞0 收藏 0

2.尚硅谷大数据学科--核心框架/尚硅谷spark教程/视频/117 - 尚硅谷 - SparkCore - 案例实操 - 需求二 - 功能实现.avi

原链接：http://www.atguigu.com/

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
好了，同学们，需求一咱们已经做完了啊，嗯，需求一咱们用了很多种方式去实现啊，咱们的功能最终的结果反正都是一致的啊，但我们这个用了不同的方式的目的，第一个是为了提高效率，第二个是为了简化开发，对吧？啊，他们说了要完美的完成嘛，对不对？但是其实你会发现，你不管怎么做，你最终实现的过程其实都离不开那个叫world count，对不对？所以啊，大家不要把那个world count想象的简单了，因为在实际的需求当中你绕不过去，其实可能啊，这个需求不能让你一眼看出来它是个word count，但是它万变不离其宗啊，诶，怎么转换最后都会包含word count，哎，这个同学们下来再体会体会好吧，嗯，需求一咱们就告一段落了，咱们接下来准备来看需求二啊，同学们。呃，需求二咱们要做什么内容呢？他说了叫top ten，热门品类中每个品类的top ten活跃session的统计，诶这个好像有一个咱们比较熟悉的东西叫top ten热门品类，这个不就是刚刚我们那个需求一它的一个结果吗？你把需求一的结果拿过来就可以了，所以啊，他说了是热门品类top ten当中的每个品类，那么就意味着这个是十个吧。
01:23
然后呢，是top ten活跃session，每个品类当中有十个活跃的session，这个session你现在可以简单的理解为用户对吧，那说明啊，在每个品类当中活跃的用户都有谁，所以啊，它是这么一个统计功能。所以咱别的不说，那其实你会发现还是我们的word count对不对，他还是要统计那个数量，活跃就是那个数量对不对，你点击的数量越多，那不就是活跃嘛，所以他说了在需求一的基础上，增加每个品类用户session的点击统计。所以啊，我这个地方就不考虑别的，就考虑点击，所以啊，咱们首先咱们只保留点击的数据，还有我要看一看你是不是在咱们的前十的热门品类当中，所以啊，咱们有这么几个要求啊，第一个我们只看点击，不看别的，第二个你的品类要在我们的top ten里面，所以咱们接下来咱们就直接来写我们的代码，那好，这里我们直接拷贝啊拷贝，嗯。
02:26
然后呢，我们我想想啊，咱们拿这个二这个拷贝吧，拷贝以后呢，我们写上一个五，然后呢，Requirement写个二，然后呢，这个地方我们去掉，咱们写上叫做什么呢？叫做session啊，咱们叫做session，嗯，好了，哎，那我现在呢，把这个呢，我们拿过来点击OK啊点击OK，然后把这个呢放到这里，放到这里之后把这个文字性的描述咱们全都不要了。然后呢，把这些东西我们全都不要了啊，但是有一个现象，什么现象呢？我需要把咱们第一个需求当中的结果呀，给它稍微的封装一下啊，否则东西太多看着可能会有点乱啊，所以我们这里写上咱们叫DEF啊，咱们就叫top ten，嗯，Top ten，我们的开GR啊。
03:13
OK，然后呢，把这个拿过来，然后把这个呢返回值呢去掉啊呃，我现在同学们看啊，我们现在就在这个位置啊，这就是我们的前十呀，所以把这个呢，我们拿过来啊，反过来。放到咱们的这里啊。好了，呃，那这个地方呢，我们的这边有个叫XRDD，那我就把这个XRD咱们拿过来呗，所以呢，咱们就写上XRDDRDD，然后呢，给它来一个啊，咱们写上一个咱们的string，嗯。好，放过来啊，放过来以后，那你的这个地方就应该返回呀，所以把这个呢去掉啊，返回好了，这个文字性的描述咱们都不要了，因为这是咱们之前写过的代码，应该没什么问题，好好好拿过来，拿过来以后这个地方我们就先不要了啊OK，那我现在干嘛呢？把这个拷贝拷贝以后点啊咱们点点了以后呢，我们叫做不对啊，写错了啊，应该是加上一个括号，然后写上一个叫X他们的RDD给它传过去，传过去以后，然后呢，我们返回一个他对不对，诶返回一个他啊，所以呢，我们写上点，我们叫VR回车，回车以后这个咱们就叫top ten啊，就是它就行了。
04:29
但是大家想一想，其实呀，我们要这么多东西吗？咱们都不要，为啥呢？我只是看我们当前的那个ID在不在这个前十里面，不要这玩意干什么都没必要，对不对，虽以然我们只要在前十里面就行了，那所以啊，大家看一下我们这个地方呢，我们可以再来写个点，咱们叫做map，然后写个下划线，点下划线一对不对，你这么写完了以后，你会发现是不是只剩下string啊，那我们根本就不需要这些东西，不需要。
05:00
你要它干嘛，就是ID，这就够了，诶所以这样的话就会好多了，咱们叫top ten，咱们叫ids，对不对，诶这样的话就够了啊好，那我写完以后，接下来咱们要干嘛呢？我们准备来做判断了，什么判断呀，我们的XRDD，我刚才说过了，首先我要的是点击数据，你不是点击，那我就不要了，所以在我们的下面的这个位置啊，写上我们的一啊，咱们叫过滤咱们的原始数据。咱们的原始数据啊呃，我这里呢，加上一个cash吧，因为如果重复使用的话，这边效率还是希望能够提高一下的，咱们的cash啊好，那么我的过滤原始数据的情况下，我们写上保留啊来保留。呃，咱们写上叫保留，保留什么呢？保留前保留我们的点击和前十啊，咱们的品类的那个ID，哎，就是这样啊好，那我们这里就直接写了，因为我们现在呢，这个数据并不难嘛，所以说我们拷贝，拷贝以后呢，我写上一个点啊，咱们叫field，这个呢，我们的每一个咱们都拿过来，咱们叫做嗯，Action。
06:14
好放过来，首先第一个咱们的分解了，咱们叫dates，然后呢，等于action点我们的split。然后写上一个我们的下划线，哎，好，那么然后呢，我们这边写上，咱们叫date式，记住啊，我们看的是那个点击，这个点击，如果我们写上啊，干嘛呢，我们写上一周串，我们叫做负一，如果你不等于负一，我要留下来对不对，哎，就是这样，但是这只是其中的一个条件，所以我们首先先判断来写上啊，咱们叫if，你先满足这个条件啊，OK，如果你不满足这个条件，那还说啥呢，直接就干嘛呀，写个force我不要。啊，你先满足它是点击数据对不对，好，然后呢，你再来看看它在不在我们的这个集合里面，所以呢，我们拿过来，拿过来以后咱们点，我们看看它是不是在咱们的这个里面，所以来我们写个六，你的这个ID在不在它的里面，如果在你保留下来，所以这样的话，我们的数据剩的就不多了啊，所以field r DD，咱们叫f action r DD吧，所以啊，在这种情况下，我们把数据给它留了下来啊，那好，那如果留下来的情况下，那我们接着呢，就往下啊来啊好，那往下的情况下，我们想一想我们要干什么呢？他就说了，他说了是我们每个品类的top ten活跃session的统计，那是不是就意味着我要根据session来做统计呢？不行，因为你同一个用户的session可能点了不同的品类，对不对，诶那你这样统计可能就不准确。
07:56
去了，那我拿品类来做统计，那不行，因为你的一个品类可能有多个session来进行点击，所以说你的这个点击的统计应该是品类和session吧，对不对，同学们这个能不能明白，所以啊，也就意味着我们现在写上啊来将啊，我们说根据吧，根据我们的品类ID和DID进行啊，我们的点击量的统计，咱们叫点击量的统计，那这个就简单了，干嘛呢，把它的结构我们变一变，嗯。
08:30
点点了以后map啊，咱们的map这个map呢，写上一个action。好，放过来，放过来以后同学们看啊，我这个地方就直接别我们直接拿过来拷贝，拷贝以后我想干嘛呢，我就这么写了啊，来括号，括号以后我写上叫date，是我们说了点击应该品类是它对不对，然后还有一个是什么呢？是我们那个sessionon，那这个session我们得去确认一下了，来咱们回来，回来以后看看咱们数据的准备啊，数据的准备那个session ID好像是012，应该是我们的二吧，所以咱们叫date啊，应该给个二，然后写上一个我们的一。
09:13
这就说明我们的这个用户在这个品类上我点击了一次，对不对，诶做了一个map，那么好，那么我们现在就可以可以给他干嘛呢，叫做reduce by key。你现在写成下划线加下划线，那么点VAR回车，回车以后你的聚合结果叫reduce r DD就是它这样的话呢，我们的品类的ID和咱们session ID就已经聚合好了。那么你聚合好了以后，诶，大家看一下我们要的是它吗？不是，他要的是每一个我们的品类中包含了我们的top ten session，所以啊，它要把品类跟这个session要独立开，所以说咱们的下面写上三啊，来将我们统计的结果啊，进行结构的转换，那么你之前的统计结果是什么呢？你之前呢，其实就是我们的品类I，还有一个叫session ID，然后还有一个就是我们的some，哎，这是我们的统计结果，但是这个统计结果我们说了不是我想要的，我想要的是结构的变化，是把品类独立出来，品类咱们的ID，然后呢，再来写上一个session的ID，再加上一个some，对不对，我们应该是这个样子的啊好，那我现在呢，来咱们写上叫reduce r DD。
10:45
咱们点啊点了以后map，嗯，那这个map呢，加一个花括号，写上一个我们的模式匹配，那这里呢，写上一个叫cid啊，咱们叫cid，然后呢叫CID，好，还有一个sum，你想要的效果是什么？你想要的效果呢？来放过来，我们写个括号，我们叫cid，然后括号叫sid，然后呢，再来个some，诶，这就是你想要的结果了，对不对，所以啊，咱们写上啊，咱们叫map r DD，好吧，同学们，那我们现在呢，就得到了我们的这个结果对不对？同学们啊，那这个结果对于我们来讲啊，其实讲那个广告那个有点像啊，就是省份广告那个是不是很像，对不对，只不过咱们这里不是省份广告，是我们的品类和那个session，对不对？好了，那我现在呢，已经把咱们的这个品类和独立开了，独立开以后，那是不是相同的品类就应该放在一起了呀？
11:45
所以来我们写成啊，咱们写个四好，咱们叫做相同的品类啊，咱们应该什么呢？给它分在一个组当中啊，咱们叫做相同的品类，咱们叫进行分组啊，进行分组那好了，那么我们map的RDD点我们叫做group啊，咱们叫做by key，那这个时候呢，我们点一下VR回车，那么这个地方呢，我们就叫group啊，咱们的RDD。
12:12
好，那我们这么写完了以后，大家看一看来，那么我们分组之后，这个就是我们的品类ID，这个是我们分组之后的集合吧。那么这个时候大家会发现这个是session，这个是我们的那个数量，我们现在要的是什么？就是活跃session就是点击的统计，而且是top ten，它也是一个数量的排行吧。所以说来我们写上。五将啊，我们分组后的数据，分组后的数据进行啊，进行什么呢？嗯，我们的这个点击量啊的一个排序啊排序，然后取咱们的前十名啊好了，那我们的group r DD，咱们叫做点啊，点了以后这里我们写上咱们叫map values，因为我们key保持不变嘛，对不对，Key保持不变，那么我们这里对它的那个集合进行我们的操作，那么这个集合本身是不可能进行我们的操操作的嘛，所以来点我们叫做to list，点我们叫做salt啊，Sort by sort by或者sort with其实都可以，因为我们就要根据我们的来下划线，我们的数量来排序对不对，那么你数量排序的话，我们是点击多的在前，所以应该会有一个我们的降序的操作，对不对，同学们，所以来点。
13:37
我们叫做int.reverse好了，那这个时候我们点叫take啊，我们的前十，我们这个时候数据不就统计出来了吗？好，那我返回，返回以后这个就是我们的。好，同学们把这个呢拿过来，拿过来以后点我们叫做collect，诶我看看啊，咱们这个地方叫做collect，然后诶，我确认一下，咱们点V啊回车，回车以后，那我这个地方我觉得咱们是不是可以直接打印了，对不对，所以啊，咱们别这么写了，直接打印得了，点我们的for it直接print。
14:15
好了，那我现在呢，把这个代码就算是写完了，其实呀，如果咱们前面给大家讲的那个省份广告的那个小案例，同学们能够明白的话，这个需求非常的类似，只不过就是前面加了一个筛选的操作，对不对，诶就是这样啊好，那我们现在呢，这边给它运行看结果。好了同学们，我们的结果已经出来了，对不对，那么结果当中这边就是我们的这个操作了。

展开

我来说两句

0 条评论

登录后参与评论

作者

腾讯云开发者课程

【合辑】尚硅谷spark教程

（117/210）

4分47秒

001 - 尚硅谷 - Spark框架 - 简介

460

7分47秒

002 - 尚硅谷 - Spark框架 - Vs Hadoop

530

2分23秒

003 - 尚硅谷 - Spark框架 - 核心模块 - 介绍

400

5分45秒

004 - 尚硅谷 - Spark框架 - 快速上手 - 开发环境准备

510

7分56秒

005 - 尚硅谷 - Spark框架 - 快速上手 - WordCount - 案例分析

440

7分6秒

006 - 尚硅谷 - Spark框架 - 快速上手 - WordCount - Spark环境

410

11分55秒

007 - 尚硅谷 - Spark框架 - 快速上手 - WordCount - 功能实现

420

8分30秒

008 - 尚硅谷 - Spark框架 - 快速上手 - WordCount - 不同的实现

470

4分23秒

009 - 尚硅谷 - Spark框架 - 快速上手 - WordCount - Spark的实现

370

3分49秒

010 - 尚硅谷 - Spark框架 - 快速上手 - WordCount - 日志和错误

440

8分10秒

011 - 尚硅谷 - Spark框架 - 运行环境 - 本地环境 - 基本配置和操作

520

3分9秒

012 - 尚硅谷 - Spark框架 - 运行环境 - 本地环境 - 提交应用程序

420

6分11秒

013 - 尚硅谷 - Spark框架 - 运行环境 - 独立部署环境 - 基本配置和操作

390

3分7秒

014 - 尚硅谷 - Spark框架 - 运行环境 - 独立部署环境 - 提交参数解析

360

4分7秒

015 - 尚硅谷 - Spark框架 - 运行环境 - 独立部署环境 - 配置历史服务

390

5分50秒

016 - 尚硅谷 - Spark框架 - 运行环境 - 独立部署环境 - 配置高可用

470

6分40秒

017 - 尚硅谷 - Spark框架 - 运行环境 - Yarn环境 - 基本配置 & 历史服务

360

11分5秒

018 - 尚硅谷 - Spark框架 - 运行环境 - Windows环境 & 总结

470

3分32秒

019 - 尚硅谷 - Spark框架 - 核心组件 - 介绍

370

3分30秒

020 - 尚硅谷 - Spark框架 - 核心概念 - Executor & Core & 并行度

410

6分59秒

021 - 尚硅谷 - Spark框架 - 核心概念 - DAG & 提交流程 & Yarn两种部署模式

410

12分47秒

022 - 尚硅谷 - SparkCore - 分布式计算模拟 - 搭建基础的架子

470

10分49秒

023 - 尚硅谷 - SparkCore - 分布式计算模拟 - 客户端向服务器发送计算任务

490

11分38秒

024 - 尚硅谷 - SparkCore - 分布式计算模拟 - 数据结构和分布式计算

460

5分30秒

025 - 尚硅谷 - SparkCore - 核心编程 - RDD - 概念介绍

380

10分10秒

026 - 尚硅谷 - SparkCore - 核心编程 - RDD - IO基本实现原理 - 1

440

8分48秒

027 - 尚硅谷 - SparkCore - 核心编程 - RDD - IO基本实现原理 - 2

450

12分23秒

028 - 尚硅谷 - SparkCore - 核心编程 - RDD - RDD和IO之间的关系

400

13分33秒

029 - 尚硅谷 - SparkCore - 核心编程 - RDD - 特点

410

11分18秒

030 - 尚硅谷 - SparkCore - 核心编程 - RDD - 五大主要配置

440

3分4秒

031 - 尚硅谷 - SparkCore - 核心编程 - RDD - 执行原理

410

11分1秒

032 - 尚硅谷 - SparkCore - 核心编程 - RDD - 创建 - 内存

400

6分27秒

033 - 尚硅谷 - SparkCore - 核心编程 - RDD - 创建 - 文件

300

4分41秒

034 - 尚硅谷 - SparkCore - 核心编程 - RDD - 创建 - 文件1

400

11分40秒

035 - 尚硅谷 - SparkCore - 核心编程 - RDD - 集合数据源 - 分区的设定

450

13分52秒

036 - 尚硅谷 - SparkCore - 核心编程 - RDD - 集合数据源 - 分区数据的分配

370

11分31秒

037 - 尚硅谷 - SparkCore - 核心编程 - RDD - 文件数据源 - 分区的设定

400

8分20秒

038 - 尚硅谷 - SparkCore - 核心编程 - RDD - 文件数据源 - 分区数据的分配

370

6分12秒

039 - 尚硅谷 - SparkCore - 核心编程 - RDD - 文件数据源 - 分区数据的分配 - 案例分析

410

7分48秒

040 - 尚硅谷 - SparkCore - 核心编程 - RDD - 算子介绍

400

7分45秒

041 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - map

440

5分10秒

042 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - map - 小功能

330

8分52秒

043 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - map - 并行计算效果演示

400

6分10秒

044 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - mapPartitions

500

3分48秒

045 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - mapPartitions - 小练习

460

2分20秒

046 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - mapPartitions & map的区别 - 完成比完美更重要

400

6分29秒

047 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - mapPartitionsWithIndex

410

5分6秒

048 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - flatMap

440

2分39秒

049 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - flatMap - 小练习

400

6分32秒

050 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - glom

380

6分47秒

051 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - 理解分区不变的含义

410

5分24秒

052 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - groupBy

390

6分0秒

053 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - groupBy - shuffle来袭

390

7分50秒

054 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - groupBy - 小练习

350

7分10秒

055 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - filter - 数据倾斜

390

16分10秒

056 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - sample - 抽奖喽

390

6分12秒

057 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - distinct

370

11分10秒

058 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - coalesce

370

7分26秒

059 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - repartition

310

6分30秒

060 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - sortBy

390

8分18秒

061 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - 交集&并集&差集&拉链

480

8分9秒

062 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - 交集&并集&差集&拉链 - 注意事项

460

10分17秒

063 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - partitionBy（前面有吸气，中间有等待）

390

5分54秒

064 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - partitionBy - 思考的问题

400

6分5秒

065 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - reduceByKey

410

4分13秒

066 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - groupByKey

420

18分56秒

067 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - groupByKey & reduceByKey的区别

440

11分8秒

068 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - aggregateByKey

490

13分28秒

069 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - aggregateByKey - 图解

380

3分53秒

070 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - foldByKey

440

8分49秒

071 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - aggregateByKey - 小练习

320

6分3秒

072 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - aggregateByKey - 小练习 - 图解

370

8分3秒

073 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - combineByKey

420

9分11秒

074 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - 聚合算子的区别

410

6分59秒

075 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - join

450

3分24秒

076 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - leftOuterJoin & rightOuterJoin

450

4分27秒

077 - 尚硅谷 - SparkCore - 核心编程 - RDD - 转换算子 - cogroup

410

18分49秒

078 - 尚硅谷 - SparkCore - 核心编程 - RDD - 案例实操 - 需求介绍 & 分析

510

6分39秒

079 - 尚硅谷 - SparkCore - 核心编程 - RDD - 案例实操 - 需求设计

440

8分17秒

080 - 尚硅谷 - SparkCore - 核心编程 - RDD - 案例实操 - 功能实现

410

4分31秒

081 - 尚硅谷 - SparkCore - 核心编程 - RDD - 行动算子 - 介绍

360

7分59秒

082 - 尚硅谷 - SparkCore - 核心编程 - RDD - 行动算子 - 算子演示

350

4分23秒

083 - 尚硅谷 - SparkCore - 核心编程 - RDD - 行动算子 - aggregate

390

4分44秒

084 - 尚硅谷 - SparkCore - 核心编程 - RDD - 行动算子 - countByKey & countByValue

410

10分15秒

085 - 尚硅谷 - SparkCore - 核心编程 - RDD - WordCount不同的实现方式 - (1-8)

430

6分2秒

086 - 尚硅谷 - SparkCore - 核心编程 - RDD - WordCount不同的实现方式 - (9-11)

410

3分40秒

087 - 尚硅谷 - SparkCore - 核心编程 - RDD - 行动算子 - save的方法

370

11分36秒

088 - 尚硅谷 - SparkCore - 核心编程 - RDD - 行动算子 - foreach

340

14分9秒

089 - 尚硅谷 - SparkCore - 核心编程 - RDD - 序列化 - 闭包检测

390

12分3秒

090 - 尚硅谷 - SparkCore - 核心编程 - RDD - 序列化 - 实际执行时的问题

350

10分5秒

091 - 尚硅谷 - SparkCore - 核心编程 - RDD - 序列化 - Kryo序列化Core介绍

370

5分16秒

092 - 尚硅谷 - SparkCore - 核心编程 - RDD - 依赖关系 - 依赖 & 血缘关系介绍

390

11分35秒

093 - 尚硅谷 - SparkCore - 核心编程 - RDD - 依赖关系 - 血缘关系 - 演示

330

11分34秒

094 - 尚硅谷 - SparkCore - 核心编程 - RDD - 依赖关系 - 宽窄依赖

410

9分40秒

095 - 尚硅谷 - SparkCore - 核心编程 - RDD - 依赖关系 - 阶段&分区&任务 - 概念解析 - 秋游了

340

11分30秒

096 - 尚硅谷 - SparkCore - 核心编程 - RDD - 依赖关系 - 阶段划分源码解读

390

8分56秒

097 - 尚硅谷 - SparkCore - 核心编程 - RDD - 依赖关系 - 任务划分源码解读

390

2分50秒

098 - 尚硅谷 - SparkCore - 核心编程 - RDD - 依赖关系 - 任务分类

390

14分45秒

099 - 尚硅谷 - SparkCore - 核心编程 - RDD - 持久化 - cache & persist基本原理和演示

380

100

5分17秒

100 - 尚硅谷 - SparkCore - 核心编程 - RDD - 持久化 - 作用

430

101

2分58秒

101 - 尚硅谷 - SparkCore - 核心编程 - RDD - 持久化 - 检查点

320

102

11分46秒

102 - 尚硅谷 - SparkCore - 核心编程 - RDD - 持久化 - 区别

370

103

9分1秒

103 - 尚硅谷 - SparkCore - 核心编程 - RDD - 分区器 - 自定义数据分区规则

340

104

4分35秒

104 - 尚硅谷 - SparkCore - 核心编程 - RDD - 文件读取与保存

350

105

15分48秒

105 - 尚硅谷 - SparkCore - 核心编程 - 数据结构 -累加器 - 原理及简单演示

350

106

3分37秒

106 - 尚硅谷 - SparkCore - 核心编程 - 数据结构 -累加器 - 问题

410

107

10分53秒

107 - 尚硅谷 - SparkCore - 核心编程 - 数据结构 -累加器 - 自定义实现

440

108

7分13秒

108 - 尚硅谷 - SparkCore - 核心编程 - 数据结构 -累加器 - 自定义实现 - 1

480

109

17分14秒

109 - 尚硅谷 - SparkCore - 核心编程 - 数据结构 - 广播变量

380

110

12分2秒

110 - 尚硅谷 - SparkCore - 案例实操 - 数据准备 & 数据说明

400

111

9分45秒

111 - 尚硅谷 - SparkCore - 案例实操 - 需求一 - 需求设计 & 思路梳理

400

112

9分53秒

112 - 尚硅谷 - SparkCore - 案例实操 - 需求一 - 功能实现 - 分别统计点击，下单，支付的数量

410

113

12分17秒

113 - 尚硅谷 - SparkCore - 案例实操 - 需求一 - 功能实现 - 合并点击，下单，支付的数量

350

114

12分16秒

114 - 尚硅谷 - SparkCore - 案例实操 - 需求一 - 功能实现 - 第二种实现方式

350

115

12分55秒

115 - 尚硅谷 - SparkCore - 案例实操 - 需求一 - 功能实现 - 第三种实现方式

300

116

18分28秒

116 - 尚硅谷 - SparkCore - 案例实操 - 需求一 - 功能实现 - 第四种实现方式

430

117

14分47秒

117 - 尚硅谷 - SparkCore - 案例实操 - 需求二 - 功能实现

360

118

3分40秒

118 - 尚硅谷 - SparkCore - 案例实操 - 需求三 - 需求介绍

420

119

19分3秒

119 - 尚硅谷 - SparkCore - 案例实操 - 需求三 - 需求分析 - 图解

470

120

5分57秒

120 - 尚硅谷 - SparkCore - 案例实操 - 需求三 - 代码实现 - 分母的计算

340

121

15分26秒

121 - 尚硅谷 - SparkCore - 案例实操 - 需求三 - 代码实现 - 分子的计算并求转换率

340

122

8分29秒

122 - 尚硅谷 - SparkCore - 案例实操 - 需求三 - 代码实现 - 优化需求

340

123

11分3秒

123 - 尚硅谷 - SparkCore - 工程化代码 - 架构模式 - 三层架构介绍

400

124

13分46秒

124 - 尚硅谷 - SparkCore - 工程化代码 - 架构模式 - 三层架构代码实现

370

125

17分47秒

125 - 尚硅谷 - SparkCore - 工程化代码 - 架构模式 - 架构代码优化

420

126

4分30秒

126 - 尚硅谷 - SparkCore - 工程化代码 - 架构模式 - ThreadLocal解释

380

127

30分8秒

127 - 尚硅谷 - SparkCore - 总结 - 课件梳理

430

128

5分36秒

128 - 尚硅谷 - Spark内核 & 源码 - 总体介绍

410

129

6分28秒

129 - 尚硅谷 - Spark内核 & 源码 - 环境准备 - SparkSubmit - 起点

430

130

13分26秒

130 - 尚硅谷 - Spark内核 & 源码 - 环境准备 - SparkSubmit - 向Yarn提交应用

440

131

14分18秒

131 - 尚硅谷 - Spark内核 & 源码 - 环境准备 - SparkSubmit - 启动ApplicationMaster

360

132

10分20秒

132 - 尚硅谷 - Spark内核 & 源码 - 环境准备 - ApplicationMaster - 启动Driver线程

350

133

15分22秒

133 - 尚硅谷 - Spark内核 & 源码 - 环境准备 - ApplicationMaster - 启动Executor进程

430

134

17分29秒

134 - 尚硅谷 - Spark内核 & 源码 - 环境准备 - ExecutorBackend - 创建Executor计算对象

340

135

10分28秒

135 - 尚硅谷 - Spark内核 & 源码 - 环境准备 - 流程梳理

410

136

7分54秒

136 - 尚硅谷 - Spark内核 & 源码 - 通信环境 - 通信原理

360

137

12分43秒

137 - 尚硅谷 - Spark内核 & 源码 - 通信环境 - 通信组件

390

138

4分21秒

138 - 尚硅谷 - Spark内核 & 源码 - 通信环境 - 课件梳理

370

139

7分22秒

139 - 尚硅谷 - Spark内核 & 源码 - 应用程序执行 - 上下文对象SparkContext

340

140

7分25秒

140 - 尚硅谷 - Spark内核 & 源码 - 应用程序执行 - RDD依赖关系

360

141

13分44秒

141 - 尚硅谷 - Spark内核 & 源码 - 应用程序执行 - 阶段的划分

340

142

6分12秒

142 - 尚硅谷 - Spark内核 & 源码 - 应用程序执行 - 任务的切分

370

143

16分51秒

143 - 尚硅谷 - Spark内核 & 源码 - 应用程序执行 - 任务的调度

380

144

5分5秒

144 - 尚硅谷 - Spark内核 & 源码 - 应用程序执行 - 任务的执行

400

145

6分20秒

145 - 尚硅谷 - Spark内核 & 源码 - 应用程序执行 - 课件梳理

370

146

7分3秒

146 - 尚硅谷 - Spark内核 & 源码 - shuffle - 原理回顾

400

147

12分17秒

147 - 尚硅谷 - Spark内核 & 源码 - shuffle - 图解

330

148

8分15秒

148 - 尚硅谷 - Spark内核 & 源码 - shuffle - 实现过程

380

149

15分45秒

149 - 尚硅谷 - Spark内核 & 源码 - shuffle - 写流程源码解读

440

150

16分18秒

150 - 尚硅谷 - Spark内核 & 源码 - shuffle - 归并排序和读流程

260

151

5分54秒

151 - 尚硅谷 - Spark内核 & 源码 - shuffle - 课件梳理

410

152

18分50秒

152 - 尚硅谷 - Spark内核 & 源码 - 内存管理

380

153

5分35秒

153 - 尚硅谷 - SparkSQL - 介绍

410

154

2分38秒

154 - 尚硅谷 - SparkSQL - 特点

370

155

6分43秒

155 - 尚硅谷 - SparkSQL - 数据模型 - DataFrame & DataSet

470

156

7分20秒

156 - 尚硅谷 - SparkSQL - 核心编程 - DataFrame - 简单演示

380

157

10分25秒

157 - 尚硅谷 - SparkSQL - 核心编程 - DataFrame - SQL的基本使用

500

158

6分34秒

158 - 尚硅谷 - SparkSQL - 核心编程 - DataFrame - DSL语法的基本使用

440

159

7分0秒

159 - 尚硅谷 - SparkSQL - 核心编程 - DataFrame - RDD之间的转换

460

160

4分5秒

160 - 尚硅谷 - SparkSQL - 核心编程 - DataSet - 介绍

460

161

3分27秒

161 - 尚硅谷 - SparkSQL - 核心编程 - DataSet - DataFrame的转换

400

162

5分3秒

162 - 尚硅谷 - SparkSQL - 核心编程 - DataSet - RDD的转换

340

163

4分50秒

163 - 尚硅谷 - SparkSQL - 核心编程 - DataSet & DataFrame & RDD之间的关系

410

164

7分20秒

164 - 尚硅谷 - SparkSQL - 核心编程 - IDEA创建SparkSQL环境对象

370

165

7分48秒

165 - 尚硅谷 - SparkSQL - 核心编程 - IDEA - DataFrame基本操作

380

166

3分17秒

166 - 尚硅谷 - SparkSQL - 核心编程 - IDEA - DataSet基本操作

350

167

5分46秒

167 - 尚硅谷 - SparkSQL - 核心编程 - IDEA - RDD & DataFrame & DataSet互相转换

310

168

4分17秒

168 - 尚硅谷 - SparkSQL - 核心编程 - IDEA - UDF函数

340

169

5分10秒

169 - 尚硅谷 - SparkSQL - 核心编程 - IDEA - UDAF函数 - 实现原理

360

170

16分13秒

170 - 尚硅谷 - SparkSQL - 核心编程 - IDEA - UDAF函数 - 弱类型函数实现

470

171

10分57秒

171 - 尚硅谷 - SparkSQL - 核心编程 - IDEA - UDAF函数 - 强类型函数实现

390

172

6分23秒

172 - 尚硅谷 - SparkSQL - 核心编程 - IDEA - UDAF函数 - 早期强类型函数实现

420

173

3分21秒

173 - 尚硅谷 - SparkSQL - 核心编程 - IDEA - UDAF函数 - 课件梳理

380

174

6分34秒

174 - 尚硅谷 - SparkSQL - 核心编程 - 数据读取和保存 - 通用方法

380

175

8分29秒

175 - 尚硅谷 - SparkSQL - 核心编程 - 数据读取和保存 - 操作JSON & CSV

380

176

4分20秒

176 - 尚硅谷 - SparkSQL - 核心编程 - 数据读取和保存 - 操作MySQL

360

177

5分39秒

177 - 尚硅谷 - SparkSQL - 核心编程 - 数据读取和保存 - 操作内置Hive

460

178

3分52秒

178 - 尚硅谷 - SparkSQL - 核心编程 - 数据读取和保存 - 操作外置Hive

440

179

4分27秒

179 - 尚硅谷 - SparkSQL - 核心编程 - 数据读取和保存 - 代码操作外置Hive

310

180

4分14秒

180 - 尚硅谷 - SparkSQL - 核心编程 - 数据读取和保存 - beeline操作Hive

430

181

6分36秒

181 - 尚硅谷 - SparkSQL - 案例实操 - 数据准备

530

182

12分55秒

182 - 尚硅谷 - SparkSQL - 案例实操 - 需求部分实现

470

183

26分53秒

183 - 尚硅谷 - SparkSQL - 案例实操 - 需求完整实现

490

184

13分38秒

184 - 尚硅谷 - SparkSQL - 总结 - 课件梳理

380

185

9分24秒

185 - 尚硅谷 - SparkStreaming - 概念 - 介绍

430

186

10分23秒

186 - 尚硅谷 - SparkStreaming - 概念 - 原理 & 特点

370

187

14分39秒

187 - 尚硅谷 - SparkStreaming - 入门 - WordCount - 实现

400

188

3分10秒

188 - 尚硅谷 - SparkStreaming - 入门 - WordCount - 解析

400

189

2分37秒

189 - 尚硅谷 - SparkStreaming - DStream创建 - Queue

430

190

7分34秒

190 - 尚硅谷 - SparkStreaming - DStream创建 - 自定义数据采集器

320

191

3分24秒

191 - 尚硅谷 - SparkStreaming - DStream创建 - Socket数据采集器源码解读

390

192

10分50秒

192 - 尚硅谷 - SparkStreaming - DStream创建 - Kafka数据源

430

193

16分7秒

193 - 尚硅谷 - SparkStreaming - DStream转换 - 状态操作

350

194

9分5秒

194 - 尚硅谷 - SparkStreaming - DStream转换 - 无状态操作 - transform

360

195

3分58秒

195 - 尚硅谷 - SparkStreaming - DStream转换 - 无状态操作 - join

350

196

12分16秒

196 - 尚硅谷 - SparkStreaming - DStream转换 - 有状态操作 - window

370

197

8分38秒

197 - 尚硅谷 - SparkStreaming - DStream转换 - 有状态操作 - window - 补充

370

198

4分42秒

198 - 尚硅谷 - SparkStreaming - DStream输出

330

199

15分43秒

199 - 尚硅谷 - SparkStreaming - 优雅地关闭

350

200

3分29秒

200 - 尚硅谷 - SparkStreaming - 优雅地关闭 - 恢复数据

300

201

16分41秒

201 - 尚硅谷 - SparkStreaming - 案例实操 - 环境和数据准备

370

202

10分19秒

202 - 尚硅谷 - SparkStreaming - 案例实操 - 需求一 - 分析

340

203

19分27秒

203 - 尚硅谷 - SparkStreaming - 案例实操 - 需求一 - 功能实现 - 黑名单判断

270

204

16分25秒

204 - 尚硅谷 - SparkStreaming - 案例实操 - 需求一 - 功能实现 - 统计数据更新

290

205

19分29秒

205 - 尚硅谷 - SparkStreaming - 案例实操 - 需求一 - 功能实现 - 测试 & 简化 & 优化

400

206

9分25秒

206 - 尚硅谷 - SparkStreaming - 案例实操 - 需求二 - 功能实现

330

207

6分10秒

207 - 尚硅谷 - SparkStreaming - 案例实操 - 需求二 - 乱码问题

420

208

15分49秒

208 - 尚硅谷 - SparkStreaming - 案例实操 - 需求三 - 介绍 & 功能实现

300

209

9分52秒

209 - 尚硅谷 - SparkStreaming - 案例实操 - 需求三 - 效果演示

390

210

8分11秒

210 - 尚硅谷 - SparkStreaming - 总结 - 课件梳理

360

117 - 尚硅谷 - SparkCore - 案例实操 - 需求二 - 功能实现

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐