文章/答案/技术大牛

发布

首页视频121_尚硅谷_Scala_集合（七）_集合常用函数（五）_应用案例（二）_普通WordCount

121_尚硅谷_Scala_集合（七）_集合常用函数（五）_应用案例（二）_普通WordCount

2022-12-022022-12-02 16:02:21播放32

点赞0 收藏 0

2.尚硅谷大数据学科--核心框架/尚硅谷大数据技术之Scala（新版）/视频/121_尚硅谷_Scala_集合（七）_集合常用函数（五）_应用案例（二）_普通WordCount.mp4

原链接：http://www.atguigu.com/

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
接下来我们要介绍的是大数据处理过程当中一个非常经典非常有名的案例，那就是word count。所谓word count，其实就是要做单词计数，我们的输入呢，那是一个字符串的集合，我们就可以看成一个字符串的列表了，每一个字符串都是有很多单词组成的，那么这些单词呢，是以空格分割，我们现在呢，就是要统计所有的字符串里边出现过的相同的单词，把它们的个数都统计出来，然后呢，按照个数大小进行排序，我们统计排名前三的结果进行输出。我们完整的把这个需求如果做一个详细的分解的话，那发现整个处理流程应该是这样的，一开始输入进来的就是一个字符串的列表，那首先呢，应该把所有的字符串按照空格分割成一个一个的单词，相当于把它要打散，接下来那就是按照单词本身到底是哪个词做一个分组，得到结果呢，把分组之后的单词的个数统计出来，统计出来之后按照从大到小的顺序排序，取前三就是我们要的结果。哎，那这其实是最经典的word count需求的一个描述，我们可以把它叫做普通word count，那接下来我们在代码里边做一个具体的实现。
01:34
新建一个object s17。我们把这个叫做。Work count那方法先写出来，首先我们还是应该把对应的数据拟出来，这是一个string list。写出目前的数据类型的话，那就应该是一个list street啊，那接下来我们就直接把这个list直接放在这儿啊，我们随便写一些数据，换行写的话，这回看看的会更加的清楚一些，Word我们应该多一点重复的数据，所以哈加了。
02:29
啊，那比方说我们还可以，Hello Spark。Scla啊，因为我们知道之后我们要学习的大数据框架Spark，那它就是用scla书写的嘛，啊，那后边大家有可能会学习到的另外一个大数据框架flink，它其实也有非常丰富的scalela对应的接口啊，所以我们也可以hello ink from scalela啊，这是我们当前的数据，接下来呢，那就是要一步一步进行分析了，首先第一步当然就是对字符串并行。
03:17
切割或者切分，按照空格进行切分，把它拆开。而且我们希望应该是要。得到一个阿散。所有。恩慈。啊，列表其实就是要做一个扁平化了啊，那如果我们分布来做的话，我们可以把这个定义出来啊，比方说我们把这个叫做for list list1，那首先就是要低于string list去做一个map操作，这里边当然就是直接调用split方法，要基呃基于空格。一个分分割词进行分割，把单词全部拆开，那得到的呢？其实是一个。
04:06
String类型的array，然后构成的list啊，所以当前其实可以看到得到的结果类型啊，我们可以完整的把这些写出来是一个。一个list是里边的内容呢？呃，每一个元素都是一个string类型的数组，所以这是一个嵌套的列表，那接下来我们自然就要对它做一个打伞的处理。What list2啊，那最终我们希望得到的就是一个list string，这个操作也非常简单，因为前面的what list1直接调一个Fla方法可以了，我们可以在这里做一个测试，看一下之前的what list are是不是我们想要的A后的所有的单词，诶，这个没问题，之前我们做过类似的操作啊，那当然了，对于这一步操作呢，其实我们可以完全把它合并在一起，直接用一个简化之后的得到一个were list啊，直接用一个。
05:12
Flat map可以把它搞定，当然里边传的方法还是split于空格去做一个切割，这里边我们可以print line把它打印出来，For list，看到的结果应该是完全一样的。完全没有问题，切分开的所有的单词，那接下来呢，就是要把相同的单词。好，分组了，相同的单词进行分组，分组操作，我们想到的自然是自然是group by啊，那所以当前要做的其实是broad list，然后去做一个group，那拜什么呢？其实就是BY当前几嘛啊，那我们要传的其实还是一个函数，那这里边就是word，每一个元素都是一个word嘛，所以当前不拿它自己作为K做一个分组就可以了啊，那当然这里大家需要注意啊，尽管我们发现它也符合我们之前的定义。
06:18
参数只在后边出现一次，但是你不能直接把它改成下划线，因为下划线变成一个通配符的话，这个就这个表达含义就容易出现问题了啊，那这里边我们传进来的参数只有一个通配符，下划线编译器会容易出现混淆，所以这里边大家不能做省略啊，把它的这个完整的写出来，然后接下来我们可以每一步都打印，看一下当前的结果到底是什么，我们可以把这个做一个定义啊，对应的类型也写出来，得到的其实是一个map的key呢，是当前的word作为当前的这个键值分组的这个标志组名而得到的。Value，那就是所有的当前的这个word啊，构成的一个list啊，这是我们当前得到的一个，可以把它叫做。
07:10
Group map。把Google map做一个打印输出。我们看到就是这样的，当前word这一组里边只有一个word flink里边只有一个flink，哎，那Spark里边呢，只有一个Spark sc里边，哎，这个很多，三个scla，另外from还有两个，Hello，哎，这里有五个，这个最多，所以接下来我们要干的是什么事呢？其实就是把每一个list里边到底出现了几个，要做一个个数的统计嘛，哎，所以这个统计的话其实非常简单，这不就是把当前的这个。List要做一个取它的size或者取它的length就可以了吗？那当前我们就是第三步，我们是要对分组之后啊。
08:05
List取。长度得到每个单词啊个数，那这里简单的想法，那就是做一个map操作了，Map可以通用进行转换嘛，那这里边map本身每一个都是一个KV，我们想把它转换成什么呢？简单来讲的话，我们当前的这个KV，当前的这个K啊单词你不想把它改变，我们想得到的是一个二元组，就是一个单词。对应着一个它的个数，哎，那所以这里边我们干脆就直接二元组，不是小括号括起来的吗？那就直接用kVA点下划线一还是作为改变之后我们的对应的这个二元组，因为之前map里边这个KY6对就相当于是二元组嘛，啊，那我们还是把它放在这儿，接下来呢，原先的KV的第二个元素这个list，我们是要取它对应的那个长度。
09:12
哎，所以就是直接拿length就完事了，那得到的呢？呃注大家需要注意，就是当前做转换之后得到的类型。还是一个map，只不过当前的map就已经变成了string作为K，而它的value就变成了一个int，就是我们的对应的那个word的。Count值了它的个数出现的个数了，所以我们可以把这个叫做count map。有了这个值之后，接下来其实就是要根据对count值进行排序了，但是我们想排序的这个操作，之前我们讲的时候是只能针对list进行调用，诶，所以我们要对这个map做一个转换，其实这个非常简单，因为我们知道map里边的元素就相当于是一个一个元组类型的这样的一个集合嘛，哎，那么我们把TY都是看成元组的话，Map很容易就可以转换成一个元组类型的list列表，下一步字幕那就是被将map返换为list in排序取前三，因为转换之后这个排序取前三就非常简单了啊呃，用最简单的那些操作就直接可以搞定。
10:31
所以接下来我们要做的就是得到的是一个。Out list它的类型我们希望的那就是一个list里边元素是一个二元组string in，一个word，一个count，一个word，一个count啊，那里边的转换过程呢，当然就是count首先转换成list，怎么转？
11:00
也有一个to list的方法，先把它转换成list，然后接下来呢，要做一个排序，这里需要注意的是，我们排序是按照它的第二个元素，呃，首先大家想到按照第二个元素，那我们可以那个thought by嘛，但是后边我们还要做一个降序处理，所以最简单的方式其实是salt with salt with，我们要按照当前的元素，就是如果本身自己去处理的话，大家还记得之前是直接按一个这个大于号就可以了，对吧，现在呢，不是自己能够大于的，当前我们是一个元组类型嘛，那怎么办呢？哎，取它的下划线二。做一个余号表示，是以它的第二个元素这个字段countt值做一个降序的排列，所以这个实现其实非常简单的，最后我们还可以直接take，嗯，当前列表里边的前三名就可以了。
12:00
就是我们最后得到的结果啊，Outlist可以做一个打印输出，我们看看效果是什么样的。大家看到最后得到的就是前三名哈，有五个skyla有三个，From有两个，这就是我们最终统计出来的workout。

展开

我来说两句

0 条评论

登录后参与评论

作者

腾讯云开发者课程

【合辑】尚硅谷大数据技术之Scala（新版）

（121/143）

9分26秒

001_尚硅谷_Scala_课程简介

480

9分25秒

002_尚硅谷_Scala_Scala概述（一）_Scala发展历史

390

6分57秒

003_尚硅谷_Scala_Scala概述（二）_Scala和Java的关系

400

5分40秒

004_尚硅谷_Scala_Scala概述（三）_Scala特点总结

330

9分44秒

005_尚硅谷_Scala_Scala环境搭建（一）_Scala安装和交互式命令行测试

360

10分20秒

006_尚硅谷_Scala_Scala环境搭建（二）_Scala源文件编写和运行

420

15分46秒

007_尚硅谷_Scala_Scala环境搭建（三）_Scala编译结果的反编译深入分析

410

6分49秒

008_尚硅谷_Scala_在IDE中编写HelloWorld（一）_项目创建和环境配置

340

4分33秒

009_尚硅谷_Scala_在IDE中编写HelloWorld（二）_编写代码

390

5分23秒

010_尚硅谷_Scala_在IDE中编写HelloWorld（三）_代码中语法的简单说明

330

22分58秒

011_尚硅谷_Scala_在IDE中编写HelloWorld（四）_伴生对象的扩展说明

320

2分41秒

012_尚硅谷_Scala_在IDE中编写HelloWorld（五）_关联源码和查看官方指南

410

6分56秒

013_尚硅谷_Scala_变量和数据类型（一）_注释和基本编程习惯

320

16分47秒

014_尚硅谷_Scala_变量和数据类型（二）_变量和常量

410

10分5秒

015_尚硅谷_Scala_变量和数据类型（三）_标识符

310

21分4秒

016_尚硅谷_Scala_变量和数据类型（四）_字符串

390

3分51秒

017_尚硅谷_Scala_变量和数据类型（五）_控制台标准输入

350

7分3秒

018_尚硅谷_Scala_变量和数据类型（六）_读写文件

320

13分44秒

019_尚硅谷_Scala_变量和数据类型（七）_数据类型系统

370

18分43秒

020_尚硅谷_Scala_变量和数据类型（八）_整型和浮点类型

360

10分19秒

021_尚硅谷_Scala_变量和数据类型（九）_字符和布尔类型

410

14分33秒

022_尚硅谷_Scala_变量和数据类型（十）_空类型

310

4分52秒

023_尚硅谷_Scala_变量和数据类型（十一）_Unit类型的源码实现

330

7分20秒

024_尚硅谷_Scala_变量和数据类型（十二）_类型转换（一）_Java类型转换复习

420

13分7秒

025_尚硅谷_Scala_变量和数据类型（十二）_类型转换（三）_Scala自动类型转换

310

12分2秒

026_尚硅谷_Scala_变量和数据类型（十二）_类型转换（四）_Scala强制类型转换

410

9分22秒

027_尚硅谷_Scala_变量和数据类型（十二）_类型转换（五）_强转溢出面试题

240

9分4秒

028_尚硅谷_Scala_运算符（一）_算术运算符

370

9分25秒

029_尚硅谷_Scala_运算符（二）_比较运算符

310

14分36秒

030_尚硅谷_Scala_运算符（三）_逻辑运算符

400

15分13秒

031_尚硅谷_Scala_运算符（四）_赋值运算符

330

18分3秒

032_尚硅谷_Scala_运算符（五）_位运算符

340

9分3秒

033_尚硅谷_Scala_运算符（六）_运算符的本质

380

12分6秒

034_尚硅谷_Scala_流程控制（一）_条件分支（一）_If-Else常规用法

350

13分48秒

035_尚硅谷_Scala_流程控制（一）_条件分支（二）_If-Else的返回值

390

4分45秒

036_尚硅谷_Scala_流程控制（一）_条件分支（三）_嵌套分支

330

12分27秒

037_尚硅谷_Scala_流程控制（二）_For循环（一）_范围遍历

340

7分38秒

038_尚硅谷_Scala_流程控制（二）_For循环（二）_不包含边界的范围遍历

410

3分17秒

039_尚硅谷_Scala_流程控制（二）_For循环（三）_集合遍历

390

4分41秒

040_尚硅谷_Scala_流程控制（二）_For循环（四）_循环守卫

420

14分9秒

041_尚硅谷_Scala_流程控制（二）_For循环（五）_循环步长

390

10分34秒

042_尚硅谷_Scala_流程控制（二）_For循环（六）_循环嵌套

360

4分57秒

043_尚硅谷_Scala_流程控制（二）_For循环（七）_循环引入变量

420

11分3秒

044_尚硅谷_Scala_流程控制（二）_For循环（八）_练习_输出九层妖塔

450

10分20秒

045_尚硅谷_Scala_流程控制（二）_For循环（九）_for循环返回值

380

6分6秒

046_尚硅谷_Scala_流程控制（三）_While循环

330

12分4秒

047_尚硅谷_Scala_流程控制（四）_循环中断

380

15分11秒

048_尚硅谷_Scala_函数式编程（一）_函数式编程思想

370

13分12秒

049_尚硅谷_Scala_函数式编程（二）_函数基础（一）_函数和方法

330

10分3秒

050_尚硅谷_Scala_函数式编程（二）_函数基础（二）_函数定义

400

12分38秒

051_尚硅谷_Scala_函数式编程（二）_函数基础（三）_函数参数特殊用法

260

18分56秒

052_尚硅谷_Scala_函数式编程（二）_函数基础（四）_函数至简原则

370

16分9秒

053_尚硅谷_Scala_函数式编程（三）_函数高级（一）_匿名函数（一）_概念及简化规则

330

11分21秒

054_尚硅谷_Scala_函数式编程（三）_函数高级（一）_匿名函数（二）_示例

370

11分41秒

055_尚硅谷_Scala_函数式编程（三）_函数高级（二）_高阶函数（一）_函数作为值传递

310

4分34秒

056_尚硅谷_Scala_函数式编程（三）_函数高级（二）_高阶函数（二）_函数作为参数传递

360

5分55秒

057_尚硅谷_Scala_函数式编程（三）_函数高级（二）_高阶函数（三）_函数作为返回值

360

12分58秒

058_尚硅谷_Scala_函数式编程（三）_函数高级（二）_高阶函数（四）_应用案例

390

4分48秒

059_尚硅谷_Scala_函数式编程（三）_函数高级（三）_扩展练习（一）_匿名函数

420

13分50秒

060_尚硅谷_Scala_函数式编程（三）_函数高级（三）_扩展练习（二）_函数作为返回值

340

10分52秒

061_尚硅谷_Scala_函数式编程（三）_函数高级（四）_闭包（一）_概念和原理

400

17分54秒

062_尚硅谷_Scala_函数式编程（三）_函数高级（四）_闭包（二）_具体应用

380

6分16秒

063_尚硅谷_Scala_函数式编程（三）_函数高级（四）_柯里化

390

10分19秒

064_尚硅谷_Scala_函数式编程（三）_函数高级（五）_递归（一）_概念和实现

340

17分49秒

065_尚硅谷_Scala_函数式编程（三）_函数高级（五）_递归（二）_尾递归优化

310

4分34秒

066_尚硅谷_Scala_函数式编程（三）_函数高级（六）_控制抽象（一）_传值参数

350

8分51秒

067_尚硅谷_Scala_函数式编程（三）_函数高级（六）_控制抽象（二）_传名参数

480

16分34秒

068_尚硅谷_Scala_函数式编程（三）_函数高级（六）_控制抽象（三）_自定义While循环

310

6分33秒

069_尚硅谷_Scala_函数式编程（三）_函数高级（七）_惰性加载

400

14分52秒

070_尚硅谷_Scala_面向对象（一）_包（一）_声明和访问

390

8分47秒

071_尚硅谷_Scala_面向对象（一）_包（二）_包对象

310

7分6秒

072_尚硅谷_Scala_面向对象（一）_包（三）_导包说明

350

12分7秒

073_尚硅谷_Scala_面向对象（二）_类和对象

340

16分2秒

074_尚硅谷_Scala_面向对象（三）_封装（一）_访问权限

340

17分32秒

075_尚硅谷_Scala_面向对象（三）_封装（二）_构造器

320

18分46秒

076_尚硅谷_Scala_面向对象（三）_封装（三）_构造器参数

350

15分31秒

077_尚硅谷_Scala_面向对象（四）_继承

370

15分10秒

078_尚硅谷_Scala_面向对象（五）_多态

340

13分33秒

079_尚硅谷_Scala_面向对象（六）_抽象类（一）_抽象属性和方法

340

3分37秒

080_尚硅谷_Scala_面向对象（六）_抽象类（二）_匿名子类

360

15分18秒

081_尚硅谷_Scala_面向对象（七）_伴生对象（一）_概念和应用

290

8分18秒

082_尚硅谷_Scala_面向对象（七）_伴生对象（二）_单例设计模式

440

18分55秒

083_尚硅谷_Scala_面向对象（八）_特质（一）_基本概念和用法

300

11分22秒

084_尚硅谷_Scala_面向对象（八）_特质（二）_特质的混入

330

6分24秒

085_尚硅谷_Scala_面向对象（八）_特质（三）_特质的叠加

350

13分51秒

086_尚硅谷_Scala_面向对象（八）_特质（四）_钻石问题的特质叠加

390

3分41秒

087_尚硅谷_Scala_面向对象（八）_特质（五）_特质和抽象类的区别

380

8分32秒

088_尚硅谷_Scala_面向对象（八）_特质（六）_自身类型

260

11分58秒

089_尚硅谷_Scala_面向对象（九）_扩展内容（一）_类型检测和转换

340

6分17秒

090_尚硅谷_Scala_面向对象（九）_扩展内容（二）_枚举类和应用类

310

22分36秒

091_尚硅谷_Scala_集合（一）_集合类型系统

300

9分37秒

092_尚硅谷_Scala_集合（二）_数组（一）_不可变数组（一）_创建数组

380

8分7秒

093_尚硅谷_Scala_集合（二）_数组（一）_不可变数组（二）_访问和修改元素

420

12分26秒

094_尚硅谷_Scala_集合（二）_数组（一）_不可变数组（三）_遍历数组

330

10分19秒

095_尚硅谷_Scala_集合（二）_数组（一）_不可变数组（四）_添加元素

330

7分45秒

096_尚硅谷_Scala_集合（二）_数组（二）_可变数组（一）_创建数组

390

1分49秒

097_尚硅谷_Scala_集合（二）_数组（二）_可变数组（二）_访问数组元素

420

14分31秒

098_尚硅谷_Scala_集合（二）_数组（二）_可变数组（三）_添加元素

340

3分8秒

099_尚硅谷_Scala_集合（二）_数组（二）_可变数组（四）_删除元素

320

100

5分14秒

100_尚硅谷_Scala_集合（二）_数组（三）_可变数组与不可变数组的转化

450

101

11分43秒

101_尚硅谷_Scala_集合（二）_数组（四）_多维数组

250

102

7分32秒

102_尚硅谷_Scala_集合（三）_列表（一）_不可变列表（一）_创建列表

320

103

2分46秒

103_尚硅谷_Scala_集合（三）_列表（一）_不可变列表（二）_访问和遍历元素

350

104

9分12秒

104_尚硅谷_Scala_集合（三）_列表（一）_不可变列表（三）_添加元素

380

105

4分52秒

105_尚硅谷_Scala_集合（三）_列表（一）_不可变列表（四）_合并列表

440

106

12分33秒

106_尚硅谷_Scala_集合（三）_列表（二）_可变列表

360

107

9分23秒

107_尚硅谷_Scala_集合（四）_Set集合（一）_不可变Set

390

108

12分32秒

108_尚硅谷_Scala_集合（四）_Set集合（二）_可变Set

350

109

17分6秒

109_尚硅谷_Scala_集合（五）_Map集合（一）_不可变Map

320

110

17分14秒

110_尚硅谷_Scala_集合（五）_Map集合（二）_可变Map

410

111

13分20秒

111_尚硅谷_Scala_集合（六）_元组

390

112

7分22秒

112_尚硅谷_Scala_集合（七）_集合常用函数（一）_通用属性和操作

420

113

10分42秒

113_尚硅谷_Scala_集合（七）_集合常用函数（二）_衍生集合（一）_单一集合操作

360

114

15分30秒

114_尚硅谷_Scala_集合（七）_集合常用函数（二）_衍生集合（二）_两个集合操作

380

115

20分22秒

115_尚硅谷_Scala_集合（七）_集合常用函数（三）_简单计算函数

370

116

5分50秒

116_尚硅谷_Scala_集合（七）_集合常用函数（四）_高级计算函数（一）_简介

370

117

23分45秒

117_尚硅谷_Scala_集合（七）_集合常用函数（四）_高级计算函数（二）_集合转换操作（Map类）

460

118

11分25秒

118_尚硅谷_Scala_集合（七）_集合常用函数（四）_高级计算函数（三）_集合转换操作（Reduce）

280

119

10分43秒

119_尚硅谷_Scala_集合（七）_集合常用函数（四）_高级计算函数（四）_集合转换操作（Fold）

440

120

10分38秒

120_尚硅谷_Scala_集合（七）_集合常用函数（五）_应用案例（一）_合并Map

330

121

12分21秒

121_尚硅谷_Scala_集合（七）_集合常用函数（五）_应用案例（二）_普通WordCount

320

122

22分35秒

122_尚硅谷_Scala_集合（七）_集合常用函数（五）_应用案例（三）_复杂WordCount

330

123

7分47秒

123_尚硅谷_Scala_集合（八）_队列Queue

390

124

4分40秒

124_尚硅谷_Scala_集合（九）_并行集合

370

125

10分47秒

125_尚硅谷_Scala_模式匹配（一）_基本概念和用法

330

126

4分21秒

126_尚硅谷_Scala_模式匹配（二）_模式守卫

400

127

6分3秒

127_尚硅谷_Scala_模式匹配（三）_模式匹配的不同用法（一）_匹配常量

410

128

7分12秒

128_尚硅谷_Scala_模式匹配（三）_模式匹配的不同用法（二）_匹配类型

350

129

7分59秒

129_尚硅谷_Scala_模式匹配（三）_模式匹配的不同用法（三）_匹配数组

360

130

8分55秒

130_尚硅谷_Scala_模式匹配（三）_模式匹配的不同用法（四）_匹配列表

360

131

6分20秒

131_尚硅谷_Scala_模式匹配（三）_模式匹配的不同用法（五）_匹配元组（一）_基本用法

360

132

5分49秒

132_尚硅谷_Scala_模式匹配（三）_模式匹配的不同用法（五）_匹配元组（二）_变量声明

320

133

7分30秒

133_尚硅谷_Scala_模式匹配（三）_模式匹配的不同用法（五）_匹配元组（三）_for推导式中变量

410

134

10分15秒

134_尚硅谷_Scala_模式匹配（三）_模式匹配的不同用法（六）_匹配对象

400

135

4分4秒

135_尚硅谷_Scala_模式匹配（三）_模式匹配的不同用法（七）_样例类

360

136

15分49秒

136_尚硅谷_Scala_模式匹配（四）_偏函数

310

137

8分13秒

137_尚硅谷_Scala_异常处理

310

138

6分53秒

138_尚硅谷_Scala_隐式转换（一）_基本概念和类型

380

139

7分57秒

139_尚硅谷_Scala_隐式转换（二）_隐式函数和隐式类

340

140

9分38秒

140_尚硅谷_Scala_隐式转换（三）_隐式参数

350

141

5分56秒

141_尚硅谷_Scala_泛型（一）_概念和意义

280

142

6分39秒

142_尚硅谷_Scala_泛型（二）_逆变和协变

260

143

6分14秒

143_尚硅谷_Scala_泛型（三）_上下限

410

121_尚硅谷_Scala_集合（七）_集合常用函数（五）_应用案例（二）_普通WordCount

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐