文章/答案/技术大牛

发布

首页视频【直播回放260126】大数据计算引擎Spark

【直播回放260126】大数据计算引擎Spark原创

2026-01-272026-01-27 11:19:10播放2.9K

点赞0 收藏 0

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:00
好，咱们现在的时间是晚上的这个八点半，那么咱们就开始今天晚上的这个学习，那么今天晚上呢，咱们着重来给大家介绍一下大数据的计算引擎18课的相关的知识，那么咱们希望通过今天晚上的这个直播，能够为大家后续深入学习大数据技术，尤其是学习我们的10SPARK呢奠定一个基础，因为整个大数据体系里面，它包含很多的组件，比如说在大数据生态里面呢，它包含我们的什么哈杜普生态圈，10巴克生态圈，弗link生态圈，卡夫卡也包含了我们的什么这个lowcy Co的什么数据库，那如果说大家对大数据体系没有一个初步了解的话，那么是不励咱们后面的进一步学习，那么这个地方顺便体下，如果说大家后续要系统的去学习大数据基础以外，那那。
01:00
除了赵老师在这里呢，给大家列举出来的这些东西以外，那么最好呢，再去学习一下我们的就什么do com, 还有我们的K80，嗯，好，这个地方咱们稍微解释一下，那么咱们为什么在学习大数据的时候，那么需要学习我们的do com, 还有我们的K8S10呢？因为我们可以把大数据的什么计算引擎，比如说你能够把你的什么这个10SPARKCOM或者是flicom部署在dock或者是K8S的容器当中，那么通过使用这样的一种方式，我们就能够集成我们的大数据体系，还有云原生体系，那么这句话呢，我再重复一遍，那么如果说大家后续我们要系统的去学习大数据的基础的话，那么最好呢，再去学习一下我们的docker，还有K8S，因为呢，我们可以把大数据的计算引擎，比如说我们的18COM，还有flink呢，部署在docker或者是K8S容器当中。
02:00
通通过使用这样的一种方式，我们就能够集成我们的大数对体性，还有云原生体性，那么关于docker和K8他的知识呢，赵老师会放到后续的直播课里面，单独的来给大家进行相关的这个介绍，大家之前哈听过赵老师的课程，那么应该都知道赵老师呢，在上课的这个过程当中，会给大家记录这样的一个什么课堂的笔记，通过记录这样的一个课堂笔记，我们会把课程里面比较重要的知识给大家记录下来，因此呢，今天晚上。咱们也会按照同样的这种方式来给大家记录一个课堂笔记，重点给大家介绍以下三个方面的知识，首先咱们需要对18课的一些基本知识要有一个初步了解，到底什么是我们的18课，它有哪些特点，那么整个斯巴克集群它的一个体系加构，那么又是什么样子的啊么体系加构是这里面呢最重要的一个部分，因为呢，只有把体系加构掌握以后，后面咱们去安装部署斯Spark集群，管理和维护斯Spark集群，这些呢都是以这个什么体系架构为主基础，当你把整个集群部署好以后，那么我们在10SPA克里面呢，它提供了什么相应的客户端工具，通过使用这样的什么客户端工具，我们能够把我们的18g任务呢，提交到18个集群上去运行，那通过咱们稍后的学。
03:38
题大家会了解到，那么我们在18课里面呢，主要有两个客户端工具，先把他们名字写在咱们的这这个地方，首先10SPARK里面呢，它所提供的第一个客户端工具叫做我们的嘛，叫做我们的10SPARK坑submit，那这个10SPARK submit呢，是一个客户端工具，通过使用这样的一个什么客户端工具，我们能够提交一个什么价包，提交个任务呢，直接提交到集群上去运行，因此呢，这一种客户端工具它多用于我们的什么生产的环境，好这个呢，是它所提供的第一个客户端工具，它所提供的什么第二个客户端工具是我们的嘛，这个18颗秀啊，那么什么叫18秀呢？它是一个交互式的命令航空工具，那么在这样的一个什么交互式命令行工具里面，我们能够直接书写我们的SC拉语言，然后呢，去开发我们的什么计算。
04:38
任务啊，那么咱们通过稍后的学习，大家会进一步了解到，那这个18个线呢，它有什么，它有两种运行模式哈，要写一下它有两种运行模式，哪两种模式呢？第一种运行模式我们可以把它运行在我们的吗？本地模式上，好，它的第二种运行模式，我们能够把它运行在我们的把集群模式上，那如何使用18RK西的什么呢？本地模式包括集群模式呢，稍后呢。
05:09
咱们会通过DEMO也是让大家能够有一个感性认识，那么有了前面的这些接触以后，后续大家在深入的去学习有关10巴克的知识的时候呢，重点就需要去学习到底什么是10巴克的，什么RDDM，那么这地一方问一下对直播间同学们，如果大家知道这个RDD的什么中文含义，你能不能够把它发送到咱们的公屏之上，如果说大家不了解呢，就请给赵老师呢回复一个0啊，这个呢是整个18课里面它最重要的一个什么数据模型，那么放到最后呢，来给大家进行相关的这个介绍，还因此呢，我们介绍到这个地方的时候。赵老师呢，就带着大家去梳理了一下，我们在今天晚上将会学习到哪些知识，好咱们现在呢，咱们就按照这样的一个顺序来给大家进行相关的这个介绍，首先咱们介绍第一个部分，十巴克的一些基础知识，包括它的什么体系架构，那首先咱们需要知道目前哈，我们在整个的大数据体系里面对主要的什么计算引擎啊，大数据是什么计算引擎主要有两个，那一个呢，是我们的嘛，这个18g，另外一个呢，是我们的嘛，Fli克，这两个呢，是目前我们在大数据体系里面主要的什么计算引擎，那么这两个计算引擎它们有什么区别呢？简单来做个介绍么？这个48g呢，它在我们大数据据体器里面呢，它是一个什么离线计算的计算引擎。那么换句话去说，你在。
06:55
10SPARK里面你所执行的什么所有的计算都是离线计算，因此呢，10SPARK克它里面呢，并不存在真正的实时计算，所有18g计算都是离线计算，那么因此呢，我们就不能够把这个什么18g，或者说18g里面的那个18g居呢用于实时性场景非常高的情况下，因为这个里面的所有计算都是属于离线计算，好这个呢是整个大数具体性里面，它所提供的第一个计算引擎，那么它所提供的什么第二个计算引擎是我们的flink，那么这个flink呢，它是属于大数据体系里面的什么实时计算引擎，那我们在是我们在flink里面所有的计算都是真正的什么实时计算，因此总结一下，就是你的这个10SPARK呢偏向离线计算，Flink呢偏向实时，那么了解。
07:55
到了什么这两种计算引擎的特点以后呢，那么就可以为我们以后的什么技术选型，那么做一个参考，那关于这个弗link的么，更加系统知识，赵老师呢，会放到后续的这个直播课里面来给大家进行相关的这个介绍啊，那么这个地方给大家一个小小的一个建议啊，那么大家在学习这个10SPA课学习flink之前，赵老师呢，建议大家最好呢，先学习一下我们的什么这个ma producedu, 你尽管目前在大数据体系里面很少会在直接的去开发我们的map produce程讯，但是呢，My produce的什么思想和原领非常的重要，它采用这样的一种先拆分再合并的方式，那么就能够解决大数据的什么计算题，计算题，而这种先拆分再合并的式。
08:55
我想也被借鉴到了我们的10巴课，还有这个弗林课当中，因此呢，这句话我再重复一遍，如果说大家后续你要去系统的去学习呢，有关18课，有关flink的知识，赵老师呢，强烈建议各位同学你一定呢先学习一下什么是我们的马Du，是啊，对好，这些基础知识给大家讲完以后呢么到底什么是我们的10SPARK呢？那么你要学习10SPARK的话，首先咱们可以到他的么它的官方网站上去看一下，那么在官方网站上它是如何介绍的这个斯Spark，那好打开咱们的浏览器，访问一下Spark官网，那就是Spark，点阿帕琴点R进那官方网站上面的啥这个地方的第一句话，他就告诉了我们到底什么是我们的这个18课，对好，我们去把这句话去给他什么拷贝下来，放到咱们。
09:55
的课堂笔记上，但我们一起来阅读一下，从这一句话里面，我们能够获取到那相相关的信息啊，就是官方网站上面的对吗？这个其实啊，就这个。
10:07
太小了，拷不过来，好，那么就直接在这个地方看嘛，好稍微来给它放大一点点呢，官方网站上是如何介绍呢？他说这个18g它是个什么，它是一个multi language engine, 它是一个什么呢？多语言引擎，那么换一句话去说，我们在斯Spark里面，它就支持多种编程语言，当然了官方推荐使用我们的斯SC拉，当然由于斯SC拉本身它是基于Java语言之上，因此呢，你在Spark里面呢，开发Java也没问题，包括呢，支持s com Python r语言都可以，这些它都体现出了它是一个什么，它是一个多语言引擎，那我们使用这样的一个什么多语言引擎，能够去执行我们的data engineering, 数据工程，Data science, 数据科学，还有machine learninging什么的机器学习，那么简单来说就是我们能够使用。
11:07
Spark拉进行数据的什么处理好这个地方我们需要单独提一下。我们的什么这个机器学习哈，那对于机器学习，它的本质是我们的什么算法，而算法呢，是我们后续你的学习人工智能的这个基础，严格意义上去说，机器学习的算法并不属于我们的大数据体系，因为呢，我们在大数据体系里面呢，它所研究的是数据存储，还有数据的计算，它并不研究算法，只不过呢，我们在大数据体系里面呢，它支持我们的算法，对不对？比如哈杜普支持，斯巴克支持，弗link呢也支持，但是呢，赵老师重复一遍，严格意义上去说，机器学习它并不属于我们的大数据体系，它属于人工智能AI的一个什么基础的？好，有了这些基本的知识以后，那你能够把这个引擎部署在什么？一个Single load部署在一个单节点环。
12:13
盆境之上也能够部署在什么class集群上，对，那如果说你要把这个斯SPA克部署成是集群，部署成市class的话，它有几种的部署方式呢？在这个呢，我给大家记在咱们的课上，笔记上呢，因为我们在实际生产里面呢，都将会去部署一个什么一个集群好，单独写个笔记本好，它集群模式一共支持哪几种集群呢？首先你能够。部署我们的什么这个S单的alone集群，那什么叫是单alone呢？稍后来解释好，这个是集群模式的第一种方式，嗯，那集群模式第二种方式呢，你能够把这个什么10SPA克部署在yam之上，也就是我们的嘛，10SPA克on样这个地方是整个18g集群，它的第二种部署方是，嗯，那么它的第三种部置方式呢，就是你能够把你的18g部署在docker或者是K8S的什么容器当中，通过使用这样的一种方式，我们能够去集成大数据体性，还有云原生的容器，那就呢，刚刚都提到过的好，这地方既然它有三种不同的集群部署方式，那这地方呢，赵老师呢，就需要问大家一个问题呢，如果说大家都知道，那么就请积极回答一下赵老师的问题啊，目前我们在生产环境当中，哪种集群部署模式是主？
13:42
流的方式呢，你能够把这种主流的方式发送到咱们的公屏之上啊，如果说大家都知道呢，就请积极回答一下赵老师的问题啊。如果说。大家不了解，那就请在我们的公屏之上回复一个0，或者给赵老师呢点个赞，哪种集群模式目前是主流模式？对好，简单解释一下这三种集群模式，首先第一种呢，是我们的诗单的own集群，那什么叫单的alone呢？就表示整个18个集群它独立运行，它不需要依赖任何的组件。稍后呢，咱们启动了集群环境，就是一个S当的alone集群。对好，什么叫yam集群呢？对，首先你需要知道什么叫yam，那yam呢，它是属于哈都普2.0版本以后，它所提供的一个什么资源和任务调度的平台，它能够去调度我们的ma producedu, 调度我们的10SPA克，调度我们的flink，而目前这种UN ya模式是我们大数据平台里面用于生产。
14:54
里面的什么主要模式就是我们的10SPA坑on young, 或者说我们的flink on young, 那么这句话呢，我再重复一遍，On yaman的这种集群，它是目前主流的什么运行方式，第三个呢，就是你能够把它部署在我们的docker或者是K8S容器当中，关于这个部分呢，赵老师会放到后续。
15:15
给大家介绍docker，介绍K8S的时候呢，要单独给大家进行相关的介绍，那么呢，这些基本的知识以后呢，那接下来呢，我们需要进一步的去讨论一下，这10SPARK呢，它有哪些特点？对，那为什么咱们需要用它进行我们的离线数据分析，那它具备哪些特点呢？这些特点都是官方文档上介绍的什么特点？首先它的第一个特点呢，运行速度会很快，那快呢，主要体现在整个18g，它跟弗Li克一样，所有的计算都是基于什么内存方式，那所有的数据处理呢，都是在内存里面去完成，那你基于内存的方式进行数据处理和计算的话，那速度呢会很快，但是呢，内存它有一个什么？它有一个什么缺点，缺点就是当内存宕机。
16:16
嗯，内存掉电以后呢，数据就会丢失，那么我们在10SPA克里面和弗Li克里面，那么由于都是基于内存的方式，那么进行计算的，那么它通过一种什么方式来保证数据的安全呢？这1:18g跟弗林克一样的，它通过什么？通过使用检查点机制，那检查点机制呢？检查点是我们在样10SPA克或者说flink里面呢，它所提供的一种什么一种容错机制，通过这样的一种容错的机制，我们能够去实现什么，实现数据的什么持久化，持久化就表示我通过使用这样的一种方式，能够把内存的数据写到文件上或者写到数据库里面去，如果内存数据发生丢失以后呢，我就能够通过持久化的数据来去恢复内存中的计算那。
17:16
这呢是这样个斯巴克，还有弗Li克的一种一种容错的机制，斯巴克跟弗Li克呢非常相似，因此呢，大家有了这个斯巴克的基础来学习flink呢，会非常简单，反过来也是完全一样的好，这个呢方是整个18课它的什么呢？它的第一个特点，对好再来看一下它的什么第二个特点呢，那它就具备很好的什么很好的易用性，那易用性就体现在了整个10SPA克里面，它支持使用多种编程语言，就刚刚说的什么多语言引擎，那当然官方推荐什什么推荐使用我们的scla编程语言，那既然官方推荐使用我们的SC拉语言，那么这个地方呢，赵老师就需要问大家一下，那么大家能不能够告诉一下赵老师，这个石GALA编程语言，它最主要的特点是什么特点，你能够把它的特点。
18:16
发送到我们的公屏之上吗？如果说大家都清楚呢，就请积极回答一下赵老师的问题啊，如果说大家不了解，那就请给赵老师呢回复一个0，或者给赵老师呢点个赞，让赵老师呢能够知道。大家都还能够跟得上，对，好，咱们接着呢往上去讲，那这个10干呢，它最主要的特点是什么？是我们的函数是编程，通过函数是编程，我们能够去开发我们的高阶函数，而函数是编程，它能够使得代码程序非常的简洁，我们使用很简洁的代码程序就能够去实现一个很复杂的功能，那么这呢是函数式编程它的优点，但是呢，正因为它有这样的一个优点，也就带来了一个缺点，缺点就是可读性比较的差，对，那由于这个斯SC拉本身它是基于Java语言则上，当然呢，我们在10SPARK里面呢，也能够去开发我们的Java语言，对不对，它也支持我们的c com, 当然也支持我们的什么Python或者是R言，当然目前我们在这个Spark里呢，主。
19:36
主要使用的是前三个AR拉加va的cco，那它支持Python，那支持2呢，支持的并不是特别好，对好这个呢，是整个18g它的什么第二个特点，那么它的第三个特点呢，它具备什么呢。具备很好的什嘛兼容性，那兼容性就主要体现在，那它兼容我们的嘛，兼容我们的哈多，嗯，那当你把这个哈都安装好以后，那么在这个哈do普的安装包里面，它就自动集成好了，我们的HMDFS，还有我们的样，那整个兼容性就体现在呢，通过使用18g能够直接处理HDFS数据，它也能够运行在我们的M之上，那稍后呢，咱们将会在我们的18的什么交互式的命令行工具里面，通过开发一个SC拉程序，直接的去处理HD数据，好这呢是整个10SPA克它的第三个特点，对好它的什么，它的第4个特点是什么，它具备很好的什么通用性，那什么叫通用性呢？通用性它就。
20:53
体现在它是一个什么，它是一个完善了什么生态圈系统，那么在这个生态圈系统里面，它包含不同的组件，每个组件它所完成的功能各不相同，那么因此呢，我们在接着往下面讲之前呢，就需要对整个18g生态圈体系要有一个基本的了解的。好，咱们来看一张图片。
21:21
好，这张图片，那就给大家介绍一下整个10SPA克里面它的完整的什么生态车组件都包含哪一些？好，咱们一个一个呢，来给大家进行相关的介绍。首先我们在18课里面最核心也是最重要的一个部分，对，就是它底层的什么这个执行引擎，就是我们的这个什么10SPARK com, 那这个10SPARK com它是整个10SPARK里面最重要也是最核心的一个部分，它是10SPA克提供的一个什么离线计算的执行引擎，那那么我们在斯SPA克里面的所有的计算都是18RK com的离线计算，这句话呢很重要，我再重复一下，好，这个18RK com, 它是我们在10巴克里面最重要也是最核心的一个部分，它是10巴克的什么离线计算的执行引擎。
22:21
那么我们在10SPA克里面，我们所执行的所有的计算都是18RK克的离线计算，因此10SPA克里面呢，并不存在真正的什么实时计算，那么通过咱们稍后的学型，大家会了解到，那么这个s Spark com, 它的数据模型就将RDDM，那什么叫RDD呢？它是弹性分布式数据集，那么有了这个基本的知识以后，大家后续你在学习的时候呢，你就需要抓住重点，抓住什么重点呢？学习10巴克的重点是学习我们的10SPARK扣，而这个10SPARK com它的重点就是它的数据模型RD定因是整个10SPARK里面最重要的一个部分，就是到底什么是RDD，好，我们去把它的名词解释给大家记在咱们的课堂比上呢，那么通过刚才的学习带来到。
23:21
啊，一个名词叫RTD，那什么是RTD呢？翻译成是中文的话，它叫做我们的么弹性分布式数据集，你就把它看成是一个集合，那么就可以通过使用一个列表，或者通通过使用个数组，我们都能够去创建这样的一个什么RDD，它是什么？它是10个课的什么18个课的什么数据模型，对因此呢，学习整个10SPA克的重点就是需要去学习到底什么是RDD，那这呢，怎么放到稍后面来给大家进行相关的介绍的好回到咱们刚刚的图片的好回到咱们刚刚的图片对好介绍完了我们的18块以后呢，基于底层什么计算引擎，那18g里面呢，它就提供了一些上层组件，帮助咱们的分析和处理数据，首先我们在18里面呢，提供了我们的数据分。
24:21
的引擎，那大家后续只要在我们的大数据体系里面看到了什么呢？数据分析引擎这六个字母大家就要反应过来，它是支持我们的slel语句的哈，Do里面呢是have，是Spark里面呢是spaic com, 弗link里呢是弗link cle, 那通过使用这样的什么数据分析引擎，我们就能够通过使用标准的clel语dream来去分析咱们的数据对，比如说你在这个18个C口里面，对你通过书写的么一条C口语句，那这条C口语。
25:01
它就会被什么呢？这个斯sparkic com转换成底层的一个斯Spark code的一个什么计算任务呢，运行在我们的48g集之上，对，稍后呢，咱们来给大家演示一个DEMO，对，好，我们在48g里呢，还提供一个流处理引擎，注意严格来就是说只能够叫做流出的引擎，不能够叫做实时计算，那就是我们的嘛，这个S8DREAM，那通过使用我们的这个失发dream呢，我们能够处理流失的什么实时的数据，但是呢，刚刚提到过，严格上去说，它只能够叫做理由处理，不能够叫做实时计算，因为呢，它的底层依然是18个克的呢，离线计算，那有了这个基本知识以后呢，刚刚提到，那你就不能够把这个18个追命用于实时性很高的场景，那一般来讲哈啊，这个不绝对啊，不绝对，一般来。
26:02
感就是我们的秒级，那什么叫秒级呢？比如说你希望这个3秒钟，你希望4秒钟处理一次数据，如果是秒级的这种单位。我们能够使用这个18个dream面去实现，但是呢，秒级以下呢，比如说如果我们希望300ms，我们希望400ms出理子数据，那么在实时性非常高的场景之下，那你不能够使用我们的Spark dream, 因为它的本质是一个离线计算，你可以选择使用我们的flink，啊flink呢是一个真正的什么实时结算，那关于这个flink的什么知识，赵老师呢，也会这样，后续的直播课里面单独的来给大家进行相关的介绍，好，咱们讲这三块，那么哪三块呢，就是我们的这个10BACK com 18rkic com, 还有这个18GDREAMING这三块，这三块都是属于。
27:02
大数据的什么呢？计算的部分，因此呢，我们在学习大数据的时候，需要学习这三部分内容，对，那除了这三部分以外，那么我们的这个18g里面，它提供我们的机器学型ML内部，那通过刚刚的介绍，大家了解到机器学习本质上是研究的是算法，算法是学习AI，学习人工智能的基础，因此呢，严格意义上就说这块呢，并不属于我们的大数据体系，只不过呢，我们在18课里面支持机器学习的算法，同时它也支持我们的图计算，那什么叫图计算呢？图计算赵老师理解是使用算法来处理图上面的数据，图上面有点，图上面有有边，那大家后续你在学习图计算的时候呢，那最经典的你要学习一个图计算的算法，叫做单元最短距。
28:03
给你算法，那这句话呢，我来重复一遍，大家后续你在系统去学习图计算的算法的时候，需要学习一个非常经典的算法，叫做单元啊，叫单元最短距离算法，而这个单元最短距离算法呢，它最典型的一一个用场景就是我们手机导航，那导航的路线它怎么规划出来的，它就是根据图计算当中的什么单元最短距离算法了计算出来的，当然我们的大数据体系里呢，这两块可以不用去关心，重点关心什么这一边的什么，这三块为什么介绍到这地方呢？赵老师就给大家详细介绍一下整个18g生态圈体系里面，它都包含哪些组件，好问一下各位直播间同学们是不是都听明白了，如果这个部分大家都听明白了呢？就请。
29:03
点赞我们的公屏之上，请给赵老师呢回复一个666，或者给赵老师呢点个赞啊对好，我们接着往下，嗯。来给大家进行相关的介绍，对，那我们再去部署，我们再去启动整个10巴克集群的时候呢，还需要了解一下它的一个什么，它的一个体系架构体的，那体系架构当然也是非常重要的一种部分，对，那我们在大数据体系里面核心的这些组件，比如说你的HT FS ya SPA, 弗林克，它都是一种什么架构呢？都是一种主从架构的，既然是主从架构，它就有主节点，它就有从节点，而主从架构它所存在的什么最主要问题就是单点故障问题的，因此呢，我们在实际生产环境当中，就需要使用什么使用猪keepper来解决主从架构的单点故障问题呢？而实现什么功能实现。
30:15
我们的高可用的什么HHA的功能，好这些知识，今天晚上呢，由为直播的时间有限，我们就简单的呢，给大家做个什么介绍，但是呢，我们可以到官方网站上去看一下，官方网站上他提供了一张图片给我们，告诉我们整个10SPA克主从架构它长什么样子啊好的，我们看一下官方网站上面这张图片，它长什么样子啊，打开10SPA克的官方网站，在找到上面什么documentation文档，在文档的首页里面呢，怎么往下面去看，下面呢，它怎么介绍呢？它有一个叫做我们嘛，这个class overium, 那通过这个地方呢，就详细的给我们介绍一下整个18个集群，它长什么样子啊，我们看一下整个集群的么，集群的一个概要，对，点击一下咱们的这个连接，通过输出什么信息，那怎们可以看到，看到了这个地方它有多么图。
31:15
片，它的图片就详细我们说明一下，整个18g集群它的一个什么体系的一个架构，对，我们可以在这个地方画一条什么红色的竖线，红色的竖线的左边是我们的嘛，客户端，右边是服务器端，因此呢，它总体上来说呢，它是一种CS结构，而我们在服务器端它又是一种什么架构呢？又是一种主存架构，主节点负责管理和维护整个的集群，真正的任务呢，将会被分配到worker什么从节点上他去执行好了解到整个集群架构以后呢，现在怎么切换到我们的实验环境当中去把我们的Spark集群呢？那去给它启动起来，对，但是现在呢，我所使用的集群是一个是当的lo么独立运行的一个集群，并没有把它运行在我。
32:15
我的样M之上的好就到怎么使把么安装的摸下来执行并箱面呢什么奥么脚本，那通过这个命令呢，你就能够启动主节点，也能够启动重节点，那它的主节点呢，叫做我们的吧，Master从节点那叫做我们的worker的，它整个环境启动完成以后呢，他们给我们提供了一个。图形化的界面要用于监控我们的四巴卡机群，端口号是8080，因此呢，打开咱们的浏览器，访问一下数组机的什么8080的什么端口好的好，咱们就能够打开这样的什么一个图形化的一个什么界面，那通过使用这个界面呢，你就能够去监控我们的斯巴卡机群，如果说你有计算任务呢，运行在集群之上，通过现在的这个图形化的界面，你也能够监控到任务的执行的状态，好整个环境启动起来以后呢，相当于你的服务器端，那么就启动完成呢，既然服务器端启动完成以后呢，我们相会通过使用客户端程序，通过使用客户端把你的什么这个10SPARK任务呢，提交到集群上面去运行。
33:43
那通过咱们刚刚的这个介绍，那么我们在整个Spark里面呢，它所提供的客户端工具主要有两个，一个呢是我们的巴克萨meter，一个呢是我们的斯巴RK秀啊分别来进行介绍，首先介绍什么是我们的斯巴RK萨meter，它用了用于提交一个架包，它主要做的是用于了题目教我们的嘛架包，当你通过使用斯嘎拉语言或者使用Java言开发好的程序以后，你把它。
34:20
打包成是一个价文件，通过使用我们的S8SUBMIT呢，就能够把它提交到集群上拿去运行，那你在提交到集群上去运行的时候，需要指定主节点，那么在哪里？那刚刚才把图形画网页的什么，所以上方有一个非常重要的地址告诉我们主机点在当前主就是什么7077的什么端口之上，这个地址非常什么的重要，好的这个基本知识以后，那么现在呢，咱们通过一个什么DEMO衍示来看一下如何使用我们的这个斯巴克萨维特提交一个任务呢，停交到集群上，那这个呢，是官方停工的一个什么一个事例啊，那这个私例呢是什么呢？是我们的蒙托卡罗球球派，那蒙特卡罗呢，他是什么？他是一个数学家。
35:18
那么嗯。他提出的一种计算的方式，用计算我们的圆周率，圆周率呢是3.1是15926多少对好我们通过使用开发一个什么斯Spark程序，它实现了我们的蒙托卡罗球派，那大家呢，能够在斯Spark的什么安装的目录下呢，进到它下面的什么这个一个染MP下面呢，能够找到所有的什么代码的程序程序好，我们看一下我们的斯scar拉编写这个程序好，应程层往下面去找的，好这下面的很多程序，那这个地方看到有个么，有个叫做我们的么，这个斯巴克派好，这个斯SPA派呢，点斯卡拉就是官方提供的蒙托卡罗球派，它的原代码程序，我们直接能够把它提交到集群上面，那去引行的，那这个skyva语跟Java语言内是它也是使用main方法做什么开头的简单。
36:21
看一下咱们的源代码程序，把在使用咱们的VI编辑器看一下我们的个18派点GA了，在好这个里面基本上内存我们的Java，因此呢，大家后续你在学习是加va之前呢，最好先有一点Java的什嘛基础件，但Java语言也一样，也是通过执行main方法开始执行我们的程序的，好整个什么代码程序呢，大家下来可以自己去看一下，那这个程序如何去运行呢？我把这条命令呢，写在咱们的命令行上呢，好退出当前连接，需要切换到18个什么安装的目录下啊，执行并下面的什么并下面什么18坑干submit meter, 那你不是要把任务呢提交到集群上，那去运行吗？主节点负责接收任务请求，因此通过使用杠杠master指定主节点就站。
37:21
当前主机的什么7077端口之上，就是刚刚大家看到的什么那个地址啊，10SPARKN冒汗，我们什么nocom cost冒了行好再写上干class表示呢，你要执哪一个程序，对后面执行这个什么package啊，这个包，这个包下面的什么把盘点的程序，那我在哪里可以找到这个程序呢？这个程序它已经被打包到了一个什么价文件当中，那那么价文件在一个example下面呢，架下呢有一个10SPARK com, 一个example减价包哇，执行这个价包里面呢，这个18个派程数后面需要写上一个参数，比如写上一个100，那这100表示什么含义呢？100表示我们迭代计算，100是看一下通过蒙托卡罗的方式，它所计算出了圆周率那四多。
38:21
走啊，当你执行这一条命的时呢，它将会把我们的肉呢停交到集群上去运行。那既然你把它。提交到集群上去运行，通过刚刚的那什么图形化的网页的工具，那咱们是不是就应该能够监控到什么任务的执行的过程与状态，是这样子的，好现在咱输入一个把一个回车，把它从提交到集群群上去运行的，好提交上去以后呢，咱们去刷新一下刚刚的那啥图形化的网页的，好这个地方怎么稍微等待一会儿，等一会儿这样好，这地方稍微等一下，好现在我们去刷新一下这个网页，看这呢有没有提交上来啊，这个地方还没有，这地方稍微等一下，好提交上来以后呢，你通过刷新网页，你就应该能够看到任务的什么执行的状态，好这个地方稍微等一下，如果我在虚拟机里面呢，你会稍微的会有一点点的慢，有点慢，诶好，现在我们去刷新一下这个网页啊，网页的好，通过刷新这个网页呢，你应该能够看到了，诶我现在。
39:32
我在这个地方是不是就一个什么正在运行的程序，就是什么刚刚什么那个18派当前的状态是我们的嘛，Running状态，那并且整个sparkcom它是基于内存的方式来进行计算，因此它很快它就会计算完成，好我们再来刷新一下。这个网页呢，就终它将会变成我们的分裂型状态，完成以后呢，你迭代计算100次，你所计算出来的圆周率应该是多少，它将会打印输出在咱们的屏幕这上掉好这个地方呢，我还没有计算完，没没没还在强，还在迭代计算，对好计算完以后呢，咱们再来刷新一下这个什么界面状态呢，变成了我们的分类性状态，那你计算100次，你所计算出来的圆周率它是多少呢？它将会输出在屏幕之上，它所计算出来的圆周率往上面找一下是多少呢？是我们的是吧，这个值3.1是11579多少，那咱们都知道圆周率呢，是3.1415926多少，因此呢，这地方呢，还存在一点小小的误差，因此大家后续你开发。
40:56
发完程序以后，那么你要把提交到集群上去运行，首先呢，你通过什么把打包成是一个架班，然后呢，通过使用我们的把这个工具呢，叫做我们的这个诗8SUBMIT呢，直接提交到截屏上，还有从介绍到这个地方的时候呢，赵老师呢，问一下各位直播间同学，关于这个是8SUB大家都听明白了吗？如果这个工具大家都听明白了呢，就请在我们的公屏之上，请给赵老师呢回复一个1，或者给赵老师呢点一个赞啊好，咱们接着呢往下来给大家进行相关的介绍，大家都听明白了吗？关于我们的这个斯巴克萨巴米特啊。
41:47
好，听明白以后，请给赵老师呢回复一个1，或者给赵老师呢点个赞，好赵老师呢能够知道大家都还能够跟得上，那好，那么既然往下来给大家进行相关的这个介绍，当然我们在这个10巴克里面呢，除了咱们的这个巴克submit以外，它还提供什么另外的一款客户端工具，叫做我们呢这个10巴克sub me10spark秀，那什么叫做我们的10SPARK秀呢？它是一款什么交互式的项，它是交互式的交互式解写写错了交互式的什么命令行工具，那我们在这样的一个什么命令行的工具里面，我们能够直接开发我们的这个吗？SC拉语言直接处理数据，并且呢，通过刚刚的介绍，怎们知道呢，你在这个10SPARK里面，你不是。
42:47
能够直接集成，直接访问我们的哈多呢，因此呢，怎么去开发一个SC拉的什么单词技术程序，直接的去处理HDFS数据，那既然你要处理HDFS的数据，首先咱们去把我们的哈都不了HDFS给它启动起来的，好，咱们到这个地方请动一下我们的HDFS啊，直接写上大的词吗？
43:15
我们的DFS的把它启动起来以后呢，我事先我在HDFS里面呢，放了一个文本文件，那这个文本文件里面呢，它有包含三句话，那哪三句话呢，稍后呢，咱们来看一下，稍后呢，我们就在我们的18SHOW里面，通过开发我们的SC程序，统计每一个单词它所出现的频率，这在就是我们的单词技数的我的count程序，对好，我们看一下等数据，数据呢，我是先放到了什么，放到了我们的这个HDFS的嘛，In input, 目下它有个什么dtime，点开文件，那这个文件里面就只有三句话，那三句话呢，分别是I love Beijing京I love China, 北京the capital ofut, 什么China，那通过观察我们会发现这个里面呢，有一些单词它是重复的，既然它有。
44:15
写单词。它是重复的，对，那现在我们就想把每一个单词它所出现的频率统计出来的，好们进入到我们的嘛，这个斯巴克西里面去店，它有两种运行模式，一种是本地模式，一种是集群模式，那么一般来说，我们都把它运行在集群模式上，集群模式呢，你就需要指定主节点地址，它在哪里啊好了，启动一下咱们的这个工具，它执行对吧？并下面的什么呢？10巴克秀，如果说后面你不写任何的参数，你将启动它的本地模式，重复下，那你在这个18系的后面呢，如果不行任何参数，它将启动本地模式，如果是集群模式呢，需要指定主节点的地址，干干我们的嘛，Master的，那这样子呢，就是运行在我们的集群模式上，主节点就这样，当前主机什么7。
45:17
077的么端口之上，但它既然它运行在集群模式上，你就能够通过刚刚的那个什么8080的图形化的网页的工具，监控到你在斯他希里面所有执行程序的一个一个一个任务的一个状态，对，那这呢跟你刚刚监控那个什么斯8个submit那是完全一样的，好，这个地方我们稍微等一会，那在进来以后，咱们去开发我们的个嘛斯嘎LA程序，那简单去介绍一下什么是scla，因为刚刚呢都提到过要直接去搜索一下，那斯scda呢，它是一个什么，它是一个什么多方式的一个什么一个编程语言，它是基于Java语言之上的个什么编程语言，那既然你的这个scda基于Java语言之上，你在部署使用s SCA之前，首先需要安装好Java的什么JDK，它的函数是编程，可以使得代码va程序。
46:17
非常简洁，这个呢是它的一个什么优点，同时也就带两个缺点，缺点就是可读性非常的差，对好了这个基本知识以后，现在咱们就到我们的斯八西里面直接开发一段什么斯SC拉程序，直接处理HDFS数据，直接要把每一个单词它所出现频率呢统计出来的，它在进到命函里面来看，通过什么HC的变量引用我们的环境变量，直接读成text file, 通过使用这样一个一个什么一个算值，能够直接访问HDFS，就注意你这地方需要写上HDFS的什么全路径啊，全路径对好，路径呢要要写完对好，那HDS上叫HDFS冒号也在当前主机上no host端9000好在我们的HDFS下面呢有一个。
47:17
In input目录下面有个什么datatime.test文件，好文件读进来以后呢，由于我最终我需要得到每个单词它所出现的频率，因此呢，我需要首先执行一个分词操作Fla什么map，嗯，那这个地方的嘛，下划线代表上一步的每个元素，我按照什么，按照我的这个空格进行分词，好分词完成以啊，就要多写了一个，多写了一个吧。这个地方啊，分分词完成以后呢，我需要把每个单词记一次数对掉我的map算子啊mapp算子呢，它是一个什么高阶函数，那么你要开发高阶函数就需要使用嘎拉的什么函数边词的，它里面呢，对每一个单词也进一次数对，记完一次数以后呢，我需要把相同的单词进行分组，然后进行的么求和操作，对，然后这样子呢，就能够得到每个单词它所出现频率，那这呢，我将会把统计的结果直接输出在屏幕之上，那我去触发一个这样的一个什么计算，因此呢，我们在整个SC拉里面，通过使用它的这个函数式编程，仅仅使用什么一行代码程序就能够去实现我们的单。
48:49
子技术，如果说你要去开发我们的mapdu，也来去实现单词技术呢，至少需要开发三个Java程序，一个呢实现map，一个呢实现reduce，还需要开发一个什么主程序，当然利用咱们的SC呢代码程序。
49:09
嗯。利用咱们的scar呢代码程序，那将会非常简洁，但是呢，可读性并不是很好的，它直接输入一个我们的回车，它将把这种呢提交到集群上来去运行，好既然提交到集群上去运行的话，通过刚刚的图形化的界面，你就能够监控到所有在十Spark cell里面运行的任务程序，好，我们点击这个地方什么这个SPA秀进到监控界面上去看，那么你刚刚不是运行一个程序吗？直接点击我们的这个什么这个地方的这个连接，他将会把这个job部这个任务呢，所有更加详细的信息或打印输出在网页之上，在他通过观察怎么会发现呢，当前你的这种种这种程序啊，他被划分成什么两个阶段去执行，分别是阶段，你和。
50:12
阶段一为什么我们在18RK里面执行一个任务的时候，它会变划分成是阶段呢？划分阶段主要有两个作用，你一个作用呢，是为了支持容错，第二个呢是为了什么？为了变形啊写下把任务呢划分成是阶段去执行，主要有两方面的作用，一个作用呢，是为了进行我们的容错操作，执行我们的检查点，对然后呢，第二呢是为了什么？并行执行，既然是并行执行的话，它是不是。就能够去提高我们执行的效率，那关于这个里面呢，更加系统知识都会被包含在我们的什么系统的课程里面的，那关于这门课程呢，我们放到最后呢，来给大家进行一个相关的介绍，因为每次直播的时长大概呢，就一个小时左右的，利用这一个小时呢，不可能把所有的知识都给大家怎么介绍到，因此呢，每次直播的时候呢，赵老师呢，都会对推荐一门课程给大家，好，现在我们回到刚刚的那行上，你所统计出来的每个单词的频率，是不是你就打印输在了我们的这这这地方，通过观察我发现了北京出现两次China出现两次的，我们把每一个单层它所出现平均呢，直接统计了出来，因此呢，这个呢，就是我们在我们的10SPARK里面，它所提供的第二个客户端工具，到底什么是我们的10SPARK秀？
51:52
好，问一下大家，关于这两个客户端工具们大家是不是都听明白了，重复一下，问一下各位直播间同学们，关于这两个客户端工具大家是不是都听明白了，如果说这两款客户端工具们大家都听明白了呢？就请在我们的公屏之上，请给赵老师呢回复一个1，或者给赵老师呢点一个赞，我们接着往下来给大家进行相关的介绍啊对。
52:27
好，大家都听明白了吗？这两个工具好吧，这然再给大家介绍第三款我们的客户端工具，就是我们嘛，这个10SPA坑C口啊，它还有一个，还有一个叫那叫做我们嘛，这个18坑C口的，很明显这个客户当中就它是用为执行我们的C口语句，因为通过刚刚的介绍咱们知道呢，整个10SPARK里面，它提供我们的数据分析引擎10SPARK cql, 它就能通过使用标准的什么C口语境来去处理我们的大数据，好简单演示一下如何通过使用这样的一个什么。
53:06
客户端工具里书写我们的C口诀，基本上跟你在数据库里面的操作基本上是一样的啊，基本上是一样的，对好我们推到咱们银行上家好们推出当前的这个工具，进到我们的那个8个C口当中去，对好怎么写呢？并下面的是吧，18坑C口的后面呢，咱们也可以把它运行在集群之上，通过杠杠master指定主节点在哪里啊说这个地方呢，最好写上一个参数，叫什么杠S，大写的S，杠S表示呢，我们启动它的什么浸默模式，浸默模式表示呢，不要打印输出日志，这样子呢，能够更方便的看到输出结果，杠杠master后面就是主节点地址，那跟刚刚那是完全一样的一个含义，对好主节点就在什么当前主机的什么清零七清端口之上，好进到这样端口之上，好进到这样的一个命令。
54:06
行工具里面来一看呢，你就能够通过使用标准的CQL语句，你能够去创建表，能够往里面插入数据，能够去查询数据，基本上跟你的数据库里面呢，基本上是完全一样的，当然你所创建出来的表，你可以把它保存在本地，也能够把它保存在HDS之上，当然我们的生产环境里面呢，更多的情况是把它保存在HDFS档，但我这个地方呢，默认是保存在本地的，它进来以后，直接通过使用标准的C口语句，首先去创建一张表，对表创建出来以后呢，往里面插入数，查询数据，对好看什么，我们的table泵这个呢方就是标准的嘛，C口据他们创建一张表，我们来保存学生的数据，表呢叫生丢次，它里面呢。
55:06
包含有什么三个列SID学号，它是一个什么整数，再来个什么名字，它是字符串，A级呢是一个连念，它表创建出来以后呢，我这个地方默认是保存在本地，也能更把它保存在HDFS之上，对好我们就能够通过使用标准的啊DML往里面插入数据也能够查询的好执行个插入in什么通我们的student准value症一号民证就是我们的town年龄是21岁这一条插入语境，它将会被。转换成是一个18g的一个任务呢，运行在我们的18卡捷屏之上，通过刚刚的那个什么8080的图形化的网页，我们就能就能够监控到这条c com它的一个什么执行的一个什么状态，那插入数据完成以后呢，当然你也能个查询数据，而你的查询语句也将会被转换成是一个什么10SPARK任务那么简单执行的一个查询色星，换我们的是这子好这两条鱼，我们呢，就通过刚刚把图形化界面去监控一下，它到底有没有被转换成是18g任务呢？对我么回到刚刚的什么图形化界面上，8080的这个呢，还有咱们刚刚所有的c com都是在命令行上，都是在什么18C的命令行上执行，直接点击这个地方的呢，18C的连接进到18C的间。
56:46
空的，基本上在你刚刚不是执行过两条C口L语句吗？一条c com是我们的插入语句，一条是我们的查询语句，通过这个地方你就能判出来你所执行的什么CQL语境，它确实被转换成了什么18g肉呢，Job要运行在了我们的巴克基顿之上，那因此呢，大家后续如果你在大数据体系里面，当你要处理结构化数据的时候，尽管你可以去开发Java程序，也能够去开发我们的SC拉程序，但是更简单的一种方式是直接书写我们的C口语句，还有从演示到这地方问一下各位直播间同学们，关于什么是我们的这个SPY com, 大家是不是都听明白，也都看明白了啊，如果大家都还能够跟得上赵老师。
57:46
的节奏啊，就请给赵老师呢回复一个666，或者给赵老师呢点个赞，那还有了这些基本的知识以后，那么今天一晚，今天晚上呢，一开始提到过，大家后续。
58:01
如果说你要系统深入去学习18RK的话，重点就需要学习到底什么是我们的什么这个18RK com, 而这个back com它的重点就是到底有什么是我们的RDD，好再简单说一下到有什么是RDD呢，这个地方咱们看一下咱们这个地方呢，这个笔记通过刚刚的什么介绍大家已经知道，RDD呢，它的中文名字叫弹性分布式数据集，你就把它看成是一个集合就可以，它是Spark code的呢数据模型，因为这个sparkrk呢，是整个Spark里面最核心也是最重要的一个部分，最起码这个呢就决定了R是整个斯Spark里面最重要的呢数据模型，学型师巴克的重点就是学型，到底什么是思巴克com，而8COM它的重点就是学型到。
59:01
到底什么是RDD，当然由于今天晚上直播的时间毕竟有限，我们不可能在直播里呢把所有内容呢都给他讲到了，因此大家如果那系统的学习有关这个里面知道，我就参考一下直播间赵老师要提供什么这门课程啊，那么这门课程呢，是从我们的大数据到Lu西K，再到语音上什么docker k80全程都由赵老师主讲，课程时长超过128个小时，课程呢提供完整的什么学习资料和实验环境，当然你在学习过程里面如果有任何问题呢，你也可以随时的问我的，并且课程还会定期的更新，会把更多内容呢包含在课程体系里面，比如比如说我们在2026版课程里面，就把互定数据宏包含在什么我们的大数据什么课程里面，因此呢，这门课程非常什么完整。

展开

我来说两句

0 条评论

登录后参与评论

作者

赵渝强老师

【合辑】直播回放

（8/12）

59分57秒

【直播回放】国产金仓数据库的体系架构

3.1K0

59分57秒

【直播回放】基于大数据的数据仓库架构

2.5K0

59分46秒

【直播回放】国产数据库OceanBase

1.4K0

59分1秒

【直播回放260116】达梦数据库的体系架构

2.2K0

59分48秒

【直播260118】NoSQL数据库之Redis

3570

59分41秒

【直播回放260120】容器技术Docker与K8s

2.1K0

59分15秒

【直播回放260122】MySQL的存储引擎

1.4K0

59分58秒

【直播回放260126】大数据计算引擎Spark

2.9K0

59分57秒

【直播回放260201】PostgreSQL的体系架构

1.2K0

57分21秒

【直播回放260227】大数据Hive的数据模型

9370

59分34秒

【直播回放260309】结构化查询语言SQL

460

56分3秒

【直播回放260311】大数据计算引擎Flink

230

【直播回放260126】大数据计算引擎Spark原创

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐