00:00
好了,同学们,我们之前呢,已经通过画图的方式,把这个word的思路呢,咱们梳理了一下,接下来我们准备按照这个流程把代码给它完善起来啊,同学们来。在咱们的包当中,我们创建一个new,创建一个package,我们叫做WC啊,咱们叫word count简写对吧?呃,点击OK。那么这里呢,我们写上new,然后写上一个scla class,咱们选择一下,那这里写上一个叫Spark,咱们的零幺写上一个叫word count,诶,咱们这么写,写完之后选择object啊,点击OK,因为咱们要写main方法执行应用程序,所以写上一个main方法,嗯。那么写完完成以后,这个时候有一个问题了,我们该如何跟Spark做交互呢?10SPARK是一套框架,那么你现在需要通过它来运行咱们自己写的应用程序,来实现咱们word count的功能,对吧?所以这里面有这么一个问题,就是我们的应用咱们叫application,咱们这么写啊,就是我们自己写的应用程序,还有一个就是我们的SPA框架啊,SPA框架那么这个时候我们该如何让咱们SPA框架可以运行咱们的应用程序,对吧?那这个我们给大家解释一下,我们的SPA框架呀,它其实它是一套环境,它是运行我们应用程序的环境啊,就是我们想做一个功能,你得运行在SPA的环境当中,那这种感觉啊,就跟你连接买SQL数据库一样,买SQL数据库是一个关型数据库,那么他提供了数据库的服务,那么你去连接它,去访问它,对吧?诶这种感觉跟我们这是很像的,就是我的应用程序啊,连接失。
01:43
大的环境把咱们的功能传递给他,让他执行,诶感觉上差不多,所以咱们的执行步骤呢,它分这么几个步骤,第一个。建立和我们的Spark框架的一个连接,啊,框架的连接好,然后呢,第二个当你如果建立连接之后,你应该执行操作,诶所以执行业务操作。
02:10
然后todo啊,接下来我们再来,我们写上叫做关闭连接啊,或叫停止连接都可以啊,咱们叫关闭连接,关闭连接我之所以写上关闭连接呢,是希望跟那个买的那个啊很这样的话,大家理解起来会更容易啊,就是那个,所以啊我们主要分三大啊,第一步建立和Spark框架的连接,建立好之后通过连接呢来操作咱们的业务,然后我们再关闭连接,这样的话整个应用程序就结束了,这就OK了,那好,那么首先第一个你建立和10SPARK框架的连接,你怎么建立呢?在我们的JDBC当中。咱们一般情况下是需要创建一个什么呢?叫connection,叫连接对象,咱们这儿也有一个类似的对象,大家可以看到来。咱们叫做new,叫做Spark context,诶把它创建出来,然后点击我们的括号,那么我们现在这么写完以后,你会发现它标识是什么,我们的红色,那么标识红色是什么意思呢?它表述的概念就是说我想去用到咱们Spark的核心对象,但是我们并没有提供它的相关的价包,那该怎么办呀?同学们,那该怎么办?那么在这个情况下,我们应该做的是来增加对10SPA个框架的依赖关系,或者我们提供相应的价包,这都是可以的。
03:36
那好,那接下来我们就按照咱们的这个依赖关系给它添加上,在课件当中,我们这里有来,往下走,往下走,往下走以后大家可以看到我们这里面就会有对应的依赖关系,咱们用的skyla版本是2.12,咱们用的Spark版本是3.0.0,所以把它的依赖关系给它拷贝过来。拷贝过来以后,在咱们的POM当中,把这个依赖关系给它加上,加上以后咱们稍等一下,它会有一个解析的过程,看看这个依赖呀是不是都存在,如果要是缺少的话,它会自动下载,如果没有任何的问题,在你当前的环境当中应该是已经OK的,那么这个时候它会提示你说这个类我们需要导包,所以给它点一下,咱们叫import,诶,好,那么import之后大家可以看到这就是一个Spark上下文的环境对象,它在org阿帕奇的Spark包里面,那这个时候呢,我们就可以直接来用它了,所以SC,诶,咱们这么写就可以了,那好,那你这么写了以后,对于我们来讲啊,就是你现在建立了Spark框架环境的连接,可是有那么多的电脑,那么多的机器,你到底连的是哪一个呢?对不对?所以啊,咱们除了把环境对象构建之后,我们还得建立一些基本的配置,就跟咱们JDBC当中的MY一样的connection,它得需要知道它的连接串,它的用。
04:59
户名和密码,那我们这儿也差不多是这个意思,我们也得准备一些基础的配置,那么好咱们来看一看。
05:07
我这里写上有一个Spark,咱们叫K,咱们叫new,叫Spark的对象,这个对象就是Spark当中的一些基础配置对象,那么这个配置呢,我们点它会有一个方法叫set master。这个方法咱们先提前给大家讲一下,它表述的就是一个环境,就是我们Spark框架运行的环境,这个分很多种,这个咱们后面再讲,现在咱们先给大家说明,它可以有一个叫local环境,就是本地环境啊,是这样的,然后接下来再来site,我们有个叫APP name,你不说了吗?咱们是应用程序嘛,既然是应用程序的话,你需要去建立我们的名称,所以给它一个名称,咱们就叫word count,诶咱们这么写就可以了,写完以后这是我们的基本的配置,然后接下来把这个18给它传到咱们的核心对象当中,当你的这个对象创建好之后,那么你后面就可以完成咱们具体的业务操作,好,这个咱们先放一放,然后接下来我们这边会有一个关闭连接,你把这个SC拿过来,拿过来以后点我们叫stop,诶好了,那现在就可以把连接关掉,是这样的啊,我们现在先。
06:23
不考虑我们的业务操作是什么,我们先考虑的是环境是不是OK的,连接对象能不能正常连接就可以了,好,我们现在点击右键我们运行一下。点击运行之后,那么他会把咱们的运行情况给它打印在控制台上,如果不出现任何问题的话,控制台上会打印出很多的日志信息,咱们稍等一下,大家可以看到在咱们的控制台当中,现在已经正在打印出我们的堆栈信息了,啊,是这个样子,嗯。好,那么到了这一行代码当中,大家可以看到已经结束了,就意味着当前我们SPA的环境已经是OK的,如果要是不行的话,他这边应该会发生错误,对吗?哎,应该是这样。
我来说两句