00:00
那行了,那数据库咱们初始化完了,那接下来是不是就可以呃去往下面去进行了,对吧?下面其实就涉及到谁了,就涉及到我刚刚给大家说的那个一键部署脚本了,对不对?那现在咱们要做的工作就是干啥呢?是不是就是得去改一下那个一键部署脚本的配置文件,对吧?咱们得去规划一下对吧?我的这个呃集群到底怎么部署对不对?OK,那咱接下来呢,就去改一下这个配置软件,呃,刚才咱们说了啊,我们将来要执行的那个脚本是谁?就是解压目录下边的他对吧?但是呢,它是需要用到一个配置文件的啊,它的配置文件在哪儿呢?来看一下文档。它的配置文件是位于。解压目录下边的K下面里边是不是还有一个con对吧,里边有一个install con,好,那咱们现在去找他一下。来去找他一下啊呃,然后呢,我们先进到哪,先进到康复对吧?康复里边还有一个啥conve对不对,好进来进来之后这是就有一个install con com了,对吧?哎,那咱们现在呢,就把它打开,打开之后呢,大家来注意观察,里边是不是会有非常多的参数啊对吧?里边有些参数咱们需要改,有些参数呢,使用默认值即可啊是这样的啊,那在这儿呢,这个需要改哪个,我在文档当中已经列出来了,然后在这儿大家一定要认真听,一定要注意啊,文档里边我只列出来的需要改的参数了,对不对,那刚才提到里边是还有一些不需要改的参数,对吧?文档里边是没有的。
01:28
啊,所以大家去改这个参数只能怎么做啊,你得照着这个文档是不是一个一个去改才行啊,对吧,千万不要直接把文档到时候复制过来,然后呢,把这个直接一替换,那这样一来就会导致一些默认的参数就没了呀,对吧,那你这个它DS你部署起来就会出问题啊,这个一定要注意啊,一定要照着改,OK,好,那在这呢,我就不再看这个文档了,咱们就直接看它这个配置文件,咱一个一个往下走就行了,哪个需要改我给大家去都说一下啊好,那现在呢,为了方便看我这加一个行号再担忧啊,来咱们一个来,首先我先从第21行开始,这个就是我们要配置的第一个叹号。
02:00
这个不用说吧,是不是就咱们用的数据库类型啊,对吧,就是买circle,这个没啥可说的,接下来下一个买DB house的是不是就是数据库的主机名啊,对吧?那当然这个也是带着端口号的啊,我们要改的话,是不是只改写份就行,你可以写IP,你也可以写主机名,我这写主机名了啊ado hi look是不是102啊对吧,这个没啥问题,好接着往下走看28行。28是不是U内嘛,对吧,咱们这个U没有用的是谁,咱就叫do盖对吧,所以在这呢,我直接复制给它粘过来是不是就搞定了对吧?好下一个再往下三十五行这个是什么。密码吧,对不对,所以说也是到斯盖这吧,对吧,这个改完就行了,然后再往下走,我们看第38行,呃,38行是组kper的那个集群地址对吧,那所在这呢,咱们应该给他配一下,呃,这个我就不再一个一个改了,咱们这个偷懒吧,咱给他复制过来吧,来CTRLC拿过来,拿了之后呢,我就直接把他的这个这一行给他删了,对吧,然后呢,我把这个咱们文档当中这个放过来。是不是就改成这种就行,没问题啊好,我们继续下一个,那再往下呢,看这这个是第41行啊对吧?41行是什么?是in install pass,这个其实就是啥呀,这就是我们一会儿真正的去安装DS时候那个安装目录对吧?OK,那咱们习惯上把它放在哪是不是OPT model下边对吧?那在这儿呢,我们就来一个OT,然后呢,Mo,然后边是不是跟一个高就完事了,对吧?这是咱们真正的安装目录,这一定要注意啊,OK,那实际上呢,一会儿咱们再把它配完,我们去执行那个一键部署脚本的时候呢,它就会把那咱们这个安装班的所有内容是不是分发到102 103和104这四台,这三台键点这个路径下来,对吧?诶这个路一下就行了啊好了,那接下来既然提到这一点呢,我再问一下大家,大家想想就是我们这个DS啊,你一会装好之后,它会有各种各样的组件,对吧?那每个组件是不是都会有自己的配置文件啊,对吧?好,那假如说我将来要改这个配置文件,大家说你应该改哪个路径下的配置文件?
03:56
你得改这个安装路径才行啊,你能不能说直接改一下,就是将来已经部署好了,我改我这个刚才咱们解压目录下边对里去,你就改有用吗?一点用都没有对不对,也就是说我们当前这个解压的目录在你执行完一键部署脚本之后,就没有任何用了,对吧?就没有任何用处了,对吧?这个一定要注意一下啊,好了,那这个完了之后,咱们继续往下走,那下边我们看第四十五行,第四十五行这呢有一个叫做deploy user这样的一个参数,叫做什么,这什么意思,是不是就是部署用户啊,对吧?这个部署用户咱们在这儿呢,你必须得注意一下,这个还不能随便写,那在这呢,我们写爱特股主就行了,我这儿为什么写特股主呢?哎,是因为你想啊,这个部署用户,他必须得具备一定的条件才行。
04:39
什么条件呢?你想想,首先第一个哎,就是速度的权限,那第二一个呢,就是啥呢?就是免密的权限啊,为什么一定要配置免密的,你想啊,一会儿你用它去部署这个DS这块它得干啥?它是不是得把这个安装包是不是分发到102,分发到103,分发到104啊对吧?那它要高大成功是是得具备免密登录的这个条件对吧?那所以在这儿呢,我们得用爱特硅五,那当然有些同学可能你之前用的不是爱特硅五,对吧,那你就用自己之前那个配了免密的用户去部署就行了,这个一定要注意啊,好了,那这个完成之后,我我们计划到爱五,这是不是就满足这个条件,对吧?没啥问题,再继那下边呢,我们看这这一堆参数都是跟什么相关的。
05:20
Alert con是不是跟那个报警相关的,对吧?大家来看一下这里面都是跟啥没有相关的,是不是就是邮件告警啊,对吧?那这些东西我们暂时先不配啊,啥意思啊,就实际上呢,我们这些参数你可以在你部署的时候配好,也可以先不配,你这时候要不配,那什么时候配呢?是就是装完之后再配啊,对吧?你装完之后你会发现我们每一个组件都有一个自己的配置文件,对不对,那到时候呢,你再去我们那个安装的目录下边找到相应组件的配置文件再去改也行啊,所以说这个通知对于我们这个最开始的部署不太重要,我们暂时先不去配,下午咱们再配套啊,好,那就在这儿呢,咱们直接跳过就行了,但是这些参数你还不能删,你得留着它。
06:03
能理解吧,OK啊好,咱继续往下走。来我们移直到哪啊,一直到呃,这个位置,这都是跟邮件相关的配置,咱们暂时不配,然后往下走,那下边的第77个参分对吧?那这个是一个database,那database d pass对吧?这个是什么呢?这是我们DS在执行的过程当中需要用到的一个,就是临时目录,是这样的啊,那在这呢,我们用它的默认值就行了,这个咱们就不用管它了,好,接下来继续往下走,下边一个参数标重要叫做第80行啊,叫做resource storage type。这什么意思呢?叫做资源存储类型对不对,大家注意啊,这个资源在这指的是什么资源。并不是我们就是常规的那个什么日计,就是那个计算资源,不是那个资源啊,不是什么CPU内存,不是那些东西,他这儿的资源指的是什么呢?是一些文件资源。文件说白了就是一些文件啊,什么文件呢?很简单,大家想想啊,就是将来DS是不是能够去调度各种各样的类型的任务啊,对吧,里边包括比如说map Spark,还有还有这个flink任务对不对等等的,就是这些任务咱们在提交的时候,你想想这些任务他们是不是会依赖一些文件呀,对吧。
07:14
会依赖哪些文件呀,最基本的是不是会依赖一个炸包,能理解吧?OK,那这些炸包就是我们这所提到的这些资源啊,是这样的,好,那你想一想,那我们在用DS去调度这些任务的时候,那它是不是会依赖于这些炸包啊,对吧?那那些炸包咱们给它放在哪呢?对吧,你他要想调度MR,他得有那个炸包才行,对吧,咱给他放在哪呢?哎,他就给我们提供了一个所谓的资源中心,叫做resource资源中心,那资源中心当中呢,我们可以存放每个任务所依赖的这个文件资源,比如说那些炸包,那些脚本,对吧,你都可以放在资源中心里边,然后呢,你再去配置这个调度任务的时候呢,你可以让这个任务去引用那个资源啊是这样的,好,这就是这个所谓的资源中心,OK,那在这个资源中心它的实现呢,可以有这样的两种,一种呢,就是HTS,也就是他会把你的炸包啥的都给你放在HT,也可以放在。
08:09
S3上面S3呢,也是一个分布式存储系统,是亚马逊的这样的,那在这呢,我们当然用谁呀。Hfs,还有一种就是nu,就是没有对吧?那我们是不是应该用HDFS对吧?这个一定要注意啊,好,那接下来继续往下走,那下边这个参数那就不用说是啥意思了吧,是不是就是你那个资源中心存储那些什么炸包啊等等那个跟路径啊,对吧?默认就是dolphin,那在这儿呢,咱们就用他就行了,他是说这个是不是is recommended的呀,对吧,是推荐的对吧,那咱就用这个就行,好继续往下走,那下边呢,我们看第88行,第88行的这个参数叫做default FS对吧?这啥意思。默认的是不是那个,其实说白了就是啥,就是HDFS那个主名的地址吧,对不对,OK,那咱看一下在这里边咱得怎么来什么HDFS,然后主机名端口二啊对不对,OK,那在这呢,咱们要配应该怎么的呀,我是不是应该是把my class改成hi do102啊对吧,然后呢,后边8020哎这么改就行了,但是这里边大家稍微注意一下,就是有些情况下呢,就是咱们生长过当中集取的我这个HDFS可能会启用是不是HHA呀,对吧,内蒙not的时候可能会有多个呀,对吧,在那种情况下,这儿应该怎么去配呢?来往上看他这其实给咱们已经说明了,来看这。
09:22
但如果你的这个resource单类型是hfs对不对?那完之后呢?这儿是不是就填那个name not的地址就完事了对吧?好,那如果是ha的这个情况下,你需要怎么做,将Co site和hdfs set这两个配置文件,这hi毒文配置文件对吧?给它放到哪?放到咱们刚才那个解压目录的com复下边需要放进去,放之后呢?然后这个位置你还能写这种什么主机名端口二吗?就不能写了,你得写啥来着,是不是得写那个ha的集群名称啊?还有印象吗?诶你要是配ha的话,你是不是得在Co赛当中是不是配上一个那个,呃,那那那个集群名称啊,对吧,比如说咱们当时应该都叫麦克class对吧,那在这你得写那个集群名称才行,这个一定要注意啊,完了这个咱们就不多说了啊,Ha怎么做上面有说明,照着做就行,然后继续往下走,那完之后下边是不都是跟S3相关的参数,这些咱们用配吗?
10:12
不用对吧,这个因为咱们没用的嘛,对吧,好继续往下走,下边我们看第96行,96行是什么,是resource manager的这个端口号啊,对吧,然后大家要注意这个resource manager指的是谁。就是雅安的resource manager,这就是雅安的resource manager这啊OK,那在这呢,你需要把它的端口号给它写在这,然后端口号咱们就这这就写那个HTP就写web页面就行了啊就是八零巴巴,那是这样的啊好,那下边还得配一个什么呢?说还得配一个雅安的IP啊对吧,也就是在这儿我们是不是需要把雅安的地址给他配一下,对吧,为什么要给他配雅安的地址?你说他调度个任务,他需要访问雅的页面吗?理论上我提交任务是不是就直接往眼上提交就行了,我需我需要通过这个外部页面去提交任务吗?不需要吧,对吧,外部页面是不是就用来查看我这个任务的执行情况啊,对吧?OK,那你说他要它干啥呀?
11:02
很简单,你想啊,假如说我们现在其实咱们大多数任务是不是都提到眼上对不对,那DS它需要解决一个问题,就什么问题来着,任务之间的依赖问题对不对,他得保证啥,是不是第一个完成之后才能提交下一个对不对,他怎样去确保第一个任务直接完成了呢?如果是往雅安上提交的任务,他就会干啥呢?访问这个地址,然后呢,找到相应的任务认,因为雅上面会有这个任务,最最终是成功了还是失败了,对吧,如果是成功的状态,他才会提交下一个,他其实干这个事儿的,所以这儿呢,沿的地址咱们得给他写上啊,好继往下走,端口号咱们写完了之后,下边就写IP了,注意这个IP咋配。这也有说法,也得分两种情况,一个是单机,一个是这个配ha,对吧,你得分情况去配啊,来看一下这个怎么弄,那如果说你的resource manager配配了这个ha了,对吧?雅安是不是也能配啊,对吧?好,那你这应该怎么怎么写呢?Police site the,这个ha hip对不对?啥意思啊,就是说假如说你配上ha了,那你比如说有两个resource manager,对吧,那你就需要在这个参数下边是不是配上两个resource manager的IP啊,对吧?好,那接着往下,这是ha怎么配,如果不是ha,单击怎么配呢?如果resource manager is single,对吧?来,Keep this value empty啥意思,你得把它置为空才行,对吧,这个一定要注意,所以说你这你得按照人家这个说明来啊,要不然那人就是解析不了的,直接把它,你还不能那啥,你不能把这个参数删了,你只能是把它的直质为空,能理解吧,OK,这个引号有没有都行,引号你可以有可以没有啊,这个也定要注意啊,好继续往下走,那完了之后,咱们现在把它置为空之后,是不是下边这个参数就。
12:40
配一下single雅安IP对吧,那这是不是应该写的咱自己的雅安的地址啊,应该是嗨度啊103对不对,好这个配好就行了,好102搞定,接来往下走一百零六一百零六,这要写的是一个什么呢?是一个HDFS的root用户对吧?也就是HDFS的超级用户对吧?诶大家问一下大家,你说这为什么要写一个HD的超级用户。
13:01
为什么?因为很简单,各位同学咱们回忆一下,我刚才是不是提到了H雅的DS上边有一个功能叫做资源中心啊,对吧,他是不是需要往那个HT放一些,就是咱们的那些任务依赖的账包什么的呀,对吧?好,那他要去访问这个hfs,那你是不是必须得保证他的有权限才行啊,是是是这个道理吧,他要没权限是不可能,诶这个资源我上传不上去啊,对吧?是这样的啊,所以在这儿呢,咱们得给他配置一个HDF的超级用户,那到时候呢,他就会用这个用户去访问HDFS啊,是这样的啊好了,同学,那在这儿咱们应该写谁呢?HDFS超级户是谁来着?还记得吗?哎,对,前面给大家说过,HDFS超级用户取决于谁,取决于name no的这个进程的启动的用户,对吧?咱们是不是用艾特GU器的,所以我这儿就是艾特硅谷就完事了。好了,那有同学可能会说了啊,你这写个艾特硅谷,那我访问HDFS的身份就是艾特硅谷。是不是这样的?是不是这样的,是为啥呢?因为咱们的HDFS我们启用认证了吗。
14:02
北有认证吗?没有认证,你说你是谁他就是谁,对不对?你说你是他股,他就会认你是他的五股,你说你是张三,他就会认你是张三,能理解吧,因为咱们没有启用认证嘛,对吧?是这样的,所以在这你只要配一个at股就行了,但是如果我们要是启用了认证了,各位同学什么叫认证还记得吗?所谓认我不是给大家说过嘛,就是我们HDFS,对吧,我们这个书仓是可以开启那个用户认证的,对吧?你在法官你就得输用我们书码时候才能认证啊对吧?如果我们启用认证,你这写个S5还管用吗?那就不管用了,那不好使了啊,OK,那完事,你要是启用了认证,这应该怎么配呢?大来看这这先生给你说了啊,他说if curs is enable curbos,大家还记得吧,这个是我之前给大家提到的一个网络认证协议,对不对?还豆是不是用的就是它呀,对吧?如果你启用了curbos了,OK,那下边这个参数就得怎么样啊,是不是也是智为空啊,对吧,因为你启用认证,你这边配一下就不好使了,对吧,没用对吧?OK,那你得怎么配呢?往下走,启用了科ver认证,那你就得这么去配了。
15:03
OK,那这里边儿有一些科目相关参数,大家可能不太清楚啊,在这儿呢,我给大家说两个重要的就行,就是他俩。你把它俩看明白就行了,这个干啥呢?是不是指定一个curs的用户名,这个是指定一个curs的密钥文件,用户名密码你给他了,是不是就能证明你自己的身份来,对吧?哎,就得这么去配了啊,但是咱们这没启用Co这些参数咱们就不用管了啊好,现在我们继续用阿,那再往下呢,我们看哪,我们看这个参数。API server的端口号12345对吧?变好记对吧?那这个你可以自己调啊,可以调,那接下来再往下走,那这是不是还有一个IP啊,对吧?这个是啥意思呢?看上面怎么写的,他说是install houses,是不是就是你要部署的那个主机啊,对吧?那咱们现在一共要往几台节点部署DS服务?是不是三台对吧,那三台我们都要写,因为它一会是不是要分发呀,对吧,一个是103,还有一个是104对吧,三个都写好就完事了,那接来往下走,下一个呢,就是SSH泡的,因为它是不是要进行免密登录啊,对吧,那咱们pod改了吗?
16:05
没感就是二二对吧,用默认就行,好,现在往下走,Master这个简单吗?Master在这儿呢?我们可以配什么,是不是就是102就完事了对吧?来,我们在102装了个master,好,起码走那下边不该这个worker了,对吧?这个worker咱们三台阶点都有对吧?那三台阶点都有这个怎么写,好像看起来有点复杂对吧?零三这单怎么写啊,他在这呢,我们需要去写。什么东西,The worker group name of1worker the default value is default,什么东西,这是,哎,很简单,从这我们应该能看到一个概念,就是说什么概念呢?就是worker组,对吧?也就是DS呢,它是会对worker进行分组的,哎,可以进行分组,那在这儿的啥意思呢?默认是不是得多个worker都属于同一个default组啊,对吧?OK,那这个分组有什么用呢?它有这样一个作用啊,那大家来说一下,大家来看一下它是这样一个作的,OK,假如说我现在呢,对worker进行一个分组,对不对,比如说我现在三个worker对吧,完之后呢,我这两个worker属于同一个组。
17:06
能理解吧,好,那将来你再去调度任务的时候,你可以怎么调啊,你可以指定你这个任务运行的worker组,比如说我指定的,好,那么之后呢,将来我的这个任务只会分配在这两个worker上面,另外的这个worker它就不会去分配了。能理解吧,同学们,OK啊,那这个东西有啥用呢?其实有一个非常明显的场景,各位同学们来思考一下,大家想想吧,就是将来我们这个工作流要调的是啥?是不是要调咱们那些脚本对吧?那咱们那些脚本里边执行的具体的命令是什么?大多数的命令是不是都是have杠一啊,对吧?那能理解同学们好,那你假如现在我们现在这个worker人分在三台节点,234都有对吧?但是have只在哪台节点有?只在1021对不对?那你想一想,如果我现在让这个DS把这咱这个脚本对吧,任务去随机的分配对吧?你比如说它分到了104,在104这台节点去执行那个脚本能执行成功吗?肯定成功不了,因为里边根本就没害我对吧,是不是直接直接害我就报一个什么命令找不到了呀,对吧,是这样的,好,那我怎样解决这个问题呢?其实就可以巧妙的利用一下这个沃克分组,对吧?我可以怎么做呢?我给102这一台节点分到一个单独的组里边,对不对?那将来分任务的时候呢,我把这个任务分到102这个组,那所有的任务是不是都只在102执行了对吧?哎,那这样一来就能够诶保证这个任务里顺利执行了,OK,那当然这只是worker分组的一个应用,OK,那咱们先体会一下这个事儿就行了啊好,那在这儿呢,我们需要按照要求给它配上这个博块图,在这儿呢,我就不带一点写了,我直接把这个文档里边的复制一下,在这坚持一下啊,马上完事了。
18:37
C,拿过来,拿来之后呢,我给它放在哪,放在这个位置,DD,诶拿过来完之后呢,咱们直接回车,哎,这个放在这好了,这个worker是不是咱们就已经搞定了,对吧?好,那现在继续往下进行看这下边还有俩参数,那一个就是aler的server位于哪台基点,这个咱放哪是不是就放在hi lu102就完事了,还有一个是APSO,那在哪,咱们也在high look就完事了。好了,截止到现在我们这个参数就都配完了,好,那都配完之后,那接下来我们要做的工作就是干啥呢?就是一键部署这个dophin together OK啊,那这个一键部署呢,咱们就放到下午再去做吧,因为这里边还有一些注意事项需要去说啊,OK,这个咱下午再说啊。好了,我最后再提醒一下大家啊,大家自己去部署或者去配置这个文件的时候,千万不要直接把文档里边的给它复制过来,把这个原有的删除,一定要一个一个去改,对吧?啊一定要注意一下啊,行了,就是这么多。
19:30
啊好,各位同学,那咱接下来要做的工作呢,就是去一键部署一下这个open sky这了,那当然了,各位同学咱们来稍微注意一下啊,你会发现啊,就是咱们在执行这个一键部署这个脚本之前,就是那个因到SH对吧,之前需要先先先把谁写来,先把组K写了,为什么是这样的啊,这块我需要给大家解释一下,实际上他这个所谓的一键部署脚本,它除了会帮我们去部署DS之外呢,它还会干啥呢?它直接就给我们启起来了啊,这样的就是在你一会儿执行完了这个in install sat脚本之后,它直接就给你部署,然后就给你启动起来了啊,然后呢,咱们启动do sc是不是需要先启动组K啊,对吧?因为咱们能看到它是依赖于组K的啊,所以说我们在执行这个一键部署脚本之前,需要先把ZK提起来啊,OK,那我这这个ZK应该是没有起,我检查一下啊,那这个敲错了XGPS一下,我这ZK是没有起的,对吧?那我这只有谁,我只启动了high度op的这个相关进程对不对,然后大家那会也是一样的,在执行这个in install sh之前呢,把一些无关的进程都给它关掉,因为这个比较吃内存啊呃,然后呢,只留下hi doop进行说进进程就可以了,你像之前咱们是不是得起什么so啊,对吧,甚至有的同学那边什么mawell啊,什么flu啊,卡不卡这些东西可能还都起着呢,这些东西咱们暂时用不到,就全部都关掉,只留下hi loop,然后呢,再把组kper提起来就行了,来,我们再起一个组kper走啊,就是尽量的节省一点内存。
20:58
啊。啊,行了,那这块咱们该写的就都已经启动起来了,嗯,那接下来呢,咱们继续往下进行啊,那我这个组开班已经有了,对吧,一个两个呃,三个没啥问题,现在我们就终于可以去执行一下这个所谓的install.sh咱们找一下那个脚本啊,在哪呢?应该是在这个位置对吧?那现在呢,我们执行一下这个点杠,然后呢,install.sh直接回车。
21:21
好,那现在这个刀子盖伦就开始干啥了啊,就开始按照我们自己在那个配置文件里边的规划去分发去配置这个DS了啊,那现在我们要做的工作就是等啊,咱们等一会儿。现在应该是在做分发啊。呃,其实我们可以再开一个102的窗口,咱们去看一看,就是那个目标路径有没有生成啊,如果它没问题的话,是不是应该会在o PT model下边产生一个新的路径了,对吧?咱们去看一下来看这已经有dolphin schedule了,对吧?好,那接下来我们在103再去看一下,我们CD一下到OPT model这里边有没有,这里边其实也有了,对吧?我看其实他现在在做分发,但是还没有完啊,等会吧啊。
22:08
等它启动完之后,嗯,那我们再看一下它这个启动的结果啊,好,其实现在是在启动了。现在你看是不是在启动什么log so啊导演是在启动这些东西啊,对吧?好,那我这儿已经是不是运行完毕了,对吧,完毕之后,那现在呢,我们先来查看一下它的这个进程啊,我执行一个X号GPS,看一下它启动的进程都有哪些啊。那一大串对不对?来咱们一个看啊,先看嗨路102这些节点,呃,嗨,102这些节点呢,咱们新增的进程有master server,这个是正常的,对吧,还有worker server,这个也没啥问题,然后呢,还有什么,还有一个API application server,对吧,这其实是那个API server对不对?然后呢,我们再来看还有一个谁,呃,Ler serve吧,呃,Ler是不是咱那个,呃,什么东西啊,就是那个告警服务对不对,那除此之外其实还有一个。就是谁就是log server,哎,这个log server其实就是专门用来提供什么的日志服务的,对不对啊,那理论上log server跟worker server他俩应该是怎么样的同时存在的吧,对不对,没问题吧,OK,因为loger server就是要把worker server对不对,执行的那个任务的日志是不是提供出来,然后再让我们UIE去进行访问呀,对吧,是这样的,那所以说只要有worker就应该有log啊好,那现在咱们继续往下看,102这这些进程都有,那现在再看103是不是也是有一个worker server,还有一个loger server,对吧?然后往下走,104其实也是一样的,Worker加loger server,好,那现在我这个进程应该就算是都启动起来了,好,那启动起来之后呢,那接下来呢,我们可以尝试的去访问一下这个dolphin sc的UI界面,因为将来咱们用它是不是都是通过那个UI界面去访问啊,对吧?好,那这个UI界面的地址是什么呢?咱们往下找一下来,在这儿呢,我已经给大家列出来了啊,那现在咱们把这个地址拿出来,咱们访问一下。
23:56
好,那我现在放在这儿啊,那首先咱们一起来看一下,我放这个里边来一起看一下啊,首先这个主机名是嗨百幺零二对不对,那大家要注意啊,那我这个是根据谁决定的这个主机名啊。
24:09
对不对,我我我我是根据master确定的呀,根据work确定还是根据啥呀。应该是那个API server啊,API API serve在哪些节点,那咱们是不是就应该去访问哪台节点,对吧,这个要估一下啊,好,那那往后走看这这个是什么断号呗,对吧,12345这个不多,这个能不能改呢?其实能改的对吧?好往后走,这是我们访问的一个路径,叫做dolphin sc,好那现在呢,咱们就直接回车。OK,那主管家这个页面是不是就能够访问了,对吧?哎,当然,呃,我们从启动完这个DS到访问它是不是已经经过了一段时间了呀,对吧?因为刚才我们看了一下这个进程啊,是这样的啊,然后如果大家说你刚把这个DNS装好,刚启动起来,你直接去访问这个页面的话呢,可能暂时是不能访问的,因为它启动哎需要一定的时间,你稍微等一会儿,等一会儿这个页面就能访问了啊好,那现在咱们已经来到了这个呃页面了,能访问就说明咱们这儿已经启动成功了啊OK,那现在呢,我们其实可以登录一下啊,那登录的时候我们目前只有一个初始的用户,这是一个管理员用户,用户名呢,就是dmin啊OK,拿过来那密码是什么呢?密码就是dolphin scheduler123,这个密码稍微的有点长啊,可能可以再拿过来,然后呢,放在这个位置,好,那现在呢,我们就可以直接登录了,好,那完了之后咱们就现在,咱们现在就相当于已经进到了哪儿,进到了dolphin盖一个首页了,这就是它的一个首页啊这样的好,那其实来到这个首页之后呢,我们大家首先看到的就是什么东西。
25:34
就是什么任务状态统计,什么流程状态统计,对吧?哎,在这儿呢,既然看到它了,我就多说两句啊,实际上在这里边呢,有两个核心的概念,咱们大家从现在开始就要来特别对待一下,就是分别是什么呢?分别是流程还有任务啊OK,在dolphin sc当中,流程指的是什么呀?是一个工作流对不对?那我们一个工作流是不是由多个节点组成对吧?而且有强后的依赖关系对吧?这叫做一个流程,OK啊好,那任务在do分干这里边指的是什么来着?哎,是流程当中的一个节点,是不是称之为一个任务啊,对吧?好,大家可以看一下他这是不是有任务状态统计,有流程状态统计,你看里边有什么,什么提交成功的,正在运行的啊,什么准备暂停的,对吧,什么最终成功的,最终失败,最终停止,是不是会有各种各样的统计啊,对吧,目前当然刚装完都是零,对吧,都是0OK啊,假如说举个例子,我现在就有一个这样的工作流程,我让这个DS给咱们跑了一下,让他跑了一下,结果呢。
26:35
跑成功了对不对?那你说这个统计这块会发生什么样的变化,流程状态统计里边是不是成功的,这应该会变成几一吧,注意这是一个流程,跑成功了一次对不对?好,那么这个任务成功的应该有几个呢?四个对吧?就是咱们得会看这个东西啊,就这个意思,任务和流程在DS里边是有特殊的含义,一定要认真的对待啊,再强调一下,流程指的是整个工作流,任务指的是一个工作节点啊,这个搞清楚就行了,好了,那到目前为止呢,咱这个DS的安装应该就算是完成了啊,来视频我先给他停一下。
27:08
呃,好了,各位同学,那刚才呢,随着我们的一键部署脚本的执行,那这个doin sc的全部进程也都启起来了啊,是这样的,但是我们也考虑到,如果我把它关了,我再想启动,那我应该怎么去做,对吧?好,那怎么去去怎么去做呢?很简单,DS呢是有它自己的这个启停脚本的,对吧?那现在呢,我们就来看一下它这个对应的启停脚本。这个启能摇本都在哪放着呢,都位于dolphin sc的,注意我后边是什么目录,是安装目录的bin目录下就什么意思啊,其实到现在啊,就是咱之前的那个解压目录,就是op pd software下面那个假目录,还有用啊,没用了对不对?那以后你去调用这个DS的脚本,或者说你去改DS配置文件,都得去哪找,都得去安装目录下面去找,也就是OPT Mo下边那个do SP里去找,OK啊,这个要注意一下,好那咱现在呢,就去找一下这个对应的起形脚本,我们CD的OBD model dolphin sc,注意是这个路径啊,好,那进来之后我们进到它的并blue,并目blue里边呢,大家来看一共有这样的三个脚本,对不对?这三个脚本分别是什么呢?先看第一个叫做dolphin schedulemon,点这是干什么用的?
28:16
做单点启动的啊,是做单点启动的,OK,好,那这个单点启动怎么用呢?你可以直接调它一下,直接回车,他就告诉你了,哎,Usage就是用法对吧?Dolphin sc.SH,然后后边呢是呃,开停,然后状态对不对,然后后边呢,你可以给他传相的参数,你比如传APSO,这是干啥呀?是不是启停那个apo那个服务啊对吧?那这个是master worker alert,还有stand,注意这个stand还有印象吧,是不是那个什么单机模式就用它起就完事了呀,对吧?OK啊,这个稍微的注意一下啊,行了,那接下来咱们继续往下走,那这个是用来做单点启动的,那这俩是干啥用的呀?群起拍对吧,你要直接调用start all,那所有的这个服务都会起来,一定要stop,所有的服务都会停止啊,是这样的啊,那这些咱们得会用才行,然后呢,关于这个start off,还有stop这俩东西,咱们必须得稍微的注意一下啊,必须得注意一下,大家看这两个脚本,就是看他眼不眼熟。
29:11
眼熟应该有点眼熟吧,就是hi doop hi do啊,它是不是也有群体脚本对不对,它里边是不是也会有一个stop out,还有一个stop out.SH有印象吗?对吧?你比如说我现在直接举个例子啊,我直接使用在我就在执行,我直接调start or,然后点SH,你说我直接回车,它现在是起DS吗?是不是,是不是你可以看一下啊,就怎么看呢,你可以前面加上一个位置,位呢,是能够展示出来你这儿执行的这个命令所在的绝对路径的,你看我直接回车,大家看你实际上执行的是哪个呀?是hi doop那个start out sh啊,为什么?因为你说之前是把hi doop这个目录是不是放到那个pass这来,对吧,所以你这直接执行,你其实执行的是hiop的气体命令啊,当然呢,你同理,你那直接执行一个stop啊,是不是也是high度的那个挺的命令啊,对吧,那所以这块一定要注意,那所以说你要想用这俩脚本,你得怎么办呢?是不是用全路径或者用相对论音引行,但是你得指向这个。
30:12
在行对吧,比如说诶我来一个点杠stop2.sh,哎,或者是点杠stop2.sh能理解吧,这个一定一定得注意啊,这是大家特别容易出错的,出错的地方,好了,那这就是咱们这个启停啊这个事儿好了,那现在呢,我文档当中也给大家列出来了啊,就是说呃,怎么去呃进行这个这个一键启停,怎么去进行这个单点启动等等等,这个不用记,这个你是不是,你要是忘了的话,直接是不是敲一下它就给你提示了呀,对吧?哎这个就没啥可说的了,诶这是关于咱们这个DS如何进行启停,这个要注意,呃这个完了之后呢,还有一点需要注意啊,呃就是关于什么呢?咱们这个DS的配置文件的修改说明,呃,配置文件的学问,咱们这举一个具体的例子,比如说之前咱们在部署DS的时候,咱们是不是有一部分参数是没配的呀,对吧,主要是关于谁的那个关于告警咱是没配呀,对吧,你要是没配的话,那是不是将来咱得配对吧,将来要配咱们去哪改配置文件呢?注意是不是不能再去OPT software那个解压目录去改了,对吧,必须得在咱当前的。
31:12
这个安装目录里边去改,关键是改谁,对不对,咱们改谁还是改之前的那个什么con点那个com吗,还是改那个吗?因此到点con的。com还是改那个吗?不是了,咱们不改那个文件,那个文件已经没有任何作用了,对吧?那咱们应该改谁呢?OK,那注意观察我们现在进到哪,进到安装目录的康复,你进来,进来之后你会发现这里边实际上是有一大堆的配置文件的,对吧?来我们逐个来看一下,那首先我们看第一个。这个叫做什么呢?Alert properties,这是专门给谁用的呀?看明就能看出来,这是不是就是给alert sor用的配置文件对不对?那你再往下走,这个是给谁用的,是不是application API,然后点是给那个AP用的配置文件呀,对不对?那再往下走,那这还有一个,呃,Data source,当时跟数据源相关的,对吧?这个不多说,咱们往下看看这这是给谁用的,给master用的对不对?那这个呢,显然是给worker用的,这个是跟主kper相关的配置文件,你会发现是不是每个服务都有一个自己的配置文件呀,对不对?好,那要改的话,我们就得改这块的配置文件啊,那当然这里边还有一个common progress,这个呢,是一些通用的配置属性。
32:19
OK啊,那在这儿我们就不再逐个打开了,呃,咱们这就还以这个具体的场景啊,比如说我现在就想配置那个与什么相关的,与告警相关的,那咱们改谁肯定是改alert proper对不对?那我改哪些节点呢?我所有节点都要改吗?用不用不用,你记住一个原则,对吧,你的alert serve在哪,你就改,这就完事了,我aler so是是不是只在102这一台节点起来呀,对吧,只有这儿是不是有2024,所以只需要改1020呢,三和四你不用动,但是如果你现在改的是worker的配置文件,OK,那你三个节点是不是都有worker,那你改完是不是才需要去进行分发呀,对吧?啊,这个一定要注意一下啊,OK,好,那现在呢,我们继续往下进行,我们应该打开alert star proper,你会发现这里边是不是就是刚才咱们没配的那些参数啊,对吧,到时候咱们就得在这儿去改相应的配置,当然这个改完之后得干啥?得重启才能生效吧,那我重启,我需要把所有服务都重启,没必要,只需要把alert sor给它单点起,呃,停启一下是不是就完事了呀,对吧,这个注意一下就行了,OK,那这就是咱们如何去改配置文件,一定要注意得改这儿的才能生效,原来的那个路径已经没有任何用了,跟这儿已经没有没有任何关系了,是这样的啊好了,那完了之后呢,我们再继续往下进行配置文件,咱们会改了,那接下来呢。
33:36
再给大家说一下,就是如果我们这个DS对吧,你启动启启动之后它有问题对吧,有错误对不对,那我应当怎么去排查这个错误,看日志对不对?好日志在哪看,就是咱们每学一个新框架的时候呢,你一定要知道这个日志在哪对不对啊,一定要知道知道日志在日志在哪呢?其实一般都是在它这个安装路径下边会有一个logs对吧?OK,那你现在呢,就进到这个losss,那这个losss咱们怎么看呢?这么一大堆的人怎么看啊,你会发现,你仔细的看,你会发现实际上是一个服务一个日志对吧?这跟跟highoop是不是有点像,我们hioop那个日志下边路径下边不是也是一大堆日志啊,对吧?但它其实也是怎么样的,一个服务一个一个日志嘛,对吧,Name no的一个日志,No的一个日志,No no manager一个志等等等等,那咱这也是一样的,这是哎这个alert的日志对吧,那这个呢是API的日志对吧?这是master的日志,那这个呢是worker的日志,那这里边呢,就是谁出问题你就去看谁的日志,那就完事了,对吧?比如说举个具体的例子啊,假如说在这个页面上面,比如说。
34:37
我去做某一个操作的时候对不对,那他这提示这个报错对不对,你甭管他报什么错,就是报错了对吧,比如说什么创建什么什么东西失败了对吧等等的,比如出现这样的问题,你应该找谁,是不是应该找APSO的日志啊,为啥?因为前端UI页面上面的请求是不是发往了后台的APSO啊对吧?哎,他只要一报错,是不是大概率是APSO那块是有问题的对吧?那这时候呢,你就可以这样去做,你比如说你就监控着这个apo的日志,找到DS,找到API,然后点到你就监控着它实时监控对吧,然后呢,你再把刚才你出错的那个操作再执行一遍,那完之后是不是就能看到他报什么错了呀,对吧?这样方便快速的定位,问题就是咱们大家得知道自己怎样去解决这些问题啊好,那行,那暂时咱们就先说这么多啊,DS的部署到目前呢,就算是全部完成了,来视频我停一下啊。
我来说两句