- 00:01 - 好,那我们现在其实本地文件系统当中第一个批量上传是不是有了。对吧,对于整个的文件我们给他上传上去,它的一个效率比较高,但是呢,它有缺点就不能。监控这种什么动态变化的,其实在生长环境当中,这种动态变化的数据还是蛮多的啊,这种产品第二那动态变化的有人提到了,那我们用exec呗。但是大家发现这个eec这个有什么问题。如果说这个A着呢,我用的ECC,如果说它这个当前这个A着呢,挂掉会怎么样?如果说他挂掉了,你想一下挂掉了,有同学想我们重启一下呗。重启一下。会怎么样啊?会发生什么事情? 
- 01:03 - 那因为我们说的T跟F这种方式。它默认监控的是从最后第十行开始吧。就读最后十行,那一旦你挂掉了,假如说挂了一个小时。你接下来这一个小时当中呢,你生产了1000万条数据。最后你启动只读了这1000万的什么,最后是最为什么?丢数据是不是对吧,一旦挂掉了它会丢数据啊,同样的还有一个,其实它要杠F啊,你可以写一个杠C加零。这个参数。这个参数干什么用的呢?就是它要干默认不是读最后十行吗?杠C加零,就是每一次都干什么从头读,那这个也有问题吧,就算有这个参数是不是也有问题。我挂掉之后,我又从头读。你前面那一堆读的不白读了,不是重复数据嘛,对吧,所以exec这个呢,它存在单点故障,因为它不支持这种断点续传。 
- 02:05 - 断点续传这个东西。听过吧,你们的那个网盘迅雷等等下载东西不是断点续传那个方式吗?对吧?哎,你这次没下好,没下好电脑关了断网了,对吧,联网了之后接着下吧,是这个意思那。其实ESC这个东西我们之前说过,在测试环境当中用的比较多一点啊,在生长环境当中我们会用到另外一个叫。Tell。这个组件它就有一个断点续传的一个功能,OK,那我们还没讲那个ttr,如果说让你设计一个这个S,不用啊,你你不用说具体代码怎么写,就让你设计这种思想,让你实现这种断点训练,就是说这个任务挂掉了。我等我起的时候,我还能接着上一次这个地方开始读,那你想想应该怎么做这个事情,是不是应该上一次,就每一次读完之后,我都把读的位置干什么记录下来,而且还不能保存在内存这种环境当中,因为你保存在内存,你不白保存了吗?你挂掉了,什么都没了,对吧,保存在一个非意识存储环境是不是? 
- 03:18 - 叫非易失存储观念。容易丢失的对吧,就类似于内存啊等等这些东西,我们可以放在MYSQL,可以放在本地,本地系统等等都可以吧,啊其实人家这个TDR也是这样来的,在1.6的时候还没有TDRR,那个时候如果说想实现断点学压,真的就是自己写的。就自自定义造来做这个功能,但是1.7的时候就已经添加了这个功能啊,1.7,所以我们用的1.7,而且生产环境当中,目前用的1.7还是蛮多的,1.6有点老了,有点老了,很多功能都不支持啊,很多功能不支持,那我们接下来要讲的这个SS呢,就是诶,它可以。符合断点续传啊,同时呢,它还还能同时监控多个文件夹里面的多个文件。 
- 04:07 - 能听懂,它不光能监控多个文件,它能监控的是多个文件夹里边的多个文件。假如说你A文件夹里边。有一二两个文件,B文件夹里面又有什么?三哎,我同时监控这三个文件都可以啊,它的功能比较强大,但生产文件当中更多的我们还是兼顾一个文件。啊,监控一个文件会多一些啊,会多一些,就类似于have点。对吧,你不是每天滚动一次吗?我只要指明我监控的have.log就OK了啊就OK了,那你他滚不滚动没关系啊没关系,OK,那我们来走了。看一下我们整体的一个需求。那这个当中呢,是被监控的目录随便了啊,附录里边呢,来一个发小斯这个目录,那我们就这样,这个范小斯里面呢,有一点KT2点KT,我们要监控这两个内容上传到HDFS,其实我我现在都不想上传到HDF,我想更直观一点就是。 
- 05:04 - 打印到控制台可以吧,因为上传到HDFS,如果打印到控制台能打印的话,只要把那个什么。把think改一下就上传到HDFS嘛,而且我们通过两个案例通过的啊,我们就更简单,因为你上传到S,然后还把HDF东西下载下来去看吧,啊比较麻烦,我们直接打印到控制台,这样更直观一点啊,OK了啊啊,那我们接下来核心的东西还是去创建配置文件吧,那这个时候我们又新的新引入了一个组件叫。Tell啊,就是这个内容啊,就这个内容,那我们重点呢,就要去看一下它的一个给的信息啊的信息,OK,这里面呢,去追加内容啊,至于你追加什么内容,这个就无所谓了啊,就无所谓了,之后呢去HD查看,那如果说我们改到log啊,那直接在控制台就看了吧,啊比较方便一点,是这意思。这是需求,然后呢,我们去解决一下它,对吧,来还同样的进到这个地方来叫tell。 
- 06:03 - 电,哎,直接就到这来了吧,啊,直接就到这了来看。China的类型,这两个我都不想聊了,对吧?啊,自己有的OK,然后接下来两个东西是不是也是黑体。嗯。一个叫文件组。他说指定什么。文件组的一个集合,一个list。一个list啊,也就是说这块呢,可以配多个,我们今天说了这个地方呢,你配的是什么呢?文件夹啊,配文件夹就这意思,好,然后你看啊,这个group是点group。而且这个勾内容它比较奇怪,它用中括号。那这个东西是表示什么意思呢? 
- 07:02 - 用中括号表示呢,这个东西呢,你不能直接这样写它的名字,不是他来看这个文件组,这我们是不是可以取A1组,A2组。对吧,我们说了这档代表了一个整个这个文件两个组啊,代表假如说你想的是写的两个文件夹啊,以文件夹这个命名的,好,接下来这个组里边你想监控哪个文件,你在这上面写,那怎么背呢?是fair group.ae。然后后面配一个什么。文件名好,然后group.a2,然后又一个什么文件名能听懂。那我们来看一下它底下有意思吗?来。你看这两个,看这一个。能看懂这个是什么意思吗?现在对于这个t source来说,它要监控两个组里边的文件。 
- 08:00 - 对吧,啊,监控两个组里边文件一个叫F1,一个加好,最终这个F1F2在哪了,你看。是不是应用到fair groups,点f1groups.f2后面跟着是什么?具体的文件吗?哎,那组一呢,是这个TEXT1底下example点组二呢。只要他二这个目录下有那就可以了,你看这个。有了个点是吧,心嘛,然后log又是心对吧?啊,前后都可以任意字符,只要中间包含这个内容就够了吧,也就这意思,它有两个组监控的内容啊,监控内容也就是说这里面呢,可以监控多个文件嘛,啊监控多个文件,甚至这个文件还来自于不同的什么。文件夹是不是都可以啊,啊,它的一个功能就比较强大了啊,比较强大了,好,那这个东西我们了解了,了解之后呢,我们来。写它那个什么。 
- 09:00 - 配置文件对吧,啊配置文件好,同样的CD的需要里边还然后VI我们touch吧,看这个呃,这个呢是fair。是吧?HDFS,哎,不是叫那个芙蓉。嗯,这个呢,我先做了这个logo可以吧啊,因为HDFS已经写的挺多的啊,因为这张路通过了就够了啊,通了就够了,Logo呢更直观一点啊,更直观一点做。啊,CB。出来,然后呢,我们打开这个文件。这个呢,给它关掉啊。在这里边啊,点开,呃,是那个file小斯对吧?啊,多个路径啊,多个按照我们文档当中需求,我们应该监控的是from file小四里边一点t ST file1跟二吧,这两个文件好。那我们先把它装建好,Make第一个什么。范斯,CD的范小斯里边我们touch一个。 
- 10:02 - ffell1.txt对吧,好,然后呢,它是一个什么。二啊,这个文件名呢,你就随便了啊,等会呢,现在都是空的,我们要往里面干什么。传东西啊,要往里面传东西啊嗯,那接下来我们把这个配置文件写一下,有的东西呢,我们就考一下啊来。到这个地方好变量,然后找一个logo。这个是log的对吧,好,这个log点开,然后呢,Ctrl a ctrl c给它复制进来了,复制进来那我们把它给它干什么。删掉log,这个保留了吧,我们说了用log来代替这个,等会log测完了,我们也可以测一下,这个都无所谓就快了,好,然后这个地方类型我们要写一下,从官网拿吧。类型叫还有电压,注意这个是大写,你不要。啊,你们要注意,你要注意了,它里边是大写就大写,小写就小写啊,不要自己想着,哎,把它改成小写好,那继续。 
- 11:02 - 是不是要一个。对吧,啊,发给他拿过来。放在这好,接下来还有一个什么。发groups点什么东西对吧?啊,这个内容给他能了。好啊,那接下来我们接着往写啊,呃,这个地方呢,我们还是一样的叫它。CTRLC给它复制到前面对吧。来把它。不到前面group等于我们来个名字叫F1可以吧,啊叫F一点,那这个地方怎么写F1对吧?啊看方方呢,我们知道点F1那两个。文件啊,两个文件,那这样呃,既然官方文档上写了什么C,那证明C应该可以用,对吧,两个文件都是叫TST是吧,那我们就这样写一下CD到这个什么。斯里边PWD,诶,把它拿过来。那下面有一个什么新点D,因为官方文档告诉我们新可以用嘛,对吧,那我们就用一下新,我们就不用写两个了吧,当然你这个地方写一个什么。 
- 12:08 - fair1.td,然后把它复制一份,再改成2.td能不能行?可以吧,我一个一个配也可以吧,但是官方文档里面是不是用到新了,那我们就用一下新啊,用一下新我们试一下,如果不行的话,我们再改回来也可以吧,哎,改回来好,那对于我们正常的使用来说,是不是这些东西已经够了。对吧,因为它那个黑体,我们东西都已什么。配完了,但是其实还有一些东西我们要去配一下,主要的还是这个。叫。叫位置文件。那你猜一下这个位置文件是什么东西?来看这,他说这个文件是一个接S文件对吧,其实你看后缀名也知道啊,他点接就是一个接S文件,他说格式化的一个record the inold。 
- 13:04 - I弄的是什么东西,拎怎么念系统里边。它是按照文件名去标识一个文件的吗?不是,它每一个文件呢,就是你生成了一个文件之后,它有一个唯一的IO的,因为文件名我们可以干什么,可以改,不能相同,相同不行可以改了,这个叫1.tst,我能不能把它改成叫2.tst啊。对吧,但是有一个东西,这个文件生成改不了挨弄的,所以他记录的位置信息呢,他跟着什么挨的来了,能听懂啊,跟你挨诺的,然后这边还说了。决斗中心一个地址,I的决斗中心一个地址和什么最后的一个位置,什么位置呢?对于每一个被监控的还的一个file来说,被监控的路径,也就说你上传读了文件,读到第十行,我就要记录到第十了。是这个意思能听懂啊,那这个东西呢,呃,它有默认值啊,默认值那尽量的我们不用这个默认值OK吧,它这个存在哪的呀。 
- 14:10 - 录点还来了一个隐藏文件,是不是?我们不用这个啊,我们自己配一下,因为这样我们好看一点,是不是在这个地方放在这,然后呢,前缀是不是也要一样的,对吧,这个东西不能少放在这,然后呢,我们写一个,我们把它放在哪呢?放在里面可以吧。放在芙蓉美元,我们专门来一个这个position。Position,然后叫position的一个什么。点杰森可以吧,啊,专门的给他放一个路径没问题吧,点杰森其实另一个磁场,你叫不叫点杰森,这个也无关紧要,对吧?啊OK,那这样我们主要的就做这个事。啊,就把这些东西给他配一下啊,给他配一下这个就配完了啊,这个呢是配置文件,我们。 
我来说两句