00:00
呃,那既然我们要用到法的话,所以我们应该先把法给他开一下吧,因为我们要上传东西到。稍等我去起一下,起一下之后呢,我们把这个命令正好就不耽误我们把它敲完对吧?命令还记得命令命令启动命令并,然后呢,对我写完了并就并说接下来呢,忘了吧,分成NG啊,然后跟着是A,真的,然后这三个参数杠N,杠C,杠F,顺序无所谓对吧?好,那杠N还是A1吧,我刚才用的A1啊,两个不同时起,无所谓啊,不是说配置文件人家用了你就不能用了,然后杠C我们用的是com,其实com里边我们没有做其他的配置信息,嗯,你也可以不写这个可以省,因为它默认的也是读这个地方,除非你把有一些room核心的配置信息写在其他目录,一般我们要指定一下啊,杠F是我们自己写的,是不是room这个内容啊,对吧?等还是这FS启动啊,然后呢,我们得等到。
01:18
退出安全模式啊好,安全模式退出了,然后呢,我们到这来,我们刚才配的路径是不是在根目录下有一个号,现在有吗。现在没有对吧,因为还没启动好,那接下来呢,我们就把这个内容就启动,启动之后我们是不是应该去开have,对吧,因为我们监控的是have的日志,对不对,我们准备好了,好这边呢,启动它呢,其实也是一个前台进程,如果说我们想把它挂到后台的话,也是一样的,还记得之前我们讲过的那个have so to和store服务吗?用no HUB。对吧,然后对挂斜,最后更关键的还要加一个语符号挂到后台对吧?啊挂到后台啊,是这样的一个形式啊,那也可以行,那我们去操作咱们的have b have啊这个时候呢,Have它是会干什么,生成日志的Mo到这个还里边跳杠F,我们手动去监控一下,对吧?诶点log还在刷新数据吧,那按照我们所说的正常来说。
02:32
弗,应该能监控到了对吧,然后呢,我们去这刷新啊。有没有出来了吧,点开,然后呢,我们刚才是不是粘接是中间没有加什么杠嘛,我们配置信息是不是挨在一起的呀,对吧,挨在一起的,然后里边肯定还有一个过路胶。14对吧,肯定叫14嘛,因为小时刚才的14啊,然后点进去它一个文件,哎,已经生成两个了,因为已经过了30秒了,就刚才我们聊天的时间是吧,那我们这样啊,好,他刚才大家有没有注意到它这个文件没有叫开始叫什么叫太猛对不对啊,那个临时文件,等30秒时间过了,它就变成了这样子。
03:12
啊,这是当时生成这个数据的文件的一个时间,那这样啊,我们操作一下have,呃,一定会产生日志的select,看on c这种是不是一定会产生志啊from这个EP啊,随便走一下啊,你看这就行,这肯定会打印日志,对吧,那我们在这刷新是不是又有东西了,对吧?他他不是说30秒刷新,就是说假如说30秒过了。你没有新数据,它也不会生成新的文件啊,是必须要至少有一条数据来触发,能懂这意思啊,必须有一条数据来触发,那我们等一下,呃,等个30秒对吧,你要是那什么的话,你可以掐掉记一下刷新,他等会呢,会把time给他去掉啊,Time给他去掉没了吧,啊没了没了,这个时候我等三秒,他会生成新,他不会啊,你可以多等一会儿,他不会的,他必须得有一个什么,有一条数据写到HDFS的时候,它才会去生成新的文件。
04:13
啊,是这样子的啊,那我们多等一会,不妨多等一会呗,现在是30对吧,那这样其实都刚才都过了十几秒钟了,那我们等到36,绝对过30秒了吧,因为刚才打开的时候30对吧,其实前面聊天聊了半好一会儿了,是这样的不是吗?十算我应该改改20秒,十秒就好,在生长环境当中不会配这么小啊,这个要注意一下,我们只是课堂上做演示啊,因为如果说我配了3600秒,那大家在等着一个小时是吧,休息一下啊,可以上去抽根烟啊行,那已经到了吧,36了,零六了,它有生成新的数据没有吧,但是如果说我再去把这个海克干什么,我执行一下呢?它这不又生成数据了,然后我们在这刷新,一旦有数据,它才会干什么去生成新的文件啊,它是这样子的啊,它这样的,而且呢,其实这边啊,我们大家想一个问题啊,那。
05:14
这样就好了,怎么好了呢?呃,我们在have里边呢,有分区表,我们想把一天的数据放在一个分区里边,服装采集的数据的时候可以按照时间滚动文件夹。我们能不能,哎,配这个什么24个小时啊,对吧,按天滚动能不能行,可以吧,按天滚动。那就是说正好上传到idm时候,他是不是就是一天数据在一个文件夹呀,我们还不用区分了,对吧?好,到时候后面我们做那个大的项目的时候,其实就要这样玩的啊,就是因为IDFS它自己有根据时间干什么,滚动文件,滚动文件夹的功能。但是这个是有前提的啊,就必须刚才我们所说的这个属性,你给我干什么,省为处,如果你是为false,而且这这除非你不用这个时间。
06:08
就这直接写什么写那没问题,如果说你这用到了什么时间,这个地方默认值没改,你是boss,不好意思,这肯定会报错。啊,就是因为他没有的时间可用。啊,他用的是你数据里边的时间。啊,用的是你数据里的,也就是说这个文件的时间戳后面时间戳啊,是来自于当前这个文件第一条数据里边头信息所携带的时间戳啊,它用这个来命名的,是这样的一个方式啊,这是我们将这个数据呢,从本地文件上传到ID啊,但其实它里面有问题,问题在哪呢?问题在这个。T-F,这大家想一下。T-F首先它监控的是从最后十行开始监控,对吧,T-F执行的时候,它默认是不是打印,最后是行啊默认情况下对吧,好,那这个任务挂掉了呢。
07:08
在重启这个任务的时候。会怎么样啊,中间产生的数据我只能录到最后十条,如果说我中间没有产生数据,那这十条数据就怎么样重复了。就是说挂掉之后没有数据产生,我重启是不是这十条数据相当于重复对吧,如果挂掉之后我有产生很多数据,假如说产生100条数据,他是不是只能监控到最后十条,中间90条就丢了呀,对吧?也就是说这玩意儿呢,它不支持一个东西叫断点续传。能知道这个名词啊,所以断点续传对吧?啊,大家用的那个什么迅雷,它不就是通过下载方式能支持什么断点续传的一个方式,对吧?啊,就是说你下一半你用电脑关了,然后明天接着下还是可以的,对吧,类似于这样的啊,但是这个就不行,你一旦挂掉了,它要不丢数据,要不重复数据,对吧,除非什么情况啊,挂掉之后你刚好生成了十条数据。
08:09
那这个情况也太极限了吧,对吧?啊,这是不可能的啊,所以说后面呢,我们还有另外的方式啊,就肯定不会用这个eec这个方式呢,其实有些问题啊。
我来说两句