00:00
那这边呢,我再往下走,哎,看一下这个对应的h DFS think。搜索一下。哎,找到了h think,那think里面我们又怎么配呢?还是看一下它的必配项。是不是在这呢,哎,它的必配项。那B配项就配呗,首先找到A11。然后点对应的K1啊。那后面首先第一个呢,是这个tap类型。T等于什么呢?来到这里面看一下。这个type类型啊,是HTS。拿过来。哎,那这一个参数呢,我们就搞定了,那接下来再往下看是不是HDFS这个pass也是你要写入到HDFS的哪个路径上。那找呗。把这个参数拿过来。
01:05
带回来之后,那下面我们这里面给大家这个路径写好了啊,写到的是叫在你HDFS上有一个original date,然后季贸log。啊,这个人证内呢,表示这个原始数据,然后呢,我们这个项目呢,叫经贸数据仓库。好,那下面呢,这个是这个呃,Log日志,然后是哪一个的日志呢?是这个topic log这个主题下的日志,然后后面放上这个百分号Y,百分号M以及百分号D啥意思啊,哎,表示的是年月日,是这样一个情况吧,年限日行拿过来。那这个年月日有什么用呢?其实啊,未来我们这个数据呢,会存储在A上,按照比如说2021年。然后8月7号,哎,8月7号的数据我希望都写入到这一个文件夹下,然后再来一个呢,8月8号的写入到另一个文件夹。
02:02
这样的情况,比如说按照这个时间进行滚动。希望抓到这样一个效果。那这样配能不能达到这样效果呢?哎,其实是能的。但是这个时间它是哪来的,或者说这个百分号Y100分号M百分之D,它是根据什么进行配置的呢?这块大家要注意一下,哎,还记得咱们那个鲁过来的数据,它是不分两部分呢。那一部分呢,叫头。一部分呢,叫body。姆当中是这样存储数据的吧,那在头里面啊,它这个里面。哎,有一个变量值叫什么呢?叫time STEM。叫时间戳,时间戳这么一个值,那么它这里面的百分号Y,百分号M,百分号D其实就是取的这个电量对应的Y流值。那这个value是一个时间。那这个Y6是谁的时间,那我这块取的就是谁的时间。那默认可以取谁呢?哎,可以取你Linux本地的时间,什么意思?我们这个程序未来会部署到海多交通市场。
03:08
那104上对应的Linux,它的系统时间。那我就可以来作为这块按照它去放。但是如果你按的是系统时间去放,是不是就是之前我说过就会产生零点漂移的问题啊。那我需要怎么放呢?我需要根据你传过来的日志。你日志是哪天产生的时间,那我就希望按照日志的时间写入到对应的文件夹里面去,这样的过程吗?好,那其实你就把你那个日志拦截器做一个拦截器,拦下来之后,把这里的时间给谁呢?哎,就给这个time STEM这个变量,那它这个头,哎,它就会复制到这里面去。那这个日期日期它就变化了。就会解决掉,对这个问题好吧,啊,这是这个啊,还是零点漂移啊对应的一个问题哈。啊,那下面呢,这个配完之后呢,其实后面我这里面又配置两个参数,那这两个参数我直接拿过来啊给大家看一下。
04:04
这个参数好不好理解啊,其实就是你文件产生的这个前缀啊,在这里面也有啊,就场。啊,下一个文件前缀,那它会在这个每一个生成的文件前面都加上一个log杠,啊这么一个名称,OK吧,那后面呢,我这里面还加了一个wrong。那这个run是什么含义呢?是这样的,大家思考一个场景啊。现在呢,我这里配置的这个。时间呢,是年月日。那么有一些公司啊,它的数据量特别庞大,他希望呢,按照每小时滚动一个文件夹,你这不是按照每天吗,每天一个文件夹,那我希望每小时一个文件夹。因为数量太大了,按照天的话呢,嗯,扛不住。那这怎么办呢?那我后面是不是会加上这个百分号,比如说H按照时间来进行一个控制文件夹啊。啊,是这样可以。但是你看啊,那我希望呢,我希望两个小时。
05:03
哎,或者三个小时。形成对应一个文件夹,那你这个还行吗?你只加上20%可以吗?它默认它只能按一个小时,是这样吧。哎,那如果说你加上这个round把它制成。哎,制成出之后干什么事儿呢?你看一下,这里面又给出了你几个对应的参数。看这块哎,你把它设置成true之后,哎,那它下面round value和round unit什么意思呢?哎,你首先是按照哪一个单位进行滚动,比如说一小时进行滚动,好,那这里面设置一,那就是表示一小时滚动,那如果这块设置为二,那我就是两小时滚动一下文件夹,那三小时四个小时,那当然你可以按照分钟啊进行滚动啊,是这样一个值哈,所以说这个呢,你把它制成处,因为我们今天呢,就是按天进行一个控制就可以了啊,那当然了,其实这里面它默认值就是这个false,那只是呢,我也给大家去解释一下啊,对这个参数的含义,所以说呢,就把它放在这儿。
06:00
OK吧,哎,这是这个值,那下面我们再往下看啊,还有哪些值,其实这里面还有一个控制小文件的,那控制小文件这个呢,我先不给大家讲。啊,一会儿呢,我先让大家看到这个直观的小文件之后,那后期呢,我们再配上对应的小文件,哎,来给大家去解决啊可以吧,好,那下面还有两个参数,这两个参数我直接拿过来给大家解释一下啊。还有两个值啊,一个呢是控制输出这个adps的时候是采用什么方式。哎,这里面说配置的是这个啊压缩流,比如说把这个文件压缩。那为什么要压缩呢?其实啊,压缩主要是为了减少释放空间,就正常情况下,我们这个项目。哎,每天产生的数据呢,是100G。你要不采用压缩,那到1GPS呢,它也是100G。但是这个会占用你浪费你这个磁盘空间呢,如果我采用压缩,哎,会压缩到十个G左右,那我的数据量啊,是不是就变小了,那我占用磁盘的空间是不是就变小了,哎,所以说这块呢,我们可以采用这个压缩流。
07:05
那我们用的这个编码方式是什么呢?哎,用的是拉泽罗PLJP啊这种方式。呃,对数据进行一个压缩好。那我们回过头来看一下这个手册上啊。下这块。啊,看下这块也就说啊,这个hts file type,这种存储这个传输数据的方式呢,默认的是用这个sequence file啊这种方式传过来的,那如果你不想改变它的这个呃,流的一个格式的话,那你可以用这个date stream,那就是test啊,这种类型,你原来什么样,那过来就是什么样,默认的是S,那这里面我们给它改成了对应的是压缩的这种方式。那你如果改成压缩方式,你就需要指定它的这个过,比如说这个编解码方式,那这里面给你提供的编解码方式有这么几种。啊有GP有BP two,有拉罗,有拉罗P有snap啊有这这几种方式,那这里面我们用的是这个L啊拉罗P它呢是支持切片。
08:03
其实啊,我们传过来这个数据呢,本质来说你不用这个拉罗屁也没事,因为拉罗P不就为了切片吗。其实后面呢,我们这块。比如说这块控制小文件这块,我会将传输过来的文件啊,哎都按照这个128兆一块进行一个切割,哎是这样一个情况,所以说呢,所以说你这块呢,呃,不采用拉到P也没事,因为最啊最大它就是128兆嘛。哎,不会影响你对应的这个啊切片,哎,所以说这个呢,用别的也行啊啊那这就介绍到这儿,那下面呢,这个呢,把这个组件拼接在一起,我直接就拿过来了。好,现在呢,整个这个配置文件,哎,我们就已经编写完毕了,那后续呢,大家在写类似这个这个配置文件的时候啊,就按照这个步骤一步步来查阅他官方手册啊,就可以完成对的这个功能哈。
我来说两句