00:00
好,接下来呢,我们具体实操一下。看一下第一步。要想将数据传输到HTS,必须持有hioop相关的。很显然你想你想操作这个NDS,那你。你是不是就类似于你得拿到人家的客户端啊啊,你不拿到客户端,你怎么你怎么来他啊,那你想拿到人客户端,你是不是得有相应的这个相关的价方啊啊。超出啊啊是一样道理。那这里面呢,有这么几个加号,一个是啊,还有common as,还有啊等等这几个,那这几个呢,我这里面少的是的2.7.2,因为我们用的是2.7.2的。那如果不是2.7.2的,你的是比如说2.6.3等等,那怎么办呢?将这几个相关的加方进行提供。那这几个家伙怎么来的啊?之前讲的时候啊。
01:03
质量价格。我这个那个文件这个价是从哪里发的,记得吗?我是将JDK。我就把它解压完之后,是不是有个三目录啊姐们。Sigh。在。L里面这里面上面那个C下边这里面是不是有大量的加包了,哎,所有加方都在这里面了啊,你把它解压出来就能找到相加方,哎解压完之后干什么呢?在这里面。去找,哎,找对应的。这个笔记里面。说了这几个名称。那你这个没给我解压完,是2.6.2的,那换成2.6.2的。就完了啊,就这个意思啊,这是要求不着OK。那行,那下面呢,我们就把这几个导入到。的下法。
02:10
你们也有这个多账号吧。CD。奥。然后呢,把肩准备好。资料。下班。统统都考不来。OK,那这样就考完了,考完之后呢,你可以稍微查看一下有没有。那你找一个27.2就行了。出去吧,哎。那他看到这几个啊,基本上其他的就OK了啊,那这个就比较简单啊。子弹。
03:01
进来之后继续往下看。第二步创建一个这个files文件,其实就是具体的配置吧啊。也就是说,呃,原数据呢是file文件啊,目标数据呢是as啊ADS,那这怎么配置呢。下面依然有详细的这个配置,大家解释一下。呃,像这个我告诉你上哪去找啊,还在。你先的shot是。你的少是不是?Eec。IPhone。这个。这样的这个原数据S就来了,那S里面你需要配置这个参数啊,但是这里面你看啊标黑的。
04:03
加粗的是你必须要设置的,剩下的是选择性配置。OK吧,啊,这里面现在的参数展示,你看下面这个A1S一传EC啊t eec。然后呢,Come也是说这个V执行的命令什么呢?T杠大F监控某一个文件的变化啊。啊,这你看官方,你所有的东西,官方都给你想好了啊,都有相应的这个案例,包括这个小车的这个详细的说明。所以说你不用任何的这个担心啊。那你再看下一个是不是HD seek啊。你来吧。垂值是吧?一定think吗?那你看A里面你能配置哪些参数?
05:05
穿怕是必配的下。这一堆啥图啊?几十个参数啊,不需要你所有的配置可选,你需要改什么这个值啊,你根据后面这个描述就可以去改啊,那当然下面他就给你举个例子。看下这个前缀知的。都有。任何担心啊好,那回头来来看我们那个笔记上啊,这个呢,就是从这个地摘下来的啊,懂吗。咖啡机。这是官方的这个代码。先生啊。轻车熟路吧。是不是给这个组件起名啊,那现在我变成了A2吧,啊,我起的是A2,那三呢,我起的名字叫二啊。信爱情,名字是K2。起的名字是C。
06:01
没啥说的对吧,那下面第一个呢,配置呢,依然是先配置S。那上S的话,我们是什么上。SQ的。也就是说萨德类型呢,是可执行的命令。执行邻球的命令,执行哪个邻球的命令呢?那下面写着呢。什么?那说他杠大F啊?刚才说过大和小的区别。表示可以重置。那红笔T功能快了还了。啊,只是电比较监控的这个日志的变化。然后下面呢,这也是呢,这L的一个决对路径啊,其实是下解析器嘛,啊,你指定一个解析器,这里面是固定的,可以看一下。回头自己看吧,这里面写的啊,官网的一个给你的是B,还有一个B。三是一样的,他俩其实是一个。都加毛。好,那往下。
07:01
四子配完了可以配置。那这个你看它有类型。很直接很明了,是不是就它了啊?然后这个DS的估径,比如说你要指明你要连的是哪个ES。因为你基因可能有很多个。我们连的就是拍度板102。这台内购的。9000多号。然后呢,在这个目录上创建一个辅制。文件夹。这个是他自己就可以创建啊,不用手动创建,直接动态生成。然后后面这个是不是。年。月日小时对吧,哎,小时。啊,这个它是支持的这种方式写的。往往其实在开发中也是这么写,按时间去记录这个产生的日志。OK,那再往下叫。上传文件的前缀也是上传到这里面之后,它不后面是一个年日十秒吗啊。
08:03
那前面加一个洛斯杠。他一给任意的其他值。这个下面是run。是否按照时间滚动?就是多长时间,你是往那个D传文件,那你。你这个文件如果一直不变,那是不是。几天或者几个T的是不是特别大,哎,肯定这要是生成一些啊,比如比如说100多兆啊。一个文件啊等等,可以按照大小,也可以按时间,比如说一个小时生成一个文件等等哈。那么来看,首先呢,这个是变成处啊可以的文件,那多少呢,多少时间单位创建一个新的文件夹。啊,这是多少时间单位啊。然后下面呢是一小时。啊,重新定义这时间单位也是一小时,生成一个心的文件夹。
09:02
下。这个是柚子local type,用本地时间戳。啊,是否采用本地窗,那那这个呢,表示是。用这个稳定的时间。那这个是水fat处理的大小啊啊,一次处理多少条,积攒多少个,这个才到也来一次。的一个设备大小,还有呢。呢?这有一个叫date string,其实是设置是否可压缩。这个这个STEM表示非压缩的。那什么是压缩呢?Com是,记得当时我讲还压缩,压缩的时候是不是有一个com和啊。那种压缩流和啊解压缩流。那再往下。这个是啊,表示滚动啊。
10:00
多久生成一个新的文件啊?啊,这个默认的是你啊。那就600秒,600秒相当于多长时间?十分钟啊,十分钟生成一个文件夹上面我是按照。小时了啊,那这个呢,是啊,十分钟滚动一次。那再往下呢,这个呢,是设置每个文件滚动的大小。这是多大了?128兆对吧,啊,128兆滚动一个。生成一个新的文件。那文件滚动以外的数量无关,就是设置为零的话,也就说文件的滚动和数量无关,不管你多少个,我只是按照我这个设置的时间和大小去滚动。还有这个呢,是最小有余数,其实就是副本数。啊。那后面啊,后面还有一个呢。把这个后面这几个啊,这比较简单了,其实就是还是这个这块呢,用的还是memory也是内存,因为它快啊,实在是快。
11:06
因为往往一些日志数据吧。如果是不是特别。严格来说,丢过几条问题不大。所以说就是不会选择,因为这个内存呢,它不会整坏对吧,那那么咱买的那服务器也是也是几万块钱呢,对吧。无线。会成本是吧,来。这说。可靠性还是可以的,那另一个呢,是容量和传输容量的一个设置。最后呢,这一块呢,就是这个拼接相当于A2C2。C222K2他们之间的一个组合。完了数据到C2 C2的数据到K2,拼成一个整体的拓扑结构,那就说原数据呢,对应的是。的也是这个日志目标数据呢,是对应的HDFS。
12:02
看的这个代码量比较多,其实我们。东西直接你会复制到金融官网上摘进来就OK。好,那下面呢,我把这个代码拿过来啊。来到这个赵家,创建这个文件。CD。这么一个文件,然后创建一个VM。前一集也是,上端是,目的地是。啊。啊。好,那这个呢,就写完了。啊,写完之后呢,下面呢,我们再运行一下它对吧,开始了。
13:05
那就启动呗,启动的话我们是不是得把拍起来。我们是监控是吗?T。BFS点。好久没起床了。是想念。查看一下啊,目前的这个还就起来了是吧,还有的话我们一会再起。
14:04
然后是杠杠杠啊。执行抗的文件夹,那下面呢是杠杠内这个是A级。A1 a2。A2啊,记住了啊,否则就错了,那接下来是杠杠在哪一个文件。Java下面的lo。File对吧,这个文件。那现在就启动起来了,那现在怎么观看这个效果呢。首先我得看一下这个。看看有没有数据。还好,看了一眼。果然有数据是吧?我得删了,早上测试用的。你把它删掉啊,要不然这个。杠二二。
15:08
删掉一个,再来一个辅助。刷新一下。没有是吧,啊,这回是真实的了,那好,那下面呢,我们开始这个。开始high。第二对吧。启动起来了吧,哎,启动起来之后看。啊,我们来看一下我们这个日志有没有生成啊。
16:04
这里还有一些数据是吧。是吧,来。呃,我。我看一下来了。看了一下,验证一下结果啊。FS杠。
17:03
下面有个日期吧。是影像的have日志啊,哎,这就是have的志啊,他最终呢,就会将那个日志上传到这个。再再再去啊。行,那这个是这个案例。
我来说两句