00:00
好,接下来呢,我们对这个异构存储啊啊设计一些案例给大家说明一下,那这个设计案例啊,我们首先呢,要进行环境的一个准备,这里面仍然需要五台服务器,而且每台服务器这个数据,这个副本啊啊采用两个啊,这样呢方便我们去观察哈,因为我们这里面每个数据呢,有的是你看呃,有的是Dis啊,有的是RAM啊,还有的是active啊,那这种存储类型呢,用两个副本呢,看起来啊比较方便,比如说一个副本啊,其中是这个啊Dis,另一个副本是SSD。看起来容易一些,你要三个副本吧,容易给自己看晕了啊好,这是这块啊说明那下边呢,这是一个集群的一个规划,哎,我们要求在102上,哎,我们配置这个存储类型,配置两个路径,一个呢叫RAM disk,一个是SSD。哎,把这个路径让它是sid,那真实环境下,如果真实在生场环境下,那你这个路径上它必须得真的装的是sid对吧,那你这个呢,装的是ZM啊,下一个呢,这个是sid,那这个是啊,机械硬盘要跟你的实际情况匹配上,因为我这里面没办法去匹配,为啥我现在的服务器是不是都是固态啊。
01:05
对吧,我这我我这配了五台,其实每台这个虚拟用虚拟机它都是五台路径,但是呢,我可以通过配置怎么配置看这块儿。我DFS data note data DR,你只要在前面这个路径上标识上,比如说我这个路径是ID,那这个路径呢,是RAM Dis。它就代表了,呃,系统就认为你这3D。可以手动指定,那假如说你这个我实际是普通的这个机器硬盘,那我能不能指定这个是sid可以。哎,系统没那么智能,说自己我真正去检测一下它到底是不是安地。能懂吗?没有一个明明确的一个判断,哎,他就是你告诉我这个路径是什么,那我就是什么。好吧,哎,那这样一个说明哈,那行,那这次102上配置这个路配置成它啊两个路径103配置它104,然后105106呢,都是这个归档存储行,那那是这种配置方法的话,是不是每一个服务器都得单独配置啊。
02:01
必须单独配置啊,你不能说这个我再分发一下啊,这个不可能啊,首先来看我们102上怎么配。102上呢,我们配副本两个没问题,然后呢,将这个存储设略,哎,把它打开啊,其实默认它也是打开的哈,那这里面呢,给大家,因为我们就演示它嘛,所以说我给大家设置成数啊,这个明确的这个指出来,那同样道理,同时我再指定两个路径,一个呢是sid,一个是RAM Dis OK吧,好。那这个呢,我们拿过来吧。来到102进来,CD PT model I ETC hi啊,VM,那我在哪里面去修改呢?记住是在hdfs set啊。A边赛进来,进来之后CG来到末尾,来到末尾注意我们以前是不是配置过一个date。D啊,那这个是不是得删掉啊,哎,这个删掉啊,把原来删掉,然后O传过来。
03:00
对吧?哎,这是我们新配置的这个路径DFS data.ok吧,这里面两个路径保存退出,这是第一块,然后接下来我们来到英03OBD model hi do旁,EDC hi do OK s save的G,把原来的删掉,DDOK,然后这O,然后把笔记上拿过来,那我103上的配置呢,是一块sidd,一块Dis。OK。别粘错了啊,别着急,然后来到104C dot model hideop ETC hideop vmhdf set进来shift g。DD好哦,然后呢,把这个拿过来104。104,我这是RAM disc和Dis。104。
04:00
OK,来到105,进来shift g。删掉。下来哦。现在呢,是105拿过来,那这里面只有一个啊归档的存储。OK。再来到这个106啊,106呢,我这里面只是一个归档。再,再记。OK,那这个呢,都搞定搞定之后啊,现在呢,我把这个集群我要重构一下啊,啊,我就不要历史的数据了,我当前应该是开启状态嘛,对吧,我把这个集群啊重新格式化一下,嗯,那几步了,第一步呢是先stop杀死进程。
05:06
这是第一步,第二步呢,要删除所有的date是吧,Date数据和log数据。第三步呢是格式化,第四步一启动。这几步啊,必须要会啊,对于现在的同学来说,这些步骤不允许不会,RM杠、r f date log OK,删掉。然后来到英03RM-rf date love OK。来到1042M-f date log。105RM-rf date log来到106RM-rf date love OK吧,哎,删除掉,删除掉之后,这是第二步,第三步呢,要进行格式化,As name no-form轴。
06:10
格式化完毕之后重启集群啊,这几步还是非常轻松的哈。现在呢,我们就能操控这个五台服务器。还是比较兴奋的哈,呃,生产管架呢,一般呢,这个中小型公司啊啊,也就五到十台服务器左右。嗯,舞台服务器的还比较多。所以说这个你要会的话,去一个中小型公司啊,当一个呃,大数据部门的负责人,应该没啥问题,OK。行,那现在呢,集群都已经正常了,对吧?啊正常下边往下看,这是启动,呃,创建一个路径对吧?啊以后呢,我们就针对这个路径改变它对应的一个存储策略,创联完路径之后,我要向这个路径上上传一个诺斯。对吧,哎,倒这个路径上没问题吧,哎,比较简单,直接拿过来哈,这敲了太多遍。
07:02
嗯,拿过来给他吧。好,然后呢,拍FS-put put这个文件到h DFS data OK。上传成功来看一眼刷新。对吧?啊有这个数据,那目前呢,是两个副本,它是存储在103104上,是这样吗?OK,这是环境准备工作,哎,我们就完事了,那下面我们来具体的一个实操一下啊,首先来看一下这个hot存储策略,Hot存储策略还记得它是什么存储策略了吗?来打开。是不default默认的这种存储方式就是它,那好,那下面我们怎么玩一下。哎,HTS啊,Story存储策略,然后get story策略,然后pass这个路径,看一下这个路径它的存储策略是什么。
08:04
看说这个没有定义对吧,哎,这个正车量啊,没有没有特殊的好,那下面我们来干一个什么事呢。看一下你刚才这个数据。它存储在哪儿了?可以吧,哎,看它出在哪了啊,出在哪了,那就是ADS有一个FA命令,然后呢,它是查看ADS date,然后呢杠这个file斯,诶,然后杠blocks,查看这个文件里面的block斯以及locations。啊,他查的是这个路径里面的文件,对吧,这个路径下的文件的块和存储位置。来查看一下。好,查看出来了,那来看一下啊,详细看一下,看能不能看懂啊,呃,命令呢,在这儿呢,然后呢,你看这个位置。看到这个位置吗?这是我存储的块信息,一共有两个副本,那这两个副本呢,一个是存储在104啊104 104的以什么方式存储呢?Dis磁盘,还有一块呢,是存储在103,那103以什么方式存储呢?Dis,比如说两块数据都是存储在DIS2个副本。
09:19
那副本都是存储在第四个里面,你看这个。看到了吗?所有数据副本存储在第四个里面,那它是不是就是这个hot默认的这种存储方式啊。OK,那他就是。好。你看就这么简单,那下面来看我想让它存储采用这个WM这个存储策略。那外面是什么存储量,一个数据存储在D,另一个存储在这个归档这种普通的里面。知道吗?好,那怎么办呢?看这句话,As stories啊,这个存储策略,然后set policy,把刚才这个路径设置成。对吧,哎,修改的正策列。
10:00
拉过来。走。修改完存储策略之后,我们下面再来查看一下,看看这个数据是怎么存储的,那这个命令还记得吗?好,再查看查看这里面这个路径下的文件存储在哪里。你发现仍然是Dis Dis你看,但是我忘了话,应该是Dis和这个归档啊。那好像不太对,对不对,哎,其实呢,它不会自动的把你这个里面的数据改变,你需要手动执行一下叫HD FS more as,哎,执行一下移度。再来看。移动。对吧,哎,移动完之后,哎还没移动完啊,别着急啊,正在移动哈,相当于是一个拷贝啊摸嘛,嗯。好,执行完毕了,执行完毕之后,你再来查看一下它的存储。
11:02
看这位置。现在它存储在Dis和归档,看到了吗?哎,Dis和归档你看这什么存储,存储方式是不是就是W。OK吧,好,WM存储,那再来,那下一次呢,我想让他把数据存储在那这个路径啊,存储后的数据也是存储冷数据行不行呢,仍然是as啊,Policy set policy,然后对这个路径,然后policy呢,变成code。OK。设置一下。行,我设置完毕了,设置完毕之后呢,哎,你还需要这个移动一下啊,必须得移动一下。其实就是一个拷贝啊。好,拷贝完毕之后,那下面我们来看一下这里面对应的数据现在存储在什么地方,好执行完毕,然后看一下这个路径。
12:02
一个是105,一个已经变成了,是啊1061个active归档归档对吧,哎,归档归档,你看路径都已经变了啊不这个服务器啊,你看106105啊行,那这呢扣的也演示完了啊,非常简单,那再往下看,下面来看另一个叫YSSD,也就说一块数据存储在SD,另其他的存储在DIS4个对吧,那我们来还是set一下。好,Set完毕之后呢,我们来移动一下,嗯。哎,这个移动的比较长啊,它往SSD里面去移。好,移动完毕之后,我们来查看一下这里面的数据中。
13:04
看好。看到吗?其中一块数据存储在sid,其他的呢,存储在D,那不就是它吗?看到了吗?OK,那再来往上看啊,再来一个呢,就是OSSD。把它拿过来。大家应该找到感觉了,对吧,嗯,比较轻松。然后再来移动啊,一定要手动移动。在生产环境下呢,这个功能呢,是非常强大的,非常好用,再来查看。OK。设置完之后看一下这个地方。这地方呢,SSDSSD,比如说现在呢,所有的数据都存储在SSD对应的路径上。OK,那看最后一个。
14:00
啊。执行,嗯,执行完之后呢,我们来移动。这个是比较特殊的啊。好,移动完了,移动完之后呢,我们来查看一下对应的数据。看一下。你会惊奇的发现,这里面所有的数据都存储在Dis里面,并不是我们想象的说有Dis有RA Dis。有内存。为什么呢?哎,这里面给大家解释一下啊呃,它原因在这呢。放这儿。这就关掉了啊呃,是因为什么呢?按理来说这个数据啊,它应该存储在这个RAM,比如说内存当中,但是呢,你要想存储数据到内存当中是有限制的,首先HTS它就对它进行一个限制,你看啊这块呢,是你在内存当中允许存储多少数据。
15:13
来到。ADS,你看看他默认值是多少?看到吗?你在HD当中默认存储的数据是零啊?那么哎,最多只是零,不让你存,他为啥不让你在这个内存当中存数据呢?思考一下。内存当中数据确实快,但是它的风险是不是也很大呀,一旦内存挂掉,整个数据就没了啊,所以说他不愿意让让你用内存去存储数据,对吧?还有一点,你在内存当中存储数据,那我存储数据我是不是想存1K就存1K,想存这个一兆就存一兆呢?比如说我可以把这个值改了,对吧,改成一兆,让内存里面存数据,是这样吗?不是,通常情况下你存储数据啊,是按照这个块大小进行存储的,比如说我128兆。那你要加载的话,那你它呢,是至少要大于你的块大小,也是至少要加载100这个一块。
16:06
是吧,哎,所以说你还要改变这个块大小往里面存,你要不改变块大小,那你意思这个地方至少要大于128兆。这是ADS对这个内存里面的数据进行限制,那除了它之外呢,其实Linux虚拟机也对这个内存进行限制,也不允许你在内存里面存太大的数据,那最多允许你存多少呢?64KB,那怎么看的呢?看这命令。把它拿来。看这地方。看到了吗?哎,在内存当中最多可以存储64KB。哎,这也是,呃,无论是as还是Linux系统,它都不希望你在内存当中存储大量的数据。因为他觉得你的可靠性是有问题的,那如果你实在想存的话,那你首先要改变一下它,然后呢,你再来去设置对应的HGTYS它的一个大小,把它上限调高,而且调高呢,也要调高到128兆以上,跟你的比你的块大小要大。
17:09
OK吧,那生长环境下,其实我们一般也不会用这种方式进行存储,因为我们集群当中的数据都是非常重要的,你在内存里面,那这个存储容易数据丢失,那带来的后果呢?啊,这个不堪设想,那我们其实存储在sid里面数据就已经非常快了,能达到这个几百兆每秒对吧?啊三四百兆,这很正常,很快的话能达到六七百兆啊,非常非常快了,也不亚于你的内存。对吧,这就是我们这个异构存储在生产环境下呢,是非常重要的。啊,大家一定要会。
我来说两句