00:00
好,接下来我们看一个非常重要的一个事情啊,就是慢磁盘的一个监控。啊,在生产环境下啊,总有这种情况,说你这个运行任务的时候,哎,某一个磁盘执行的速度非常慢。那它什么导致的呢?其实啊,就是这个磁盘啊,这个时间比较久了,它自然的老化。但是你说你这个任务一个非常大的一个任务。然后我把它拆分成了好几个块,对吧,把这个一个任务运行在一个慢磁盘上。其他的节点都很快,就他慢。导致你整个任务呢也很慢。那我们希望呢,把它快速的这个磁盘找出来,然后把它更新换代,对吧,哎,或者说呢,我这块磁盘呢,就用来存储这种啊,这个历史旧的数据吧,跟这个。异构存储一样啊,这种方式进行也可以对吧,那首先你得如何来发现你这个磁盘刷它这个慢了。啊,那其实有一种现象啊,叫这种现象说正常ADS啊,这个创建一个目录只需要这个一秒钟左右,那如果你说你在这个集群上呢,你创建一个目录。
01:01
他发了一一分钟才给他说你们,而且这个现象呢,还不是每次都有。为啥呀,因为这个集群啊,他有的时候对吧,你创建的时候是在这个节点上创建的啊,有的时候你在这个客户端,有的在这个客户端,那其中呢,它就其中一个客户端吧,那不就是偶尔性的吗。啊,那这种情况怎么办呢?哎,我怎么把这个慢这个试弹快速的定位出来呢。啊,你可以有如下这种两种方式啊,可以去呃参考借鉴这个呢,还记得这个心跳吗?啊,这个心跳啊,我看一下这鸡群开不开啊。这地方。看到他了吗?对吧,这是我102103104这三块这个呃贝note,它跟这个内部note进行通讯。这个心跳帧是不是三秒以内啊啊三秒,那它这个值就不应该超过二对吧,012嘛,一直是012啊012是吧,你看012。不会有三。那如果说你这个磁盘比较慢,相当于这个data note跟name note通讯时间非常长。
02:04
那这个磁盘就是慢,那这种方式能找到。啊,那如果说这种方式,大家觉得这个一直拿眼睛去看,一直刷这个页面好像不太合适,那有没有别的好好招呢?那我们可以通过哎测试,通过命令进行测试,那这里面测试一下啊,首先呢,我们安装一下这个测试的FIO啊这个工具啊。安装一下。用这个工具去测试一下你磁盘的一个读写性能。别着急哈,他下载这个需要点时间。我这个网速不是特别好。
03:06
好,已经这个下载完毕了哈,下载完毕之后,那下面呢,我们来进行一个它的读数据的一个测试。比如说我顺序的一个读,那这里面有对应的命令啊,速度FIO,然后这一列呢,是啊读的命令。哎,那好,那我们来试一下啊,把这个拿过来。看一下你当前这个磁盘,它的读的这个速度有多少。我这个是固态啊,真的是速度要快一些。这是两个G的数据的一个读数据测试。这个文件呢,是在还这个home I硅谷下面创了一个test log啊,然后往里面写呢,2G的数据,然后从这2G数据当中呢读啊,看你需要花多长时间啊,把这个数据读过来。
04:04
目前是差不多这个速度啊。我目前测的这个叫顺序的读哈,顺序的读啥意思呢?文件已经写好了,然后我知道这个文件从哪到哪对吧?哎,从零,假如说从零到两个G啊,这么大的内存空间,我读完一个就读下一个,读下一个,读下一个,哎,我知道它下一个位置,那这样的一个读的速度啊,就会快一些啊,这个叫顺序的读,读完之后你看这是我读完的结果。对吧?哎,我现在这个读写的速度呢,是这个356兆每秒啊,356兆每秒,你看我上次测试多少,我上次测试呢,是360兆每秒啊,差不太多对吧?哎,顺序读顺序读呢,肯定是比较快的,那下面呢,我顺序写,比如说我固定的往一个地方啊写,那也是写完第一个写第二第三第四第五第六啊这样是顺序写啊,啊看看它这个速度能达到多少。
05:16
顺序。我们仍然也是往这个地方写这个数据啊。我上次测呢是341兆每秒啊,看看这次呢是多少啊。差不多你看一直徘徊在这个位置。每个人的这个硬盘不一样啊。如果你是普通的机械硬盘,应该达不到这么高,应该在100兆左右。像固态的话,应该能达到这这些。那如果是慢磁盘的话,对吧?啊,你明明你的固态应该是达到这个300多兆啊,但是呢,你你发现实际测试的时候只有200兆啊,或者是只有100兆,那就说明你这块磁盘已经慢了啊,或者这个呃时间比较老化了,你就得考虑去更新换代这个磁盘。
06:06
OK吧,那我这个测试完了,测试完现在呢,是336兆每秒啊,这是写的速度,跟我上次比呢,嗯,差不太多啊,小了一点点,那再来随机的一个写,按你刚才是顺序写,顺序写呢,它速度肯定很快,它你写完第一个,你就知道第二个在什么位置,第三个在什么位置,属于这种指针连贯式的指针,那随机写呢,它是你写的数据的时候,哎,这写一块,那下一个呢,你得指针下一个这这是啊,乱七八糟啊,乱写对吧?啊那这个呢,看它这个速度是多少啊。我上次测呢是三百三百来兆。啊,这次有没有进步。随机写啊,它这个寻址的时候啊,这个就浪费一定的时间,所以说它的速度要慢一些。慢的话,现在我正好是在维持在300兆左右。也是一个比较正常的范围。
07:16
行,等他撤啊,呃,最后一个呢,是叫混合的一个啊,随机读写啊,就是混合就是随机的,呃,产生这种随机数啊,然后呢,它既斜又毒啊,这样的一个测试哈,它是最慢。等一下吧,快了啊。好,测试完毕,那你看一下现在呢,是300兆每秒啊,这是它的一个啊,随机写的一个速度啊,300兆每秒啊,差不太多是吧?啊,那最后一个呢,就是混合的一个随机读写,那既能测试它的读,也能测试它的写,那这个呢是肯定是最慢的啊。这种方式。
08:07
差不多多少,嗯,这个毒呢,是200多兆,写的是嗯,八十八十八兆左右,90兆左右吧。这个速度。通过这种测试啊,你能够快速的定位这个慢磁盘,对于你以后的这个呃,集群的一个计算计算能力啊,啊,有非常大的一个帮助啊。因为这种慢慢磁盘的并不是说就把它永久退役了,你可以把它换成用来存储这种冷数据,还记得吗?嗯,扣的这种数据。哎,把它这个冷数据存在这里面对吧,不经常使用的啊,采用这种归档之后的数据,那这样让每个磁盘效率不就达到最佳状态吗。
09:02
好,他测试完毕了,那这里面呢,嗯,读的速度呢是200兆每秒,写的速度呢在90兆左右啊90兆左右行,那这个呢,就是呃,在生产环境下集群慢磁盘的一个监控非常重要啊。
我来说两句