00:00
除了面试阶段啊,这块东西啊,到了最后有一个面试阶段啊,还要背的,还要背的,那我们快速过一下这块东西就没有没有太多什么内容可讲了啊,主要是了解的东西啊,了解东西都是一些配置参数,你像那些东西都是要自己要记得对吧?啊面试当中如果问到了你要答出来的东西,可看一下。首先是它的一个内存方面的啊,内存方面的之前我们不是看到了那个什么超过零点四点内存大小,对吧,会刷新啊,那那具体的你这个虚拟机给这个瑞so多大的一个对内存呢,一般给70%。给过了,太小了的话,你是不是频繁的会刷写啊。能懂这个意思吗?频繁的跟HDFX进行交互,那如果太大的话会怎么样,一次刷写的时间是不是太长了,对吧,因为你到40%嘛,你想想看,你这个地方,如果说你给80%,甚至给90%的话,那它的一个相应的这个40%的值是不是随着往下涨了啊,就一次刷写的内容就变多,它整个的一个约定呢,就整个的在处于刷写状态的时候,它就变得不可用,变得不可用是这样的,防止这种过程的。
01:12
啊,防止这种过程的,所以说这个呢。大小给一个是适中的,一般当中给70%就差不多了,而且这个地方是写的是具体的大小啊,这个大小要注意一下,这个是。公司当中呢,开发的时候,要么是64G一个内存,要么128G内存啊,你记这个百分比就行了,因为你你当前说这个只说大小的话,你没办法判断了,128G跟64G的一个内存的一个服务器肯定是不一样的,对吧?啊70%OK,然后看它一些其他的优化,其他优化这个就比较简单了,第一。DFS点报点判。这个属性默认就是开的啊,你不要把它关了,这个就是追加了,允许追加啊。是吧,你正常的去写数据刷写的时候,他很多的时候是不是会用追加的方式往们间写,或者说comp合并的时候啊,对吧,他有可能会做这样一个操作,哎,允许追加这样。
02:10
最大文件的一个打开数。最大文件打开数啊,就是操作大量的文件,那什么时候会操作大量的文件。对,合并的时候一定会操作大量的文件的,或者刷写的时候。刷写的时候,他是不是要文件写啊。合并的时候是不是要读过来又写啊,啊,这两个过程会大量占用这个文件数,大量占用文件数,那有的同学说409度够够高了是吧,那你要考虑集群生长环境当中,有的公司上千台了。上千台的一个服务器,那一个上面两个它就会超过这个值了,一个上面如果说超过两个文件的话,它对于整个HDFS来说是不是就超过这个值啊,那你要看,那当当前我们这三台服务器4096够了啊,这个东西就够了,你要考虑生产,生产环境嘛,对吧,这个东西OK,然后还有一个。
03:07
延迟高的数据操作等待时间。啊,延迟高的等待时间,也就是说每次操作它都有一个通信的一个。超时时间对吧,他会说你这个任务如果说执行了超时的时间了,他会把你干掉,干掉,如果说你正常的公司当中集群或者刷写啊,或者说合并啊,这种操作啊,你的文件数设置很大的时候,它那个时间比较耗时,比较耗时,那这块呢,为了。不把你正常的一个任务干掉,你把这个时间稍微调大一点。啊,稍微调大一点,这是这个,这是这个意思,就是说他对于一个任务它会有监控,如果说你这个任务执行的时间太长了,它会干掉的,Me任务默认的执行时间是多长时间。超过多长时间,它肯定会干掉。不知道七天七天,如果你慢任一个任务七天还没完的话,干掉干掉那个是七天或只是七天啊,所以说那个东西你可以稍微调小一点是吧,因为一个任务正常的,如果说每天跑的任你要跑两三天还没跑完的话,任务也有问题吧,你让系统干掉就干掉了,当前我们这个东西默认值才6万毫秒对吧,还比较低比较低,那你稍微的把它调高一点,把它调高一点,然后还有一个。
04:30
优化数据的一个写入效率。这地方是什么?压缩压缩吧,哎,任何大数据当中,任何一个存储框架,必有压缩啊,必有压缩啊,这你要注意的啊,当然之前所讲的你往I导数据等等,它其实也是用的map导的。倒进之后呢,哎。所以说你这个属性在哪设置啊。M6的这吧,还在M6的这OK,然后还有一个RPC鉴定数量,那这个是什么意思呢。
05:05
Reading handle就处理还是处理什么?请求那边的问题啊。是不是来处理实际的一个读写请求啊。对吧,如果说你这个业务量很大的时候,你可以把这个RBC的一个通信,就是跟客户端。一个交互的一个数量,把它调高一点,调高一点。要不然说有的客户端就访问不到了,哎,这个值稍微调高一点,因为你的根据集群情况来定嘛,其实讲句话的时候,大多数时候都在说什么,视情况而定,合理即可。这种东西说了跟没说一样是吧,这没办法,因为每个人涉及到的一个公司的环境肯定是不一样的,我不能说公司三台服务器怎么样,四台服务器怎么样,不能列这样列举吧,啊,就大致的说一些情况就行了,嗯,确实这块东西呢,说合理。
06:01
大家也不知道什么叫合理的是吧,还是一个公司去工作了之后,慢慢的,特别是大公司的时候能更好一点,大公司跟着人学东西嘛,小公司就完全自己在摸索,然后你们不是互相。都有联系方式嘛,有的人肯定去大公司,有的进小公司,对吧,互相的刚工作的时候互相的多联系联系多联系,联系是这样的多,有的是大公司,你就多取点经嘛,对吧。就现在就看你攒人品的时候了是吧,时不时的请同桌啊,吃个什么吃个饭啊,对吧,带个早饭啊,打杯水啊等等的,这就可以了是吧,然后还有一个这个。后面几个就比较简单了,好了,下课再请吃饭的事,好吧,下课再请,然后是那个还做门的大小,这个是那个十个G,这个是自动切分情况吧,啊我们一般情况下工程当中都会做A分区嘛,啊做A分区,然后呢,就把这些东西,而且你要预估一下你的数据量来做一个reading切多少,你不要将一个一个reading定到最后撑的太大。
07:13
啊,差的太大,要注意的就是我们做,我们不是做好预分区嘛,如果说你自动的那个方式没关的话,你这一个预分区里面的东西太大了之后,它还会切。这两对的,不是说你做了预算就他不切了,他还会写,所以说你提前要预估数据量,懂懂我意思吧,就你把数据量预估这未来一年的发展情况。预估一下这个数据量能达到多少,然后你来根据这个数据量来切分这个。预分区做这个预分区啊,是这样的一个整体的一个情况啊,所以说这个东西呢,对于我们来说就没什么太大的一个作用,因为我们一般工程当中呢,不会切到那么大了啊,不会到那么大了啊。最好不关,因为预估的情况。
08:01
没有公司预估的准。啊,没有公司预估的准,因为未来的发展你想想看,要预估一年,或者说短期你得预估半年嘛,半年的发展是说的准的。有可能你这个表到最后都不用了,因为公司黄了对吧,有可能你公司发展的好的话,你预估的东西没有用啊,预估的没有用,所以说这个东西呢,最好还是你关啊不关啊,就是说让他那个你你真的如果你发现它自动切分的时候,那你说明你预估数据量错了吧,那你要把数据重新再预份去做,重新做规划啊,重新做规划啊是这样的,OK,然后还有一个优化这的客户端的一个缓存,那这块当时候提到是这个地方指的是那个。Catch。Block开那块的一个缓存,你可以把它这个缓存大小可以调大一点,对吧,那你每次读出去的时候呢,就能更快一些啊,更快一些,而且RPC是不是那个通信那个调用它这样的,如果说你真的跟磁盘交互的话,它会用那个RPC通信去什么block啊啊等等。
09:04
去memory送或者说H里边读数据啊,读数据读到哪呢?读到它客户端的一个缓存里面,缓存里面如果说你这个缓存里边数据量,你的内存涉及比较大的时候,它这个RPC啊,通信的速否就会降低很多啊,就会降低通脑,OK,那后面还有一个。这个地方其实刚才在复习的时候也看到了吧,是不是sc.set catch这个值啊。对吧?哎,就是说你用SKY这种方式扫描,扫描的时候,它不是说一次性把你所有的数据全部加载进来的,它是根据你内存来定的。啊,根据你的缓存来的。那你正常的工程当中,实体医疗数据你都加载到客户端这边来,那么封了吗?啊,谁加载谁挂是吧?啊不可能的,所以说他肯定有一个大小,那这个是文件里边配置啊,当然你可以在写代码的时候再去指定嘛,对吧,也可以的啊,也可以的,你根据你实际的情况,你内存,你的服务器就是你客户端的一个内存啊,或者等等一个情况,一个内存来指定啊,这地方指的是客户端的内存啊,因为你盖扫描过来的数据是不是要加载到客户端的一个缓存里边。
10:10
啊,对吧,OK,然后后面还有这个flash spli的这个机制。这块就是上课的时候都是已经讲过了,这块有相应的一个属性,大家都看一看啊,之前不是给大家摘出来了嘛,专门摘出一个文档是吧。为为什么没有反应呢?不是摘出了一个文档吗?资料里边是这个是ul的对吧,这个里面找的,然后找了专门放了一个flash-com的,这里边是不是flash的相关参数加上合并的相关参数啊,这一块你要做一个注意啊,就是你记住默认值,然后工作量用的时候呢,你有可能会对这些值啊进行一个调整。啊,因为它涉及到了flash,还有合并嘛,合并嘛,哎等等这些过程都是消耗资源的吧,哎,所以说优化呢,都是在一个资源跟时间方面做优化。啊,永远都是,要不然耗时,要不然就是耗内存,就这两种方式,导你找不到一个什么。
11:05
省时间还省内存的方式吧,没有了。没有的,要有的话,那框架当中肯定把这个都给你设置好了,就不让你改了,对吧,不让你动了,所以说要不然你看你业务需求是对于时间要求比较高,还是对于内存需求比较高,你相应的去做调整啊,做调整是这样的。
我来说两句