00:00
那刚刚啊,我们知道了这个服务器应该怎么选择了,哎,是选择物理机呢,还是云主机呢?那么现在问题又来了,不管是物理机还是云主机,我们要选买啊,那不管是物理机还是云主机,那我们购买多少台呢?啊,我是买一台啊两台啊三台啊。还是买十台啊八台呀啊,那有同学说,那我们在hello 102103104,那以后生产环境当中,我们就购买三台就完事了呗,哎,跟着我们学习的这个环境来走,那以后呢,工作起来也比较方便好,那到底买三台行不行呢?由谁说了算呢?这个事儿大家思考一下啊,应该由谁说了算比较合适啊,那怎么思考呢?大家想一想,你说我们购买完这个服务器啊。它是用来干嘛的呢?我们购买服务器的最终目的是用来干嘛的,是不是就两个事儿啊,用来存储。
01:02
数据还有计算数据的是不是就这么两个字,那存储用的是谁?用的是磁盘啊,那计算呢,用的是CPU和内存,CPU和内存好,那也就是说我们买多少台服务器跟谁相关呢?是不是跟我们的数据量相关呢?哎,归根结底它还是跟我们的数据量相关,我们有多少数据,那我们就购买多少服务器就完事了呗。好了,那接下来我们看一看集群规模的选型啊,我们买多少台服务器,那购买多少台服务器刚刚说了是跟数据量相关,那这个数据量每个公司有多少呢?哎,那他肯定是不一定了,那当我们到一个公司要搭建大数据集群的时候,首先你要问一问你的领导,或者问一问业务方,诶咱们公司有多少数据量呢?诶,那他肯定会给你一个每呃。
02:02
每天的这么一个数据量,然后我们就要开始进行一个预估了,好了啊,那我们做一个假设吧,每台服务器是8G啊,120G内存,这是一个相对来说配置还不错的这服务器了啊啊。那我们每天呢,有100万人,那数据量是怎么产生的呢?首先要知道数据量是不是由用户来产生的呀,啊用户来到我们的网站来进行点赞,评论,收藏,然后会产生这些数据,那假设我们每天呢,有100万个用户使用我们的这个网站啊,每天的日活呗,100万,那每个人平均他产生100条数据。好了,那么每天就是100万乘以100条,等于一个亿,每天是1亿条数据,哎,数据量呢,已经上亿了,哎,还是规模还不错啊啊。那一一亿条数据,我们每一条数据,那这1亿条数据它一共能占多少磁盘空间呢?啊,每天1亿条啊,我们假设每条日志的大小是1KB,那1KB的大小难道每条日志都是1K吗?哎,不一定,你像有的是0.5K啊,有的是0.6啊,有的是2K啊,2KB的还有3KB的啊,这个1KB啊,只是我们取一个中间值,平均值,其实业界上啊,差不多每个公司的数据平均都是1KB左右啊,那1亿条数据1KB也就是1亿KB呗,那1KB除以三个零变成。
03:39
这个MB再除以三个零变成GB啊,你看除以1024,再除以个1024,那约等于啊,每天有100G的数据,那我们就买100个G的服务器吗?诶,它也不行了,你像我们的笔记本电脑,现在磁盘空间都已经1T了吧,都已经1T了啊,而且这还是什么呢?啊,有有些同学这一器都是固态硬盘啊。
04:06
那不能买这个100G的磁盘空间,那我们买多大的呢?好,我们要进行一个预估,那多少呢?我们打算呢,半年内不扩容,那半年不扩容的话,每天100G啊,乘以个180天,最终等于18T的数据啊,那我们就买18T的这个服务器吗?你看3824,诶买三台差不多两台半三台啊也不行,为什么呢?想一个问题啊,我们的数据最终是要存储在哪啊啊有实时数仓和离线数仓,那么实时数仓我们也有一部分数据啊,离线数仓我们也有一部分数据,那不管是实时出仓还是离线出仓,我们是不是都有一个叫做副本的这么一个概念嘛。那副本我们哈杜的副本是多少啊,默认啊,不是默认哈杜的副本我们是不是要设置成三份啊,哎,让它达到一个高可用的这么一个效果,那三份的话,18T乘以一个三,哎,也就是54T的数据了啊,需要这么多啊,需要这么大的福气了,那这样那行不行呢?好,那你说半年54T它能够吗?我们想想啊,我们现在是什么呢?每天日活100万,你说有没有这么一个可能?
05:28
我们运行着运行着,哎,我们的项目那有每天日活100万,半年之内咔,变成200万,那两百万了,你说这54T还用吗?可能三个月他就已经不够用了,那难道我们就买这54个T,到时候再买吗?哎,也不行啊,我们呢,要提前给他做出这么一个预算,也就是我们还要给他留一个20%~30%的预留。好,那么最终一算下来啊,我们需要77T的这么一个磁放空间,那77T你看我们每一台是多少,是8T啊,那它要除以一个八啊,等于九点多啊,十台服务器呗,啊,十台服务器正好,诶你看十台服务器刚刚好,而且呢,还能剩三个T左右呢,好,那我们就买十台服务器嘛,你看这么算起来正好啊,哎,其实我们还不够啊,你看啊,我们再往下算,我们在这个地方之前是不是说过呀,数仓分成个OD sdwd,哎,然后等等等等。
06:36
那在ods层它就有一份完整的数据了,乘三吧,DWD也乘三,那每一层都乘以三,哎,只不过呢,接下来的每一层数据量就少了,ADS层的数据更少,它就是最终的指标嘛,这个数据量非常非常的小啊,但它也是需要有数据的吧啊,那再考虑数仓分层的话。
07:00
这个数据量是不是又变大了,又变大了。那再有啊,我们的业务有可能增值,我之前是统计80个指标啊,一共是有这么多数据,那我我这个指标的数量我就不增加了吗。我未来很有可能在统计100个指标啊,半年之内我扩大成200个指标了,也有可能啊,那这个数量一扩大了,我们存储的这个压力是不是就更大了呀?好了,那我这个是不是还得需要更多的磁盘空间呀?啊,那好了,那我们在学习卡do的时候,或者是其他的组件啊,你像卡不卡呀也好,还有其他的组件,嗯,只要是带存储的组件,应该都有这么一个概念吗?叫什么呢?叫压缩。啊有压缩,我们学习哈的时候肯定有压缩吧,那压缩之后,我们之前算的这些都白算了。哎,都摆算,都得重新计算了,为什么呢?之前我们说每天产生多少啊,是100G的数据吧,存储到哈杜了啊,如果我们开启了压缩的算法,那么每天100G,最终啊,它也就剩下五到十个G了,就变成这么点啊,这就是开启压缩的一个好处,那同学现在可能对压缩还没有什么概念啊,压缩在我们大数据领域应用的非常广泛,几乎。
08:28
啊,这些存储的组件我们都要考虑压缩好,那么最终我们应该买多少台服务器呢?啊,现在问题来了,我们应该买多少台服务器呀?啊,其实啊,如果说每天有100G左右的数据,哎,我们三台服务器半年的时间啊足够了,三台服务器半年的时间足够了,那如果说你想做一个长远的打算,五到十台服务器,五到十台服务器做一个一到两年的打算啊,一到两年的打算完全没问题啊OK,你像十台服务器啊,你像呃,绝大部分的中小型公司,十台服务器,绝大部分的中小型公司啊,它足够了啊OK啊,这也是我们集群规模的一个选型啊,购买多少台服务器好啊,到这儿我暂停一下。
我来说两句