00:00
好,下面的话我们来看一下这个集群规模这块呢,我们又来如何来选择哈,就是我到底买多少台服务器啊合适啊,你你的老板肯定会问你买多少合适呢。那你如何来确认这个集群规模啊,假如说每台服务器呢,呃,是这个8G的磁盘,128G内存啊,这也说在公司里面呢,也属于这种标准服务器哈,8G的磁盘128G内存来,那么每天呢,我们一般呢,会按日活100万算,什么叫日活,就是来到你这个网站的这个。人数。对吧,你比如说你每天你只要一登录打开这个PC页面,或者点击了这个APP,就今日头条吧,啊,只要你一打一点今日头条,那这这就算一次这个活跃啊,只要一打开就算一次。那这个用户呢,大概是100万啊,正常一家电商啊,比较中大型的一些电商呢,应该在100万热口左右啊,我们就按照这个配比去做哈,那每人一天会产生多少条数据呢?这个数据呢,是买点的数据。买点呢,就是记住你这个用户来到这个网站是点击了啊,浏览了啊,悬停了啊,还有这个。
01:09
呃,其他点赞评论收藏啊等等这些信息它都会给你记录下来,那我们一般呢,按100条算啊,按100条算啊,不一定准,它属于什么呢?他在前期的时候100条其实比较多,也就说前期我们只会埋个十几条信息就差不多了,在中期的时候,随着业务的一个增加,我们会埋到100条。那在之后呢,随着你业务更复杂的时候,其实100条挡不住,可能每个人一天200条啊,所以说100条呢,只能说在一个合理范围内。啊,这要要掌握哈,张说,因为这个公司发展的不同阶段,他埋的数据也不一样啊,OK,那至少呢,这个呢是合理的。那100万人,平均每人一天100条。那你乘以完之后,相当于一天会产生一条数据。比如说在你这个数仓的输入端,每天会有1亿条用户行为数据,还不包括业务数据啊,不包括买收入里的数据啊,光用户行为就1亿条,OK。
02:05
那么每条日志大概多大呢?记住了每条日志啊,在这个标准这个企业里面,一般是在0.5K到2K之间。啊,你的字段每张表的字段越多,那当然它这个调这个大小就大一些,对吧,你你你这个字段可能是50个字段0.5K,那我100个字段呢,那我200个字段呢。对吧,哎,它相对来说就会大一些啊这样,但是比一般的标准呢,我觉得1K大小啊左右是比较正常的哈,是在这个0.5K到2K之间啊,比较合理的。好,那一条是1K,每天呢是1亿条,那大概是有多大的这个存储量呢?1亿条除以1024再除以024约等于是100G。啊,100G数据,也就是说1K大小,一条数据大概是100G左右啊,这是约等于的啊,因为这是1024的一个进制啊,约等于。
03:03
约等于100G,那你这里面有个类比,要求举一反三,100万日活对应着100G数据,那么大家50万日活对应的多少数据呢?对吧,哎,50万融合对应的是50G数据。啊,那就是10万日活对应的实际数据,至少这个数据范围呢,是一个合理的。啊,而且呢,你要有一个概念,就是差里的这个数据啊,它每天它都不一样啊。你想一想,你每天会访问一个APP吗?对吧,每天这个用户,每天这个网站来的访问用户,他一定就是多少呢,哎,这只是一个这个呃,均值啊,或者是这一个在这个范围,在一个合理范围内啊,千万不要较真啊OK。好,这是每天的数据量呢,大概是100G。那我们要求啊,你这个服务器呢,得半年内不能扩容啊。就是说半年内我不需要再买新的新的机器,因为买新的机器的话,我们需要这个动态的增加节点是吧,咱之前讲过动态的服务服务器。
04:02
那这样会很麻烦,至少你得扛住半年,那有个别公司呢,一般是扛一年,就一年内,我这个机型不动啊也OK。嗯,那我们先以半年来算哈,半年那半年来算的话,每天是100G,那半年就180天。那也说半年的话,它要存储18T的数据。半年存储18T的数据。好,那你还有三个副本呢。对吧,你ad集群存储数据,还有三个副本啊。那18T乘以三的话,就是54T。啊,50题。那你关54G,那你这个磁盘你会上来把,比如说你就买54G的这个磁盘,你会把它那全都用掉了。那你像你的电脑,你会把C盘D盘F盘哪一个盘都用了吗。不会你都会有个预料对吧,那在这个大数据场景下,一般会预留多少呢。一般会预留20%~30%。哎,如果超过这个阀值的话,就要报警,这就是我们日后会有那个加。
05:03
啊,这这边也是,他就会监控这个吃盘指用情况,如果超过70%的话,那你直接可以报警,直接发钉钉,或者打电话或者发邮件。啊,那你就需要往这个集群上增加磁盘了,或者增加服务器了。啊,是这么一个情况哈,而且呢,这个百分之这个呃,预留30%是属于一个企业的一个标准值哈,也是大数据场景下标准值,你一定要预留这个东西,你千万不要把这个磁盘一下子就全用满了。直接都满了。那么这时候有的时候啊,你极端情况下,你插磁盘有的时候都不好用了,因为它涉及到一个数据的从一个地方往另一个拷,中间需要一点缓存,很容易把你这个集群搞宕机了。啊,甚至再也起不来了。那这个后果很严重哈,后果很严重,所以说一般情况下呢,提前处理啊,做一个预警。OK,算到这的话,那你说你需要77T。的存储空间,那我每台服务器呢,是8G的磁盘,那你算吗?
06:02
最少是得八八台服务器。比如说要保证半年内不扩充服务器的话,我最少要买八台服务器。是这么个道理吧,哎,这么个道理哈,OK,这是呢,正常的一个运算,但是呢,这里面呢,其实是一个非常非常粗糙的运算,还需要什么呢?还需要后续啊,后续还要考虑数场里面要分成呢。啊,分成我这里面进来的数据,我后面要分五层,那每一层都会对数据的一个备份,每一层对数据一个备份。那你还要考虑的关系。啊,也是它会增加你这个数据量,但是还好,哎,数据呢,我可以采用一下说。压缩到你这里面,比如说你这里面是这个18G,每天是100G,我可以进行压缩呀,100G数据我采用压缩之后,可以压缩到10G。啊,一个是这个负责往下压数据的,这个分成呢,其实就往上增数据的。那具具体是差多少,等我们讲完出仓项目之后,再给大家去算这个数据量,也说把这个出仓乘积已经讲清楚了,压缩呢也考虑进去之后,那我们再来详细算数据量,但是呢,如果你不考虑压缩,不考虑分成的话,正常数据就这么算。
07:07
哎,数上数据呢,就这么算,如果不考虑这两个的话。啊,你要心里有个数哈,心里有个数你是怎么算的啊,这个100万热活每天的100条日志。那100条日志呢,一共呢大小呢是1亿条啊一条那一条的话1K呢,这个一条日志呢,大小呢是1K。那就1K乘以一啊,约等于每天是100G,那这个100G算完这块呢,是肯定都是标准的没问题,那只是只不过呢,后续呢,我要考虑半年内不扩容啊,三个副本啊,预留30%。之后服务器,服务器之前我们还要考虑这个。啊,考虑完之后定一个行,这是一个标准的开发的一个啊流程,你要考虑的事情,你要作为一个这个架构师要思考哪些东西哈。集群规模。
我来说两句