雁栖学堂--数据湖直播第七期原创

2021-12-022021-12-02 12:06:27播放1.1K

本次分享内容主要探讨如何通过数据湖加速器GooseFS，对象存储COS等服务搭建冷热分层的数据湖存储服务。数据湖加速器GooseFS可以为用户提供高性能的缓存存储服务，提供了HDFS生态亲和性，支持将海量分布式存储服务如对象存储COS，云HDFS等作为远端存储。对象存储COS则提供了多种不同梯次的存储类型，满足不同生命周期的数据存储需求。本次分享内容主要探讨如何通过数据湖加速器GooseFS，对象存储COS等服务搭建冷热分层的数据湖存储服务。数据湖加速器GooseFS可以为用户提供高性能的缓存存储服务，提供了HDFS生态亲和性，支持将海量分布式存储服务如对象存储COS，云HDFS等作为远端存储。对象存储COS则提供了多种不同梯次的存储类型，满足不同生命周期的数据存储需求。

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:09
各位直播间的小伙伴大家晚上好，欢迎来到云家社区直播间，今天是我们燕溪学堂吴从楚专题直播第七期，本期我们邀请到的是腾讯云产品经理林楠老师，今天分享的主题是数据库加速器酷SFS的数据成，本片将会从两个维度进行讲解，然后第一个维度是基于库SFS和cos跟构建冷热分层的数据弧，第二个维度是cos上的数据生命周期管理能力。在直播开始前呢，我还是简单跟大家说一下我们的抽奖机制，在报名环节是有抽奖激励的，只要您报名成功即可抽奖，然后这个奖品的话大概是有十五十五份左右，然后直播过程中也有，如果在直播中您有什么问题，可以将您的问题打在讨论区，直播结束，我们会随机抽取三个问题做相应解答。如果您的问题有幸被抽。
01:10
中的话将有机会获得精美礼品一份，还有就是马上临近新年了，我们直播。我们直播过程中会抽取几位活跃度较高的同学发放那个新年贺卡。然后这个这个名单的话，在直播结束的时候，我们会做相应的公布，那接下来我们把时间交给林南老师，有林南老师来给我们做分享。好的行，那我就开始今天的分享，今天也是跟大家第二次见面，上一次其实给大家讲了一下安全相关的，这一期的话呢，是给大家分享一下数据库存储的一个成本管理手段。呃，大家上云的话呢，其实很的一个诉求，其实就是要成本，就是为了省钱，那今天的话呢，就是专门给大家讲一下，就是在整个公有上边，我用数据储的时候啊，到底应该去怎么样管理自己的一个成本，那这一个分享的话呢，会比较会有比较多的内容，会侧重于说在大数据这一块就啊同时的话呢，也会涉及到比较多的那个对象存储上的一个成本管理，那接下来的话，我会开始今天的。
02:38
然后直播过程中，如果有啊问题需要了解的话，大家可以在评论区里边留言。然后正式开始啊，首先会给大家介绍一下，就是我们基于的一个层架构啊，为什么会先讲这一部分呢？因为其实啊我们能够很明显的看得到，就是很多企业在上云的时候用分布式的存储服务啊，尤其是对象存，那最核心的个诉求其实是低成本，但是的话呢，啊，在数据的存这一个环节上啊，成本的一个诉求顾到了，但是呢，在数据利用这一个环节上啊，又需要一个比较高的性能，那这个时候的话呢，就天然的会衍生出啊热数据冷数据两种不同的那个数据类型们的一个存储上的一个使用场景的一个差异，像这数据的话呢，就会需要说啊，我的性能会相对更好一点，那性能好的话呢，其实啊，很大程度上跟那个低成本是互相啊。
03:47
然后软数据的那个上大家的比较少，那个的多的还是用那个成本的那个对象存储会多一点，那这个时候的话呢。
04:02
啊，就会两种不同的诉求，当杂在一起的时候，我们就需要去看一下啊，有没有哪一些冷热分层的架构，相对来讲啊，会比较适用于这个公有云上的一个数据库存储服务的，我们现在看那个整体的一个大背景啊，就是呃，像现在的话呢，其实啊，尤其是物联网的时代啊，啊那个数据规模其实是会增长的比较快的，像之前啊有不少报告其实都是一直在预测说啊我们以后会进入到一个B的时，那什么是B时代呢？啊，我们现在的话呢，可能一般来讲一块硬盘啊，大约就是八个G啊，或者说16个句比啊位置等大概在这里。那如果多一点的话呢，1000个GB，那也就是说大约100多块啊，8GB的盘就等于一个TB，那有一些移动硬盘可能容量一点，比如说TB，别的可能啊硬有一个T，那可能再高一点的也有16T的，现在他们有这啊有一些硬他们是能够到TB级别的。
05:09
然后再往上的话呢，我一个P可能就是说要大约1000个TB，那其实随着这个数据规模的不断增长，我们企业对那个数据的需是大的。整个的存储成本上升的一个同时啊，其实意味着这个数据的性噪比也是啊，会被降的比较低，那这个性噪比是什么意思堆。其实比如说就像啊，每天大家都在阅读的很多的那个流流媒体的信息，但实际上的话呢，真正关键的事情，或者说真正有效的世界时刻产生数据核切利益。
06:12
我怎么样啊，对于一家企业来讲啊，比如说啊，我去做那一些社交电商，社区电商，那里边的话呢，他们可能需要从你这个用户很多忙无目的的哪一些行为日志里面，我可能今天浏览的啊，哪一些商品，明天又看了哪一些文章，然后点进去了哪一个链接，然后又给哪一个消费评论点了赞，从这一些大量的数据里面，我去分析出说啊你这个消费者到底喜欢什么，那像低成本，另外一方面我要去高效的去分析出来有效的信息，那这个时候其实就是需要用到我们这个热分层的价格，前面其实总结下来的话呢，就是说啊，第一个我一定是性能。
07:06
呃，需要考虑到的一个点，因为你性价比低了嘛，我如果说我分析的速度越快，那我相应的啊，我那个产数据的一个产生的一个价值它会更加高啊，比如比如说举个例子，我像在用小红书的时候，如果说我现在浏览了一堆的时候，然后数据呢，可能隔个一个月你才能够分析出来，那显然你这个数据的时效性就下降了。然后第二个的话呢，就是我要省钱，那省钱的一个意思就是啊，减少成本嘛，那这个地方的话呢，我怎么样去用这个更低成本的一个存储就变得很关键，或者说我这个架构上怎么样啊，让整个架构的成本更低，也会变得非常关键。然后第三个就是说一个弹性的诉求，我们今天的话呢，其实啊重点重点是在讲省钱这一块，下边的那一个内容也会围绕着这一个字展开，然后接下来的话呢，就给大家介绍一下我们的一个冷热分层的一个架。
08:11
我们可以先看一下就是啊，我们基于这一个热分的架构里面，或者说啊，我们对象存储其实就是负责冷存储的部分呢，就是责热存储的部分啊，这两个产品他们在一个的数据，大数据的一个框架里面处于什么样的一个位置？呃，完整的一个数据链，数据的一个数据流的一个链条啊，大家可以看一下，就是首先我数据的产生其实会有很多地方，比如说客户端的日志啊，或者服务端的日志啊，然后很多用户的一些行为日志啊，各种各样的数据。然后的话呢，会经过一个各种组件的一个采集，再到清洗，那清洗完了之后，或者说有一些数据可能会直接采集完就留到存储存储里面了，然后或者清洗完呢，我再进入到这个数据里，那治理层的话呢，它会有很多的大数据的组件了，然或者说一些啊容器的服务，然后在这个数据上去读对应的那一个啊数据进行一些分析，可能是AI类的，也可能是说大数据类的。
09:24
然后的话呢，进一步的我会把这一些数据呢，啊，给到更上层的那个可视化的组件，由他们去展示，那这是一整个大数据的一个框架，那这个时候的话呢，其实大家可以关注到每一个环节，其实对这一层会有不同的需求，比如说我采集端的，我可能会有在线的，或者说离线。会有两种不同的那个业务模型，那在线来的话呢，可能会有并发的，对吧，那这个时候的话呢，我怎么样保证你这个系统能够扛住比较高的QPS是一个比较关键的因素，然后对于离线的业务来讲，我有可能会有比较大的带宽，然后在那个数据治理这一层，我要读数据，那我可能会一下子会有一个时的业务过来，比如说在一些企业里边啊，我可能对吧，我每个月我会跑一份报表，那这一个月的报表呢，我会依据说每天很多个业务团队的那个数据，我会统一的去啊扫一遍，扫完了之后的话呢，再去进行汇聚。
10:37
然后再份这样的一个报表，这个过程的话呢，可能说相对来比较简单一点，实际上的话呢，在底对于底层来讲，会有产生比较大的一个IO，那这个时候的话就得看一下我们对这样多种多样的一个的求的时候啊，我们应该怎么样去搭建一个冷热分层的架构。
11:03
因为对象存储啊，它本身其实是一个数据存储的一个事实上的标准。现在大家都普遍都是用对象存储来作为整个公有云的一个统一的存储池啊，像GU的的话呢，他们在今年出的一份预测报告里面也也在讲这个对象存储啊，逐步的在融合文件存储这样的一个趋势，但是的话呢，其实对象存储啊，也有它一些相对来讲比较弱的一些地方，比如说啊，它为了保证你这个文件能够快速的去分发，它其实目录这里用的是那个K性KB式的那个存储。那不像那个文索引一样，它能够支持大大量的那个list的请求，也不支持原的那个的请求啊，这些的话呢，实际稍。
12:00
那这个时候的话呢，可能就是得有一些别的方式，那一般来讲用什么方式比较好。我们去回一下，就是以前啊，可能大家那些系统程的的的构图。那这里边的话呢，就是说啊，越快的那一个存储服务，它其实是会用更小更快以及成本更高的存储设备，而对于更远端的来讲，低成本的那一个部分，很大部分啊一个架构呢，他们会采用一些更大更或者说啊字节差别更低的一个存储设备，那其实这种设计思路的话呢，啊是一个非常朴素的设计思路，就是。啊，我们如果说会有一个分层的一个需求的时候，我们不妨在中间加多一层。其实以前有一个那个教授叫他其实提了一个非常经典的话，就计算机科学里面的任何问题都可以通过加上一层间接层来解决，就很情况下用。
13:12
满足这个低成本的诉求的时候啊，如果说比如说当我去分发做内容分发，我遇到一个说啊海量的QPS，以及说需要低延迟的一个访问的时候，这个时候可能用的是CDN服务，而如果说啊，我们在用大数据的业务来进行一个分析的时候，那这个时候又需要遇到一个高性能的一个访问，那我们可能采用的就是像S这样的一个缓存。那这一款产品的话呢，其实前边的几期里边啊，有不少同事已经介绍过的一个具体的一些实现，以及说啊，他在那个具体案例啊当中的一个应用了。啊，这一期的话呢，也不展开讲，但是会帮大家回顾一下，就是他自己本身的话呢，其实是提供了一个计算端的一个缓存能力，那这里边呢，这里的话呢，会区分成两的一个缓存，第一的话呢，是我们数据这一个的啊缓存，我们这个MS这个产品的话呢，其实是可以支持。
14:21
把数据啊，比如说啊，我们在对象储上啊，会有图片，会有视，会有种CV或者Jason orc这样的各各样的结构化或者非结构化或者结构化的数据啊，这些不管什么样的格式，其实的话呢，都可以把它近存在本地的那个计算节点上边，那这个时候的话呢，啊，我们可以自己选择到底是要缓存在那个啊内存里面，或者说地可能可能是S时的自己需求的，需我直接把它缓存在本地的一个计算节点，那这个时候的话呢，整个的反应。
15:06
整个的访问就会相对变得更加快一点，因为它是靠近那个CPU的，那另外一层缓存呢，其实就是数据的缓存，那数据缓存这一个呢，它其实最大最大的一个作用，其实就是满足前面提到的，我在可能我文件list的这一个操作，或者说啊，我对于那个数据的一个信息获取的时候，我的一个访问的一个性能。然后的话呢，可以看一下，就是我们在一些具体的啊，产品当中，计算产品当中怎么样去用。啊，一般来讲的话呢，我们这边啊故S它原先采用的就是master加worker的一个架构啊，这个其实啊这个架构在很多大数据产品里面大家都可以遇到，那其实也采用了这一种，那TK里面的话呢，啊，Master节点的话呢，其实啊也是啊，作为一个leader节点，然后部署在那个TK的某一个po里边。
16:06
然后啊，我们可以在节点在其他的po上边呢，部署这个故事S的一个节点，然后我们可以根据。这个计算引擎的一个调度，我们来把不同的数据存在不同的节点上，那这个时候整个业务是怎么样的呢？就是比如说我t ke。的计某一个计算节点我需要拉啊数据了，比如说我现在有一批啊容器镜像文件我需要去分发，那这个时候的话呢，我可以先把这一个镜像文件我缓存在啊这个节点上边，那其他的所有的计算节点要拉数据的时候，它就不用直接去cos上边去拉了，他是会先去问一下你这个master节点问一下说啊，你这个缓存文件到底在哪个节点上。那master节点会告诉那个计算节点说啊，你这个啊缓存文件镜像文件呢，是在啊A节点AA节点上边，B节点上边好行，那接下来计算节点就会自己去worker节点上去拉对应的那个镜像文件，这是一个镜像分发的例子啊，那这个时候的话呢，其实对于用户来讲，他要做的一个事情就是把故事FS部署到一个t ke的那个集群里边。
17:27
然后的话呢，把文件先缓存到，或者说也不先缓存也行啊，故事MS支持那个预热的也可以支持那个访问后再去那个缓存，这两种模式都支持，那总归的话呢，就是需要保证这个缓存节点里面有那个需要分发的数据。那其实这个架构看起来会比较复杂，但实际上在使用过程当中啊，也比较简单，我们现在的话呢，在容器服务上面，实际上是上线了MS这个应用。那对于用来讲的话呢，其要去1T应的一创好可以了，剩下的按正常使T直接按照S的一个格去问上面的数据就可以了。
18:34
我们在官网的cos对象存储的一个官网文档上面啊，也有数据加速器MS的一个容器里面的一个使用指南，大家如果有兴趣的话也可以去看一下。那接下来的话呢，会再讲一讲说啊，我们在em里面使用FS的时候是怎么样使用的，其实整体的流程啊，啊大约是啊也是这个模式，也是要有一个节点布master节点啊，也要有一些节点要去布s worker节点，那区别点的话呢，可能就是说啊，我们实际上这里是部署那个C上的，是部署那个容上，那这里的这里的话呢，大家可以有兴的话呢，也可以去看一下。
19:19
啊，我们官网上边啊，有关部署的一个文档。然后的话呢，我们目前在那个em上也支持用S，大家可以啊，在二六这个版本里啊，选择那个1.0.0，那em Mr这里的话，历史2.6.0以前的版本呢，其实就不支持了，这个后边啊，我们只会在新的那个em集群版本里面去不断的去支持这个故事MS。然后的话呢，啊，我在这里选择好S的那个服务之后啊，我在下边可以看到在集群服务里面，我是可以看得到这个运行的故事S，然后我可以进入到那个集群里面去管理这个组件。
20:05
好，这前面其实简要的给大家回顾了一下，我们怎么样在那个emr集群，在TK集群里面使用故事MS，那接下来的话呢，会给大家看一看，就是为什么我们。啊，需要这么一个MS的一个冷热架构。在大数据里面的话呢，其实以前哈，就一零年这一段时间过来，其实很多业务啊，其实一般都是使用本地盘来搭HDMS集群，那这个时候的话呢，HDS其实是能够满足一部分用户他们的一个数据访问的需求。但实际的话呢，啊，在我们随着我们那个啊业务的一个发展啊，这个访问的模式可能又有点区别呢，啊具体有哪一些区别呢？举个例子，比如说啊，我们啊说我们那个业务模型，就比如说我们最近那个啊很多的那个媒体文件的产生，实际上是带来了一些新的一些啊业务模型，比如说我们那个图片的识别，那这个时候的话呢，啊，我们会有一些别的一些类型的业务，比如说我AI的分析。
21:21
那可能像啊小红书，大家在用小红书的时候呢，我们可以看到说每一张图片上面其实都会有自己的一个啊业务的标签的，那这个时候的话呢，它的业务模型跟传统的HDS还不太一样，我可能只需要把这个文件拉到很低，然后去做一个AI算法的一个识别，那这个时候的话呢，用HDS可能就不那么合适了啊。另另外一种呢，就是说啊，我们传统的HDS，它的存储跟计算其实都是强耦合在本地集群上边的，其实并不是那么弹性，那这种强耦合的模式其实在某种程度上呢，是增加了企业的成本，为什么这么说呢？因为你的计算跟弹性很多时候并不是啊线性相关的。
22:10
更多的时候是什么呢？也有可能只是说啊，突然有一波计算业务跑起来了，像刚刚前面讲的，我要算每月的报表的时候，我可能是在这么月末的这个一个时间，我的计算的需求突然就上来了，然后存储的需求并没有增加，这个时候的话呢，会导致说我企业很多时候，我如果说计算跟存储都在本地，那我很企业很多时候都是需要为那个最高点的那个峰值去付费，我会预留很多的冗余资源，那这个时候的话呢，其实用本地盘的HDMS并不是那么靠谱了。啊，这个是啊，相对于本地盘HDFS来讲的哈，然后我们回过头来看来讲，那我既然不用HDFS，我直接把所有数据挪到上，然后我在cos上边跑这一部分数据行不行，那结论其实啊也会相相对来讲会比较明显，因为其实在对cos来讲，它的设对象存储啊，这个服务的设计支出其实是为了让那个啊数据能够低成本的去存储，然后适用于那一些大规模的分发有。
23:18
在这个时候的话呢，它其实对性能上并没有说有特别高的一个设计标准，那这个时候呢，为了应对大数据这些场景。它其实是需要有一定的手段来保障说我热数据这一层它的一个访问性能的，所以的话呢，在这样的一个背景下，我们会有这样的一个冷热分层的架构，当然了也有用户会说啊，我既然用了故事FS，然后我数据又在cos上，那这个时候的话呢，啊，我有可能会产生一定额外的成本，比如说我是需要计算地啊，会有一定的那个磁盘的的，那这个时候会产生额外的成本啊这一点是没有错的，所以我们这边呢，也会有一个大约的一个分析，其实的话呢，我们啊，根据我们自己的一个业务的情况来看啊，在正常比如说我正常啊PB级别的一些规模的用户的情况下，使用场景的情况下，我呢用cos本身是带来的一定的成本集约了，那再加上那一个本地盘，故S本地盘的一个消耗。
24:26
它跟本地盘HDS的消耗相比，其实差别成本上的差别并不特别明显。然后的话呢，随着我们这个规模越来越大的时候，我们实际上会有一个非常大的一个成本优势，原因就在于说对于很多企业来讲，其实你冷数据的那一个啊部分会占比非常非常的大，而热真正需要用到的热数据呢，其实并没有那么多，所以的话呢，你啊按照一个非常标准的原则，就是二八原则哈。
25:00
按照这个原则来看的话呢，我假设20%的热数据，80%的数据，那这个时候你用故事来。顶住一部分的高性能的需求就可以了，用cost，你可以用cost上面的各种各样的啊成本管理手段来进一步的降低数，这个是我们在这个带来的一个的个上的，接下来的话呢，会给大家讲一下。我们在公有云存储上做这个成本优化的一些常见的手段。我们在使用啊，在做这个成本优化的时候啊，最重要的一个点还是先了解，还是需要先了解清楚啊，这个成本的结构是怎么样的，其实前面提到啊，就是啊，我在用这一个啊S的时候，我是搭配的cos来用的嘛，我会去搭这一个冷热分层的架构，那在整个存储上的一个消耗，我们可以认为说就是约等于costs的消耗，增加SS的一个消耗，那这一部分的话呢，我们可以详细来看一下。
26:15
啊，每个产品他们之间的一个存储的结构啊，成本的结构到底是怎么样的，先说这个cos的一个成本结构，嗯，Cos这边的话呢，其实。它的成本结构会相对来讲比较复杂一点。原因在于哪一些呢？你大家可以看一下，我这里列了一个啊图啊，就是这里边有存储容量的费用，有请求流量的费用，有请求次数的费用。然后如果涉及到一些存储的话呢，会有数据取回的费用，然后此外还有一些增值服务的数据管理费用，然后还有我们基于存储的一些数据处理的费用。如果我们再往下拆的话呢，它还会有很多更细的计费项，比如说我存储这一块，我会有不同的存储类型，我会有标准存储，低频存储，归档存储深度归档，还有智能分层，而到了请求流量这里，我我会有CDN的回跃流量，外网下行，跨地域复制，全球加速这些，那么这些啊计费项它其实共同了组成了这一个。
27:27
啊，可能就是用户在那个啊，使用账单的时候，大家都能看得到的各种各样乱七八糟五花八门的一些啊计费点。而在S这一侧的话呢，相对来讲会比较简单一点，因为对于事S的成本结构来讲，它其实master依赖的其实是一个啊本地的节点，那这个时候的话呢，本地的节点啊，相对来说它依赖的四个核心因素，一个呢是CPU的核数。另外一个是内存，还有一个是磁盘的容量，最后一个是你这个整个节点的一个数量，那这几个核心的因素呢，会直接决定说啊，你这一个S的。
28:10
呃，数据的一个缓存集群到底会带来多大的成本？好，我们回顾这一个成本结构，看完了之后，我们再来看到底去怎么做成本优化，那讲成本的时候，其实不可避免会啊，遇到另外一个问题，就是我到底啊，在成本跟性能之间需要去做什么样的抉择？接下来的话呢，也会给大家详细的啊说一下，那我们在搭冷热分层的结构的时候，我们先来看一看在热数据这一层我们到底要怎么做，先说数据这一层吧，缓存集的话呢，它起到的一个作用就是给上的业务者说给前端的这一类的各种各样的计算框架，比如说我Spark啊，然后或者说可能还有pencil flow啊这些。
29:02
啊，计算框架，我要提供一个高性能的访问，那显而易见的，我只要我的那个集群的配置越高，那相应的我的性能就肯定越好，但同时的话呢，你这个集群的配置越高，我的成本也会更高，所以的话呢，这里面就涉及到一个权衡的问题，大家可以看得到说啊我们正常的情况下，如果说啊，用一个SSD的云盘。来做一个缓存集群的话，我的成本我可能用了一个比较高的配置啊，然后完了之后我的容量也有2TB对吧，那这个时候我的费用可能会达到40多万一个月。然后的话呢，对于那个啊增强型的硬盘来说，可能相对来讲就会更便宜了。然后接下来还有IQ跟第三的云盘，第三的云盘这一些其实成本上看起来都会有不同的差异，那相应的话呢，他们的性能表表。
30:07
我们这边看到的呢，就是说啊，我用增强型的云硬盘，其实整体的表现会相对来说其实会更好，但它其实成本上呢，并不会说表现啊的那么突出，那这个的话其实是一个性能跟成本上面的一个差距，那大家啊可以在具体的业务使用过程当中，根据自己的需要去搭建一个合适的缓。然后的话呢，我们再来看一下冷存储这一部分，就是当我数据存到对象存储上面之后，我怎么样去做一个成本管理，那首先最重要的一条就是为自己的数据选择一个合适的存储类型。那呃，先说一下我们有哪一些存储类型，就是啊，如果说是按那个存储介质来分，我月冷的存储介质，我的成本的一个单价肯定相对的更低，比如说我标准存储，我现在可能判价是一毛多一点，而而在深度归档这一层呢，我可能单价只有一分钱，那这个时候的话呢，我就得根据业务的需要来选择，因为。
31:19
我阅览的存储啊，其实它的取回的时间它会变得更长，怎么理解呢？我们像归档存储的话呢，我们会有三档取回啊，它这里最少最少是需要一分钟才能够恢复到一个可以直接读取的一个状态。而深度归档存储这一个呢，它最少最少是需要12个小时才能够恢复到一个可以读取，直接读取的一个状态，而此外的话，像归档归档这档比较产品也有自己最小空间最小时的求。所以的话呢，一定程度上会带来那个使用上面的限制，一般如果对于大文件并且要持续的那个啊数据来讲更划算一些。
32:11
比如说我一些视频类，并且不需要怎么访问的一些数据，像安防监控类型的数据啊，啊，或者说像一些存的一些相片呢，这一些都可以放到归档和深度归档上面，那对于如果说有一些业务可能是在做图常用的，那他可能用标准会更合适一点，因为像比如说我自己建了一个博客，上面会有图片，图片放在对象存储上边，那这个时候引用的时候，我这里会涉及到大规模的分发，那显而易见，用标准存储会更加合适一点。我们自己来做一个啊，比较简单粗暴的一个换算方式。大家可以看一下。在这两个几个计费项里面，我们存储单价加流量加取回，其实啊，共同组成了一个最基本的一个计费项。
33:04
我们存的时候的话呢，会占存储容量的费用，那我们在读的时候呢，我正常标准我是流量的费用，那归档跟低频还有深度归档，我们在读的时候，除了流量还会再收一个取回的费用，那相应的我如果读的越多，相应的这流量加取回就会更多，对吧？那按照这三个大的计分项我们统一来看一下的话，那如果说我这个月我经常去读，那显然我其实没有必要低频纯归纳，纯深度归纳。因为他们有还会收一份回单价，对，那什么时去存在呢，可以看一下多。那实际上的话呢，只要我读的次数，比如说我每句读的次数。是少于这一个。每句必读的次数啊，加起来的总和少于这一个就行了，那其实你简单去一遍就知道，我这里大约是四次。
34:06
一个月你只要读四次的情况下，比如每GB文件我读四次的情况下，我是会低于我加起来呢，我是会低于你这个0.08再加0.04，不对，说错了，说反了。纠正一下是你每G币啊，比如说我这里是0.02元对吧，我取回单价，那我如果说我这个月我都标准存储的话，那我这里是收0.12元，那如果存低频的话呢，是收0.08元，那这个时候呢，我中间的差价是0.04元，我假设你读取的次数是一样的情况下。我如果说为了。读的次数越多，我其实是存低频会越不划算，那到了读两次的时候，我会达到一个边界点，那我读两次的时候是怎么样的，我这一个GB的文件，我读两次，那我就会产生产生0.04的取回费用，对吧，那我一加其实就是0.02，那实际上的话呢，我只要读取的一个次数小于这一个就OK了。
35:08
这是一个比较简单粗暴的一个换算公式啊，但是实际上的话呢，在具体的使用过程当中又并没有那么简单，那如果说按照这个公式去换算的话呢，其实大概看起来就是深度归档。我适当于半年读一次会划算一点，而归档的话呢，我大约三个月读一次会划算一点啊，低频的话呢，一个月读取你只要小于两次就OK了，那这个数值的话其实会比较比较比较一些，对来去选择合适的一个存储类型，这个是存储类型上面的一个选择。然后的话呢，接下来再讲一下，因为呃，对于很多业务数据来讲呢，它的数据并不是说固定的，它有可能会不断的从热变冷，会有一个慢慢变冷的一个过程，比如说某一个客户他的一个行为日志大数据。
36:03
他们可能啊，会用这一部分行为日志来做一个广告推荐，那一般而言的话呢，这些行为日志会有一定的时间的有效性，在刚上传的那一段时间才被频繁访问到，比如说我们在刷淘宝的时候，我可能这个时间点我刷了一下啊，看了，比如说我看了一把球拍。对吧，看了一把球拍，那后边可能淘宝会频繁的去推荐球拍这一类的商品，而过了一段时间之后，他是不会再推荐的，其实这也是印证了这个点啊，就是你对于行为日志大数据来讲，它是有一定的时效性的。那其实它有效的时间就在一个可能，比如说我30天内，它是一个有效的时间，过了30天它就无效了，没什么用了，那这个时候的话呢啊，我们在具体使用的时候，就可以搭配的生命周期去使用了，比如说我刚上传的时候，我存在生命周期里面，然后我过了90天呢，我把它设置为沉降到低频，然后也可以再配置一下，我过了一年之后，我把它全部沉降到归档。
37:08
那这个时候的话呢。我存储的时间越长。然后我选择一个更合理的生命周期配置，我其实我的成本会更低，比如说我这里对比了三种不同的那个类型，大家可以看到，如果我这个数据我是存两年的数据，然后一直都存在标准，那我可能要花将近30万，而如果我选择说我90天之后我就放到低频的话，我可能只需要20万，那我如果说一年之后我直接把它丢到归档里面，那我可能成本会更低，15万，那相比起这一个来讲，它有接近一半一倍。的那个成本的那个节约，从29万变到了15，接近砍了一啊，这里是生命周期的一个管理方式，然后的话呢，第三种的做法是我们可以通过文件压缩来减少一些啊存储的容量，比如说有一些业务哈，他可能要去搞那些AI图，然后在cos上面存了很多的图片，那这些图片的话呢，如果原图的话会非常的占空间，那在对象存储上面，其实是提供了不同的那个压缩方式。
38:20
那这里的话呢，也有一个简单的对比，我们有不同的那个压缩啊算法，然后他们的压缩比不一样，压缩的视觉损失也不一样，那对应的一个压缩的费用也不一样，可以看到web压缩这个其实压缩效果最好的，但是它会有一定的色域损失，但是的话呢，如果我们用估计压缩它的视觉是完全无损的，但相应来讲，它相对的来讲的话，它会贵一点点。这个的话呢，是使用文件压缩来减少这个存储容量，然后的话呢。啊，再往下，我们前面其实讲了，说你在数据存储的过程当中，我怎么样去做一个成本的管理，再往下的话呢，会给大家介绍一下说啊我们怎么样去做这个成本的回顾啊，最简单的一个做法就是我可以通过我们公有云上对象存储提供的一些啊，像清单日志啊，还有对象检索这样的能力，然后来进行一个数据访问模式的复合。
39:26
我们先说一下清单，我清单的话可以去复合这个文件的存储量，我可以去生成整个里边每一个文件，它的一个大小，它的一个储类别，它的一个最近的一个更新时间，我可以把这些啊清单的数据的信息，我把它出来，我们会把一部分的个输出报告列到那清单报告里面，然后投递到你的存储。存储桶中，那这一个的话呢，是清单这一个能力，然后的话呢，我们也可以通过日志来访问，日志的话呢，它的作用就是说我会记录所有的用户请求，那这里边你可以去把日志导出来，然后去算一下啊，你的那个访问次数还有。
40:20
我们在公有云上也提供了一个相对简单的一个啊，轻量化的一个C口的一个检索方式，那这一个就是我们的Co能力，可以在官网的文档上面搜一下，这个会有一个教程，然后这里的话呢，是一个简单的截图，大家可以看一下它的是什么呢？比如说我可以把啊标准的文件，我把它检索出来看一下，说啊你有多少个，然后我可以自定义一些啊检索的条件，比如说你有多少文件是符合这个要求的，我全部把它导出来，那这里会有一个初步的一个简单的一个认识。然后的话呢，第二成本回顾的一个手段，就是通过我们计费平台来进行一个成本回顾。
41:08
那这里的话呢，会有一个，首先会有两个概念，一个是平台账单，然后另外一个是用量明细，先说一下这个平台账单，平台账单这边的话呢，我们在控制台上是可以看到所有产品他们的一个具体用量情况的。那这个时候的话呢，你可以去分析我到底哪一款产品它用的比较多，比如说我是cos用的多，还是说计算集群的载这个用量明细，比如说啊，我这里存储这一块哈，我用了对象存储。对吧，我也用了云HDMS。那这两款产品到底哪一个比较占备用呢？你可以去把它的用量明细下载下来，下载下来之后的话呢，你可以进一步的去看啊，我对象存储里面到底云里到底个系占比比较，那个时候可以进一步的去看到个成本需不需要去进一步的优化，比如说像有一些公司里面，他们可能是按照业务去区分不同的存储的，那这个时候可能一看，诶你A业务这个地方的储呢用量比较多，那我就需要去看一下我A业务到底是为什么用量比较多，然后它到底是哪一些用量比较多，是存储的用量多了呢，还是流量多了呢，还是说一些数据处理类的费用多了呢？那根据不同的那一个费用支出项。
42:47
我再去进一步的去优化我的这个云上的使用成本。这个是账单跟明细，我们可以通过计费平台来进行一个成本的回顾好，然后的话呢，接下来啊，就到了一个问答的时间了。
43:06
大家可以看一下啊，有什么问题需要了解的。好的，我这边汇总一下问题，然后这边的话，今天大概只有两个问题，然后两个的话，呃，我这边给到我们的讲师，然后做一下解答。
44:03
哦，我看到了那个第一个问题，怎么去区分冷热数据，能不能自动拆分。我先说一下那个故事，MS在具体使用的过程当中，有一个缓存的设计啊，那这个缓存设计刚其实有讲过啊，用户可以先预热，也可以等那个访问到了的时候，我再由S把文件拉到那个缓存节点上，那这个地方的话呢，我们在整个缓存系统里面，我们就认为说你一旦被问到了这个地方，其实就是一个热数据。那相应来讲的话呢，我不晓得这个不解的问题，就是据那个区到底哪一些数据。这个其实根据问到节。
45:02
这是第一个问题，第二个问题是有个业务场景是用户上传一个兆的图，然后根据业务需求在不同的页面展示。啊，不同大小的一个缩略图，有什么比较优的解决方案吗？我先说一下这里其实啊。可能有两种做法。我先说一下，嗯，比如说呢，你这些原图，原图片你可以放到这个存储下，A下面我假设啊。比如说A桶，然后再加一个啊，比如说我加一个目录标志说啊，你这个目录下边的文件存的是原图，然后的话呢，好，我把这个原图放在这里了，那接下来的话呢，我可以用刚刚提到的那个压缩的算法。我把不同的业务照不同的需求，我把这些片我压到不同的那个格式，然后的呢，分别存在不同的别的目录下，那这个时候对于业务来讲的话呢，你可以根据自己的一个业务需求，你去对应的那个目录下去取文件。
46:20
取的呢，就是压缩后的文件了，这是第一种做法。就是你先在公有云上面先压好并且存，然后的话呢，业务根据不同的需求去读取压缩后的文件，这是第一种，那第二种做。在进行请求的时候，进行一个压缩的处理，那这个时候的话呢，要做的事情就是说啊，刚刚前面讲原图的一个储，这个是不变，那在用不理参。
47:00
那这个是会偏在线的一个压缩方式，好，这是第二个问题，那第三个问题的话呢，是MS啊存储有没有容灾机制。啊，这里的话呢，我分开讲，就是因为你这个存储里面其实包括了比较多的产品，比如说我们对象存储啊，有也有云HDMS，也有故事is。那对象存储本身呢，是一个多副本的冗于存储方式，底层的话呢，会把数据放到不同的那一个硬盘上面，放到不同的啊，更严格的呢，会放到不同的数据中心，那这个是用户可选的，然后的话呢，在功能层面上，我们也给用户提供了不同的那一个存储的那个能力，比如说我可以用跨地复制功能，我去做跨地域的容灾，这是一个跨地域的容灾方，我也可以用版本控去数据被误删，这个呢是对啊，就是这一块的一个灾方式，而对于来讲，我们在讨论它的容灾的时候，更多的会关注它的一个可用性多一点，比如说我master节点，我要我们会有一个模式，就是高模式，你可以去进行一组的那个轮，那另外的话呢，就是说啊，当我假设整个。
48:34
群的时候呢，可以传。啊，这是三个问题。好的，那这边先，呃，这边谢谢李楠老师，然后刚刚如果您的问题被抽中的话，您凭借您的问题截图，在腾讯云存储公众号回复您的收货地址跟那个问题截图，我们将会在一周之内将礼品进到您的手中，然后接下来我看一下我们这一期的就是活跃。
49:20
活跃观众有哪些？稍等一下啊。我们这一期的话是抽出了五位活跃观众，然后会给您寄那个新年贺卡，然后我把这个对应的有哪些人在我们的评论区，然后看到的用户的话就。将这个就是评论截图，在腾讯云公众号回复您的收货地址和评论截图，我们也会在一周之内将礼品送到您的手中。那个上上次的礼物，我看我看我在周三的时候都已经发出去了。
50:02
因为因为是这样的，就是我们有时候会采采购一波新的东西，所以说它到的没那么快。但是礼物的话，肯定是会给你们送的。然后那这边的话，感谢直播间的各位小伙伴，然后以及感谢我们呃，林南老师，然后我再说一下我们下一期的那个直播主题，下一期的直播主题是那个数据迁移篇，然后也是由林老师来讲。嗯，然后今天的直播就到此结束吧，谢谢大家。

展开

我来说两句

0 条评论

登录后参与评论

作者

sunnyzhai

雁栖学堂--数据湖直播第七期原创

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐