雁栖学堂--湖存储直播第一期原创

2021-09-132021-09-13 17:51:24播放853

点赞1 收藏 0

雁栖学堂--湖存储直播第一期

视频文本

温馨提示：文本由机器自动转译，部分词句存在误差，以视频为准

00:07
喂，你可以听到吧。可以。嗯，大家好，欢迎大家来到云云家的直播间，然后我们今天邀请到的是存储产品中心的高级工程师陈丽老师来给我们分享数据存储加速器相关的业务。然后呢，呃，欢迎大家在直播间互动跟提问，然后会后的话，我们会整理大家的问题，然后进行针对性的解答，如果您的问题有幸被抽中的话，将会获得一份精美礼品，好的，那接下来由我们的陈丽老师进行分享。啊，云家社区的观众朋友们大家好，今天呃，我来分享一下啊，腾讯云对象存储cos在今年发布的一个重磅的产品，就是一个数据加速器F的产品，那么我们这个整体呃，Cos对象存储的整体方案呢，会用一个系列的形式给大家带来，然后我们这个就叫云期学堂整个系列，然会分为大概九期的直播的节目啊最后的话呢，我们也会预告一下这个九七直播节目是怎么样。
01:20
那么第一期呢，就由我来给大家呃大揽一下这个呃cos对象存储在数据方面，数据这个方向方面做了一些突破啊，今天也发布了一个重磅产品CI，那么我们现在就开始啊今天的分享。啊，先介绍一下我本人哈，我现在是腾讯云的高级工程师，然后目前是在腾讯云对象存储cos团队啊，担任这个数据库方向的研发负责人，那么我本人是在一九年加入腾讯的啊之后呢，一直是在做存储和大数据相关的服务建设。啊之前呢，也是就职于AWSS3的美国总部，还有就是呃也就职于华为的对象存储OBS等啊多家云存储的厂厂商，然后本人呢，呃之前也活跃在开源社区，然后之前在做的是阿阿帕奇欧欧纵和阿帕奇哈杜普的项目，然后目前是欧纵的PMC和啊主要的工作呢，都是集中于大数据和AI方向的一些存储应用和一些拓拓展的一些方面，所以目前我也是致力就是基于呃腾讯云对象存储cos服务为底座，然后架设这个数据库方向，包括大数据AI方向的一些存储的相关应用。
02:32
啊，然后本次呢，我们先从腾讯云对象存储cos开始聊起，那么对象存储呢，其实大家呃，之前如果有对于云服务有一些了解或者使用的同学，对象存储应该都比较熟熟悉了。对象存储呢，其实第一对象存储的产品呢，就是aw啊，那么腾讯云在腾讯云的整个对象也了很多年，也积累了E级别的客户数数据，那么对象存储本身有一些。
03:02
比较呃良好啊，或者比较重要的一些特性给到带给到客户，那么首先就是存储的可靠性会比较高，呃，对象存储呢，就腾讯云对象存储cos呢，是保证能有12个九的，呃，这个数据持久性的，然后冗余模式呢，提供了多副本和1C周三码冗余存存储等多种形式啊，同时呢，也是一个高可用的存储，能够提能够提供高达96.95%的服务可用性，然后也围绕客户的业务保驾护航。啊同时呢也呃全面兼容，能够兼容aw等多个接口，然后还有很多生态工具的这种支持啊同时呢，腾讯云对象存储呢，也承诺提供啊3万的QS的请求性能，保障用户在啊高并发的业务状态下能够稳定运行这个高性能的业务呢，也对于这个很多层杂的计算业务啊，或者复杂的些A的任务啊，能够提供很好的。性能支撑啊，同时呢，腾讯云对象存储在数据安全性上面也是提供全链路的安全保保障，无论是在网络传输存储啊访问，包括多租户权限隔隔离加密啊，加密传输，加密存储这些服务都是啊能够原生提供的，那么同时呢，呃，腾讯cos也有它强大的这个本的一个优优势，那么可以低这个一分钱1GB的度归档存储，同时呢，也支持呃，包括生命周期管理啊，或者智能分层啊这样的业务，能够帮客户进一步的降低这个整个存储成本的应用，所以这些都是整个腾讯云对象存储啊这一个呃整体的优势，那么基于这些优势呢，我们也认为就是啊，现在新的这个数据湖的架构啊，大家都比较感兴趣。
04:48
那么新的这个数据库架构呢，也是基于对象存储去实现的，数据呢，在对象存储上不仅能享受呃各种高可靠，高可用，然后强比较强的性能，同时呢也能够享受低成本和弹性的孵化，这些其实都是在呃数据爆炸的时代呢，对于数据存储方面是比较重要的一些点。
05:09
然后呃，腾讯云本身在这个呃数据膨胀的这个年代呢，也享受了数据的红红利，那么呃，腾讯云对象存储呢，现在已经有超过一级别的就是啊整体的数数据量，那么我们所看到的呢，呃数据作为企业的核心资资产，那么数据每呃数据量啊，整个腾讯云的云上的数据量每年都增长20%-40%，然后这个趋势上看下来，每个一年半到两年就是18到24个月呢，数据量都会翻一翻，所以这个数据量的这个成长速度是非常惊人的，然后。呃。对于很多企业来说，这个怎么用好这些数据啊，包括怎么啊能够高效，也是能够应付企业的很多纷繁复杂的这种这种计算任务，也是大家越来越感兴趣的话话题，那么。数据这个架构呢，也是基于很多现在目前大数据。
06:04
这个情景底下的一些一些问题，那么实际操作的过过程中呢，我们也看到就是很多客户会反映说，呃，原原先基于本地盘和H就开源H这些方案呢，会有一些，呃无论是在这个性能啊，成本啊，运维方面会有这样那样的问题，那么从这个存储整个呃技术的角度上来说，HTS呢，因为它notde是全内存，包括它这个有ability的问题，所以它呃对于小文件，它会有一些一定程度的性能抖动，还有一些长尾效应会比较多，然后同时呢。由于它的name和download之间的管理模模式呢，它容易出现扩容成本高，包括re过过程中后台的这些block的迁移。会严重影响它的这个读写的这个呃带宽，然后同时呢，H呢，在点零版本呢，支持了三副本，然后3.0版本呢，虽然支持了ec，其实3.0版本的这个使用，包括稳定性啊都还是啊没有被很多厂商所证明的，所以在三副本的情况下呢，这个存储本呢，也相当相当相对来说会高一些啊，同时呢，这个H假设出现了这个name的问题啊，或者一些啊这个集群的问题呢，它有因为H常规是跟计算一起部部署的，所以这个时候呃，可能缺乏一些高可用啊，或者可用性下下降，就会造成算任务的一个无法按时完成的一个问题，那么对于很多大数据业务来说啊，因为存的一些IO问题，导致计算作业的重新要重，这个成本对于客户来说就会比较高啊，那么同同时对于计算来说，有可能在有一些任务啊，尤其是我们现在最近看到就对于这种啊flow啊，或者一些AI训练的任务呢，像很多遗。
07:51
这个内存空间啊，这些都是啊，没有被利用起来的，所以其实对客户来说，很多硬件资源，包括这个呃，计算资源也没有很好的被利用，然后本地的一些本地盘的，对于本地盘的用上来说呢，这个运维的工作量比较大，相信啊，就是在场的同学们，如果运运维过的话，你能感受到本身运维的这个成本，包括这个费的也是比较大的，然后这个时候你去做或者任务上线紧急的时候呢，就会啊比较头头疼，所以P运维也是成本很高的，那么不只是要做研发部部署，甚至这个运维的成本对很多厂商来说都是一个很头疼的问题。
08:33
所以基于这些本地存储的这种痛点吧，然后我们也是看到了，就整个大数据也好，AI也好，这些呃，场景里面数据的这种存存储呢，就成为了一个大的趋势，那么首先呢，数据存储呢，也是基于对象存储来上层搭建一些啊，无论是我们今天马上会分享的这种加速器的工具啊，包括这种啊，其其他各种各样的像存储格格格式啊，或者这种列式存储啊，各种方式能够将数据能够很好的管理起来，那么除了数据加速和数据治理两方面之外呢，成本弹性，甚至这里写的一些这个高可高高可用，都是数据想要提供给啊传统本地盘用户的一些新的。
09:19
新的一些优优势，那么呃，无论是针对大数据还是针对于AI的场景呢，啊，对象存储所能给到各位的这种啊高可用弹性，然后嗯。安全性各种各种规格的审审计啊，包括一些增值服务，比如说这个生命周期管理，冷热分层这些，然后这些同东西基本上在原先的很多客户呢，他可能需要手动的去进行一些归档，把一些这个HT上的冷数据要归档到对象存储或者其他的存储产品里面去啊，但是在这个整个数据的这个调度里面呢，其实冷热分层也是在数据的整体能力之下的，也是基于对象存储的冷热分层去做的，所以这些优势吧，包括就是说啊，其实对象存储在云上也支持了，像云监控啊，像云云日志啊这些啊，比较各种各样的这种云上的工具，能够帮助到客户更好的运维自己的集群，像这样的一些生态上的帮助，也决定了就是在云上的方案，基于对象存储所构建的数据湖，会成为下一代这个大数据和AI训练的一个大方向，所以我们呃，腾讯云cos呢，针对这个呃存储阶段分离下数据的。
10:33
这个大方向呢，我们也发布了我们自己的。第一代的这个三层加速的一个呃，一个设设想和一个产品的设计，那么目前针对很多用户呢，其实用用对象存储是呃其实是很必然的一个趋势，因为考虑到成本、弹性、运为等各方各面，其实很多呃使用者都倾向于用于云上的服务，那么在用对象存储之余呢，也会带来一个呃小小的一个弊端，就是在呃数据性能方面，包括数据本地性，包括整个数据的带宽，甚至LPS，在这种存储计算分离的情况下呢，都会比原来呃。
11:14
就是存储计算混的形式呢，它会有一定的下降。那么基于要。这个弥补这样的一些性能缺缺失呢啊，腾讯云对象存储呢，也设计了这种三层加速的及数据的方案，作为数据构建的第一步，就是数据弧性能方面的一些增增长，那么三层加速分别是第一层在计算端会混合部署这个分部式缓存，故FS的这个系系统啊，为的是在计算端做缓存加加速，那么这边也可以看到S呢，也支持了像file啊就是啊，然后包括的语啊都是支持的，然后同时呢，它自己本身带有些特性，能够让他做到能缓存，能做到可用，然后整个部也是可以支持，像然后像S署，包括手动的这种install package的这种这种啊S部署，然后同时呢，它还有一些监控告告警啊，无论是去配置这个E还是。
12:21
配置这个呃，云上的一些腾讯云上服务cos这样的一些云监控都是支持的，同时呢，FS呢也支持这个啊，多软软的一个健健全的认证，那么这个呢，也是方便于大家去融入这个整个大数据哈都的生态体体系。然后同时呢，这个我们这个日志管理呢，也是可以配置放到1K，或者放到其他的一些分布式的日志管理系统里面去。啊，这个是缓存集群所带来给这个整个数据库存储的一个功能，就是增强数据本地性，同时啊把数数据更多的在啊计算端解决问题，然后嗯，第二层呢，我们叫做它叫cos加加速体，那么一定程度上就是将多全球化的数据呢，能够靠能够加载在一个AA端，那么稍微解释一下这个A的概念，在这个对象存储的这个，呃，行业里面呢，其实每一个对象存储呢，都是分布在全球各个各地的，那么每一个大区呢都会有。
13:20
各自的集集群，然同时这个集集群内部呢，都会有一些available zone这样的一个概概念，那么就是说可能比如说在上海会有一个呃数据中心来承载S对象储的，那么在上海可能就会分多个A分这机器。所以呢啊，我们这个cos加加速器所做的目的就是比如说客户有这个全球化或者全化的各种在不同的所有的数数据会统一服务于啊某某一些作业这样子，那么这个时候呢，在跨区访问的时候，就会有一些流量的调度，比如说跨区访问的时候啊，你的流，你的那个网络服务啊，或者流量啊，成本就会比较高，同时呢，实验也会比较大，所以我们这个加速器呢，就相当于是一个A级别的这种缓缓缓存，将大量的数据呢，服务于某一个应用啊，或者服务于某一些计算的这些应，这些数据呢，优先存在这个高性能的加加速器内部，那么这样呢，可以在大数据量情况下呢，做到一个服务服务端的缓存。
14:24
然后最后一个呢，就是原数据缓缓存，那么这个呢，我们要管它叫文件，就在客户在创建的时候呢，可以选择说对象或者文件的创造，那么这样的数原数据加速呢啊，主要是利用这个一些数形的管理结构，增强这个原数据在file级别，或者在这种大数据操作的这种，这种，比如说像呃，大家熟悉的在那个Spark里面会有很多的na嘛，因为当时SH的时候会有啊，很多过程数数据，那包括hi管理的时候，它会有很多list list这样的操作，那么这个文件或者叫原数据加速的这一步呢，就会去提升list也好，Me也好，这样的数据操操作的性能，为了保证用户在这个计算端能够做到享受到更好的啊这些。
15:13
呃，服务对，所以这个是cos对象存储在今年所推出的整个三层加速的一个产品序列，然后相信在这个三层加加速全部运用完之后呢，我们也是目标是针对这个相比起原先存存储上分离里面直接用到对象存储这样的服务呢，有两倍到十倍的性能提提升，对，然后啊，接下来我们可以细节来看一下这个每一层它到底部署形态会是怎么样子。啊，那么首首先这个。呃，缓存加加加速器呢，我们会跟端署在一块，那目前呢，这个已经支持在讯，然后讯的t ke就是KS器服务，包括腾讯的就是一个计算的一个服务，都可以原原的用起来，然后同时呢，也支持这种手手动化的脚本部署，那么只要用户配了这个免密登录，就可以一键化的将整个群部署起来。
16:14
然后这样的缓存能力呢，在呃其实在大数据场景里面呢，我们主要是利用SD盘或者云，就是高性能云盘去进行一个数据缓存加加速，那么在容器还有包括flow的一些场景里面呢，就更直接，因为在就可能GPU的使用情况下呢，很多内存呢，是控闲置的一个状态，所以故SFS呢，也可以将T20的这些缓缓存配置成呃内存，然后在内存里面去做到一个全缓存的一个方方式，同时呢，也支持高可用，就是它的呃数据管理节点或者叫master节点呢，啊，也可以进行基于这个架构的，或者说ZK的架构，它能配置起来高可用，那么可以大大增强这个缓存的。可用性啊，能够利用不同的存储介质为数据做一个呃，就是高本地性的这么一个缓存加速的一个功能，同时呢，我们现在支持也支持就是呃，按照table级别去管理这样的缓存，后面会详细去介介绍。
17:16
那么这边也可以看到，我们后期呢，也正在抓紧研研发，就是针对这些不同的数据的这个劣势存储结构，包括啊iceg这样的一些不同的数据存储格式呢，去进行一个缓存的支持。对，然后像这样的一个数据。加速器呢，我们是会直接为客户部署在这个AV端去进行一个这个也是多租户的一个缓存加加速的功能，数据呢会优先开始到这个A，当然这个开始呢是经过这个。加速会在不同区里面能够拉到这个数数据加速器里面，然后最后一段呢，是在cos对象存储内部呢，会用同的形形式呈现出来原数据加速器的这么一个功能，那么也是啊，提到就说比如说对于rena的操作，那么传统的对象存储呢，它是需要啊先copy一次这个对象，然后再把原对象给delete一次，所以是多一次写一次删删除，那么在呃，文件的这种实现里面呢，其实是不需要去进行这个多余的copy和delete的。
18:26
然后针对类似操作呢，如果用对象存存储比较深的一些，这个同学呢，可能会知道，就是这个类似操作其实本身是很容易遭受到这个控或者流控的影影响，因为像这个的时候，可能表很大的时候，它的list file就会非常大，就是比如说list杠杠这样的操作呢，就会啊遭受到一些控，这样会拖慢整个还有任务的这个呃，Stage的实验，所以呢，呃，如果使用起来这个文件或者云数据加速这个功能呢，我们这个list操作也是没有凭控的，所以会大大增加这个list的整体的LP。
19:02
然后呃，每个文件呢，我们要提供10万的QPS的读写能能力，所以这个对于一些比如说啊列列，因为劣式存存储啊，像pro这样的OC这样的劣式存储，它有很多的随机读读写，那么这个时候呢，这种文件呢，就能提供比较好的一个LPS。然后嗯，我们接下来一个个介绍这种啊，每一端的加加速器啊，它的一些啊具体的架构，那么在CS这一。整体来说它是一个分布式的缓存的架构，那么它的啊，我们实现了很多不同的功能啊，这边也做了一些介绍，比如说啊，我们是针对于这个RAMSSD或者HD都能够架设起来这个这个数数据缓存的这个分布式的集群，那么呃，本身呢，我们这个数据也是可以支持写在内存里，或者写在啊基于rock DB落落落在盘盘上啊，然后这个。
20:03
呃，我们功能上面支持了这个按照high table级别进行预热，包括table partition的这个每个环环节，那么这个呢，其实用处也是比较大的，比如说像啊举个例子，在我们企业里面啊，厂商会有，就是我们需要按照每天更新一下这个大的table，那这个table本身呢是非常大的，然后可能积攒了，可能按照年尾单位来积，积攒一个大大，那其实呢，有一些这种，呃，SKY这个任务啊，或者异步任务啊，它是比如说我需要去访问我最近一周的。这个表更新，那么这个时候呢，呃，一般来说table呢，就会按照这个日日期来做partition，然后我们就可以按照这个partition ID去进行按照日期来缓存预热最近一周的这个表里面的更新，然后这样的话呢，一些实时的任务啊，就是可以直接访问到这个计算端的缓缓缓存，那么就不用去跨网络访问啊，或者减少对于底层存储的一个访问一个呃，就是增强数据稳定性，然后让访问的验变小，这样的话呢，你的整个任务啊，或者Spark任务啊，它的算力呢，其实也会有节节省，因为整体的。
21:15
呃，作业的时间会降低，那么算力其实在这个程度上也会有一定程度的，呃，节节约或者能够更好的并行化的处理这些任任务。对，所以这是啊，按照table级别去，比如说其实这个功能呢，在很多啊，可能开源的一些分布式缓存的里面是不包含，所以算是库C一个特色的一个性能，然后目前呢，我们也在呃在做这个关于啊I iber table级别的一个缓存加加速，同时呢，我们也正呃常规支持这个按照prece级别的缓缓存，我们其实也做了这个name spacece的一个功能哈，就是每一个name space呢，其实可以单独挂载一个呃prex或者一个呃cost bucket，同时呢，我们在后台这个整个方案，其实它是可以挂载到像啊cos这样的S3标准协议，包括腾讯云上还有一款产品叫是一个云，就是server端的HS的实实现，那么我们也是可以挂载到这个。
22:20
啊，存被后后台存储上面的，然后甚至包括一些啊，像这样的一些企业化就是私有化的一些方案，所以呢，我们的这个prex加加速呢，甚至是可以跨不同存储方案的，就比如说我们部署起来的故FS，这是一个数据端缓存之后啊在整个呃，就是这个计算集群上面，其实你是可以提前去预热，就是无论是在cos上面还是S上面，还是啊这个啊，就包括腾讯云，其实还有一款产品叫做CP，那么它是一个基于的一个企业存储的这么一个私有化产产品么？像这些存储后后台都是可以利用这个统一做调调度，只要设置不同的name就可以了。
23:04
就所以在一个缓存的呃，集群里面，你是可以享享受到预热多个不同存储方案的这种数据的。啊，那么这个功能呢，也是很多开源的这种啊，缓存呢所不包含的，那么啊同时呢，我们这个namepa管理呢，也是可以进行灰灰度的，比如说有一些的prex啊，这个举个例子，大家这个可能呃在对于八一进行了一个整体的缓缓存，但是呢，很多这个八一里面的一些子目录啊，其实不想要全部缓存在里面，或者说这个缓存的啊，容量不够可能不在里面进进行做缓存，那么我们是可以支持配置说针对这个大包底下仅有几个prex去做缓缓存，那么其他呢，依然按照啊传统cost访问方方式去去访问，对。啊，所以呢，这种就是我们也支持不同各种各样的这个，呃，Cash的policy能够支持数据，就是异异步形式或者同步型形式，从cos的写入和读读取啊，同时我们也是支持这种纯缓存的模模模式，那么通常会建议客户创建一个namespace来进行全缓存的模式，来储存一些这个临临时文件，比如说像hi帮map producedu这样的一些呃应用里面，它会有大量的临时文件产产产生，其实也是可以写入纯缓存的这个。
24:25
里里面的。然后这是一些我们F的这个部署形式的一些介绍啊，比如说我们在或者做一些调度工具的过程中呢，我们是可以。将这个master管控节点和resource manager部署在一起，然后每一个Spark和这个client这个了file这据可存worker点的本地，那么这个时候就会有很多短路读的发发生就Spark的就当然举的是Spark的例子啊，其实还有其他的一些worker。
25:11
呃，它可以直接往故FS的work节点去拉拉数据，这样也会省掉很多，就是即使在计算节点内部的一些跨网络的。对，这个是啊，在em上比较典型的一个部署案例啊。然后在t ke或者叫KS，就是t ke的话是腾讯云K8S呢，我们其实现在是利用fluid这个开源的插件进行了一些弹性化的部署和扩，那么基本上呢，也是针对每一个计算的pod呢，会挂在一个本地的数据。呃，就是的，然后呃提供一个短路的一个访访问，然后这个本身这个呃，Master也会调在这个t ke的这个呃，管控节节点内内部，然后会去进行一些高可用的一些配配置。
26:10
然后这个呃就是on with ten ten的一个架构里面呢，每一个tener可能是利用这个呃有有些会利用容器化的方式能够拉拉起来，那么呢，我们是可以支持语义将这个这个工工具挂载到这个每个的上面或者节节点上面，这个呢，呃，这个本身呢，可以利用这个GPU的节节点上面剩余的一些内存空空间来组成一个分布式的内存缓缓存加速整个呃训练的一个数据读写的过过程，那么这样呢，能够非常高效的利用起来这个GPU的这种算算力，因为GPU算力也比较宝贵，那么这样的一些内存化的缓存呢，对于客户来说这个是非。
27:00
非常容就是客户需求量是比较大的，因为可能数据量本身很大的情况下，那么针对每一个不同的作业呢，还是非常需要一个分布式的缓缓存来提升GPU的使用率。啊，然后这样接下来我们重点介绍一些的一些啊比较重要的一些特性啊，像我们刚才提到了就是关于这个的应用，呃，那我们呢，也是提供了自己特色的一个的一个功能支持，那么就像刚才提到的整个呃，腾讯cos呢，提供了呃还是提供了几种不同的这个呃多系统的应用，那么比如说像那么是对标S的这么一个基于对象存储的呃文件就是ible file的一个实实现，那么同时呢，腾讯上也有一款叫产品。像OS码呢，就是所特有的，那么这里图上面所表示的一些含义呢，就是当你创建了两个或者多个name的时候，你是可以挂载到不同底下的不同文件路径的，同时呢，这些像B，呃，像n s b s be挂载不里所其在操不。
28:23
底层文件系统的实实现，同时呢，也是基于每一个啊存储的文件，文件系统呢，它都是可以根据不同的文件路径啊，Bucket的应用啊去分配到不同的name里里面的，那么这个每个name呢，我们都可以单独配置这个读写的策略，甚至每个也可以配置这个灰度上上线的策略和啊的策策略。所以这些功能呢，其实都是包含在name后面，那这些也是一些特色的功能啊，在我们这个团队的这个设计上面呢，我们觉得这个功能呢，还是比较常用的，也是比较符合客户的一些啊使用习习惯。
29:04
对，然后还有就是一些这个读写的呃，Policy，那么这里可以看到说就是这里分为读写呢，分为几几种，那么当我们选择这开数啊，就是这个强一致的，这个需要在缓存和底的这个文件系统时实现啊，无论是S还是还是S都要去呃两边都要写成功才能返回成功的这种强一致的模式底下包括读也是那么会去标先对对比缓缓存和这个底层存储的这个情情况，那么这种情况下呢，还是数据保持高一值，也是高可靠的，那么这个里面呢，当然读的性能是还我们评估下来是还不错，但是写的性能呢，会相对较较弱一点，然后第二种呢，就是。选择开和cash的这种形形式，那么数据呢依然是保持高可靠的，但是不能保证强一致性，因为有可能在底层存储的这个包里面会有一些更新，但是这个开始呢，我们是一步做更新的，就是呃阶段性做更新的，那么有可能不会读到最新的update，但如果你的数据是读写都走S码的话呢，就不会出现这样的问题哈，然后当然这里呃比较好好理解就是数，就是如果选择AAA think的写模式的，那么数据是可强一致的，但是是不能保证告诉他的，因为有可能写的东东东西呢，不一定马上会被读到。
30:26
对，然后这里呢，也是不同的组合，那么最后一种呢，就是Mo cash和cash的模模式，这个是纯粹用缓缓存的，那么我们一般来说推荐用户去用这个临时目录，但这个临时门呃效率都会比较高。然后这里还有一个重点特性，就是我们的这个table级别的管管理，那么good surface呢，所谓的呃，这个table管理呢，也是基于这个store和store这样的一些，呃，My database。去感知到这个have table和file，呃之间的一些关联关系，那么我们呢，就可以利用这个呃，Table级别或者table级级别的这个。
31:08
呃，力力度将这个table partition级别的这些数据啊，或者file提前缓存到这个缓存集群里面，像刚才说的，比如说你按照这个日期来做一些周期性任务的时候呢，这个是可以啊，大大加速这个这个缓缓缓存利用率啊，包括数数据本地，同时呢，我们也是正在去做，就是按照整个呃。的那个airflo这个应用去读取或者一些用户的历史信息，然后针对这些历史信息做一些，那么可以啊，针对性的对这种周期性任务呢，做一个智能的这个患患者。嗯。对，然后呃，这里呢，我们还要新的这个提到一个功能哈，就是我们GU的一个特色功能，就是透明加速的这个功功能，那么为什么叫透明加速呢？因为比如说像我们现在会本身是会有一个新的STEM出现，就是G点杠对吧？那么呃，之前那些老的业务呢，可能无论是你用cos的文件系统，就是cosn点杠杠或者C的文件系统，就是O点杠，这样的业务呢，我们现在是可以支持说呃，增加一个配置，可以将这些这些文件路径也能享受到缓存的加加速，就是在你业务不需要改修改这个这S的前提之下，也能进入到的缓存里面，就是保留原来的点或者O点的文件径，进行缓存的一些管管理，那么包括这样的管理呢，我们也是支持到，就是当如果缓存集群出现一些故故障，我们也是可以支持支。
32:48
呃，直接自动化的到底层的存储架架构里面，就是继续访问cos或者office，这样的话呢，会啊，将这个数据可能性进一步的提提高，不会让这个缓存的一些故障，或者计算机群的一些故障，让这个数据变得不可用。
33:07
啊，这个是我们之前做过的一些这个TPS的这个，呃，常用的这个大表的一些查询哈，啊这边可以看到呢，就是当我们利用这个腾讯云上最经典的这个sat two加上增强型云盘的这个组合的时候，因为sat two在腾讯云上支持AMD的这种处处理器，那么呃，现在目前来看呢，是啊成本啊，包括性能各方面比较优化的，那么A这样的机型呢，是默认是搭配这种增强型云盘的方案，那我我们可以看到说这种方案呢，SFS是匹配的比较好的，那么可以比本地的这种本地盘要提升大概30%的一些查查询的信性能，同时也是比原生cos提供的这个无论CH还是Co cos啊有进一步的提提升，像对比起纯用这个chd呢，我们有百分之四四十几，那么针对传统的Co cos呢，有百分之五五十的一个性能提提升，但这个是，呃，这个是前几个月我们做过的一次。
34:08
能摸摸性能摸底哈，我们现在马上要推出的1.1版本的这个性能数据就会变得更强。然后这个呢，是我们基于S所规划的一个整个腾讯云的这种P分析数据处理的这种这种功功能，我们是希望整个在这个无论是stream命写入的时候，或者是这个呃，Batch啊，就Spark这种op任务的时候，P6统一的时候，都可以使用到这个分布式缓存的一个架构，是真正实现基于数据的一个P6一体的实实现。然后这个呢，是我们也规划的，就是刚才也介绍了这个。呃，AV级别加速器的这么一个，就是全球全球化的这么一个全全硬件。加速服务，那么这个应用呢，我们现在正在呃紧急的开开发过程中，那么目目前呢，应该是接近在Q4的时候会上上线cos的官网，然后呃，这个是我们本身对于这个加速域名的一些设设计，那么也是直接在加速域域名的这个领域里面，直接做到这个数据直接进入这个加速器的环境里面，其实跟现在这个cos加速的这个设计会比较相像。
35:24
然后这里呢，我们提到了这个原数据加速的一个一个大概的设设想，就刚才我们提到就是说会有一个文件，像这样的一个基于store实现的一个文件统的一个功功能，也会有这个对象桶的一个，呃，一个底层的实实现，那么我们的目的呢，也是也是通过这种store的这种额外的实实现呢，去给到客户更好的一个rename或者类list这样的。呃，数据操作的一个一个性能，对后后后面呈现给大家的话，会以这个文件的形式呈呈现，那么只需要在内做，就只需要建立不同的桶，就可以享受到这个数据加速的一个呃极化性能的一个服务。
36:09
啊，那么这里呢，我们这张图就强调一点，就是说针对不同的场景之下哈，像针对这样的通用场景，增强场景，极速场景啊，原生的一些一些这个使用场场景，包括混合云的场景呢，我们是希望啊大家针对这个不同，比如说故底底下，针对不同的数据和原数据加速呢，会有不同的组合，那么针对不同的这个使用场景呢，我们会给到呃比较相应比较呃，无论是成本还是性能上都会比较有优势的这个整整体化的方案。对，然后后面呢，我们也分享一下，就是我们目前的一些集群监控的一些一些呃，支持，然后像这个就是比较典型的普罗米修修斯加的一些集群监控的一些页面啊，可以呈现给大家看，对，然后像这样的一些页面里面也包含了像这种local u，就是从这个本地缓存去读入多少数据，然后或者说从这个U的话，就是它的那个底下的存储空空间，它去读多少，然后这里也是啊可用的这个work数。
37:21
对，像这些这个呃，File啊，或者total pass啊这样的一些水水位，然后后面的话，我们还在即将要上线的，就是关于缓存的这个命中率，我们也会体现在这个这个官方的监控里面。然后包括容量告告警，就是整个集群化的容量告告警，或者说在客户使用这个预热过程中，有可能会有一些提提醒，我们会有一些提醒服务，就是啊这个这个文件某一个文件路径的话，是不是目前缓存的容量会比较够，或者说它有可能会啊超过目前缓存的一些容容量，我们会有各式各样的工具和啊整体监控会上上线给给到使用者。
38:05
对，然后呃故呢，其实常常被拿来跟这个开源的做一些比比较哈，然后我们这边也列了一些这个呃，相对来来来说，我们能看到的一些比较比较差异化的一些功功能吧，就是首先公针对社区的楼层呢，我们是支持这个好多建range健全的，然后呢，我们也是可以直接去对接，像腾讯云cos啊，CSS啊，CS啊，这就是私有化的一个存存储，我们提供了这种特殊的优化，可以给到更高的没有控也没有流的这种呃数据的访问和数据端的读写带宽。然后这这里呢，我们针对这个这个后台的一些job service啊，或者就一些稳定性啊，我们也做了很多的这个深深度的优化和修复的一些工作，然后同时呢，我们也支持腾讯云上的云监控，包括CS，包括ES普罗米修修斯等这样的服务。
39:09
重时的，我们在缓存策略上面哈，有这个刚才介绍了比较多的这个table和table性级别的预预预预热，然后一些原子性的开，那么所谓原子性开就是在啊这个整个文件径预载的预加热的过程中，只有当整个径全部预加热完这个呃，这开之中的这个文件路径才会暴露给用户看，这样子可以避免用户读到过程中未加载完全的这个文件路径，这个其实在容器化的场景里面是相当重要的一件事情，就是避免脏脏数据影响整个。啊，就是大的一些这个像像这个搜索框框框搜索框架或者推荐框架的一些任务，对，然后还有就是的一些一些管理，这个其实也是社区版的，不必不包括的，同时呢，针对这种我们对接多个存存储平台呢，其实我们每个平台都做了这个透明加速的这个功功能，包括我们也自己有这个私有化的部署工工具，能够为客户提供一键化的部署能能力，像这些呢，呃，社区版的西都是不包含的。
40:15
对，然后这个是我们针对于这个整个腾讯云上怎么构建数据呢，有一个自己的想想法啊，因为我们这边提到说就有很多像em d LC，就是像呃对标的是AWS的呢，这样的一些这个实时查查询的一些方案，我们是希望能够在这个缓存架构里面去实现，针对不同的存储格格式，然后不同的这个存储的这或者说计计算的这个计算搜索引擎去对对接，那么目前的这个故他已经能够支持像Spark，然后map map map Spark，然后test这样的一些，呃常用的一些大数据的呃搜就是这个查询框架，其实都是能够直接对接。
41:05
对，然后这个是整体的一个我们的一个构构想哈，本本次的话呢，我们也带到给各位，就是整个腾讯云对于这个湖仓一体方案的一些一些架构的一些想想法，那么数据接入呢，我会直接接入到这个对象存储里面，然后在这个EL的部分呢，我们会选用这个，呃。无论是O还是Spark还是D的话，也是一个像就A的一个一个构构建ocean呢，就是基于franknk包装的一个流计算的一个平台，像这样的ETL的导换呢，我们都是希望直接能够写入到这个呃，基于对象存储实现的这个house里里面的，那么实时查询的时候呢，我们就会用故SS去支持这种不同缓缓存的，呃，就是不同呃数数据这个路径啊，或者table级别的缓缓存去给到不同的这个呃数据弧的这个查询的服务，像have啊啊，包括DF的整个data，呃，就整个数据开放这样的服务都会希望是基于这个缓存方案上，然后同时呢，也接入这个，像我们支持容器化部部署之后，也是希望打打入像机器学习啊，然后像这种基因测测算啊，这像像一些大的数据量平台里面能够把数据。
42:27
整个整合到这个腾讯对象存储之上啊，所以这是一个大概的这个湖仓一体整个解决方案的参考的一个框框架。对，然后呃，这里我快一点说，就是会有一些这个我们常见的一些客户案案例啊，那么这个呢，是比较长比比较经典的一个，呃，湖仓一体的这么一个方案，那么在啊整个容器化部署的平台里面呢，会调取这个Li的应用去进行这个流计算的一个写写入，那么产生的一些结果数数据呢，同时也要在整个这个K8S的环境底下去拉起test，做一些深度的学学习，那么这个时候呢，故事S呢，就可以整体部署在这个KS的这个框架里面，然后在缓存里面就解决这个数据流流动的一些问题，同时呢，整个大量的数据呢，还是会，无论是冷热分层也好，或者这个呃，这个整体数据呢也好，也会都会直接写入对象存存储里面。
43:29
对，然后这个是呃，也是后后续的一个这个呃，云上云下部署的这么一套架架构，因为呢，它不只支持云上对象存存储啊，或者文件这样的一些不同的云上的存存存储方案，同时呢，也是支持像tto或者CSP这样的云下的一体机，那么这个时候呢，我们是利用这个SS内内部的一些机机制去做到云云上云下的一个呃缓缓存的统一的接口，那么针对线上的这种模型训练，或者线下的这种数据清清洗呢，都可以做到统一的应用。
44:05
然后呃，这一页呢，主要是给大家带来这个腾讯云，呃靠，就是这个不同的腾讯云关于故的一些资源的应用啊，这里有不同的链链接，然后大家也可以上腾讯的去看一下这样的一些产品的架构，这里面还是包含了很多我们的一些的一些相关的应用，像快快快速入门，可以给大家演示一下怎么去下载到SS包。然后还有一些最佳实践的一些案案例，同时呢，还会有一些不同，这个大家可以看到，这边会有不同的这个自建集群啊，Em t ke啊，然后容容器的一些呃部部署的方法，这里还有一些运维的指南，然后这里我们还会有很多核心特性的介介绍，但这个文档呢，我们也在呃这个补补齐的过程中，后续还有更多的新功能会带到给大大家。
45:00
对，然后同时呢，也不要忘记，就是我们这个云家社社区也有专门的腾讯云存储的这个资源，也希望大家能够呃上到这个云家社区上面，然后为腾讯云存储的这个整个资料。页面里面去多关注，然后能够看到腾讯云存储整整体规划新上线的一些功能和一些产产品。接下来那个请主持人帮我们介绍一下，呃，我们这次延期学堂的一个直播的计划。好的好的，那非常感谢陈丽陈丽老师的精彩分享，然后他今天讲的是我们燕栖学堂胡丛楚专题直播的第一期，然后我们这个讲座的话，一共是有九期，然嗯，我们之后的话，大概是每隔一周或者是每隔两周都会有一次这样的直播活动，然后在直播之前呢，我们会做一个相应的推广，然后接下来的就是会有接下来讲座会有那个人员生实践，然后库SFS的预热缓存加速，大数据查询云原生实践的那个在t ke上使用那个库SFS，还有在emr上配置库SFS的透明加速，以及呃，就是库SFS的数据安全事件跟它的监控事件，还有就是它的呃，构建冷热分分层的数据，以及那个就是数据全托管数。
46:32
迁移服务这一些，然后接下来呢，呃，这边的话由陈琳老师帮我们解答一下。直播间就是由。有好多同学问出问题，然后这边的话由陈琳老师选择做一下回答。哦，好的，因为大家问题也比较踊跃啊，我就挑几个，我看到一些问题回答一下。大家啊，有同学问到就是说可以免费体验吗？要多少数据量才能使用数数据，其实这个是没有，呃，一定限限制到我们这也也在协调整个腾讯的资源，做一个抓紧上线的过程中，那么后续呢，这位同学可以关注一下，就是我们包括我们刚才提到的这个的产品页面可以下载到包，然后也可以利用一些呃工具，能够把这个包部署到，无论是你自己有这个计算资源，或者你在腾讯上申申请页，或者申请t ke，后续都是可以直接在产品页面直接去调用这个缓存的功能，然后使用的一些详细的步骤呢，刚才给大家看到的一个产品页面上面其实都都有，然后只需要根据这些，就只需要根据这个步骤。
47:43
一步一步来往下做就可以啊，使用起来这个故S的，然后至于说数据量多少才是数据，这个也是没有强一定的限限制的啊，就只要有数据呢，都是可以往湖里面放的，我们这个数据的真正底座呢，也是在这个腾讯云cos对象存储上面，所以啊，只需要付出很小的一些这个存储成本的代价呢，就可以享受到整整体的这个数据的服务了。那么最好的一点呢，就是目前我们这个呢，还在这个产品试用期和推广期，所以呢，整个产品是不收费的啊，只需要利用一很小一部分的这个存储资源和这个计算单的资源呢，或者云盘的资源，你就可以享受到这个S的体验了。
48:24
第二个问题，我想回答一下这个。啊，有同学问哈，就说这个。呃，数据存储适用哪些应用场场景啊，刚才的直播的那个呃分享页面里面呢，也提到了哈，就是我们其实有一些比如说像线上线下的一些呃存储的一些应用，比如说有些客户他可能呃这个既用了这个云对象存，就是云对象存储这种公有云的服务，用了这个私有化的服务，那么我们这个创业体的架构呢，是可以支持云上云下的，那么这个是种典型的使用场景，那么第二种使用场景就是它其实在计算，计算端呢，它是应用不同的应用的，比如说他刚才我们看到的一个案例里面，它有就是说在整个容容器的，呃整这个部署底下呢，它利用link去生产数据，同时利用这个test去学习这个数数据。
49:21
在这个过程中呢，数据本身就是数据，内容本身都是基于对象存储去的，那么这个加速器呢，也是能帮助。整个计算成本里面，它能够更快的拿到这个数据，同时读写呢，都会有一定的优优势，这样的话呢，这个计算成本也会降降低，所以这个存储的这个使用场景还是比较宽宽泛的，现在我们目前所看到的很多使用场景还是基于这个大数据AI和训练，然后后面那么我们也会去拓广拓宽，像这个汽车行，汽车行业，然后呃，基因测测序，像渲染这个场景里面，其实我们都会有很多的客户案例去做，然后其实我们现在都是啊，正在跟这些客户对接的过过程中哈。
50:08
然后呃，最后一个问题我想回答一下哈，就是这个有同学问到说这和阿里云的有什么区区别啊，其实这两款产品呢，在定位上面都是有一定对对标的，那么熟悉金诺的同学呢，也知道，就说金诺其实它有那个cash cash mode，还有block mode这两两个不同的模式，对吧？那我们这个故呢，就是本身如果是故加的这个模模，模式呢，就是一个cash。模式，那么如果S加上这个文件就是一个block mode的一个一个模式哈，就是针对不同的这个按照对标的角度上来相地大数是大家目呃使用，那么现在腾讯在的过程呢，其实也是没有收大家任何费用的，所以大家可以去使用一下看看。
51:21
呃，缓存这个哪个缓存加加速器更好用一点，或者功能上面有什么大的区区别，也希望大家给我们提供更多的建议和意意和意见吧，然后让我们把这个产品做的更更好。好，我想今天这个时间有限，我就先回答这三个问题吧，把时间交给主主持人。主持人，还在吗？好的好的，那感谢陈毅老师的解答，那今天的直播的话就呃，那个那个刚刚不是我在直播间有发，就是抽中问题的同学可以凭借那个问题截图，在那个腾讯云存储公众号上回复您的收货地址和问题截图，我们将会在一周之内将礼品送到您的手中，然后就是刚刚解答几个问题，都可以以这种方式跟我们联系。
52:26
好的，那我们今天的直播就到此结束了。好，谢谢各位，嗯，好，谢谢大家，再见。

展开

我来说两句

0 条评论

登录后参与评论

作者

sunnyzhai

雁栖学堂--湖存储直播第一期原创

我来说两句

作者

相关推荐

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐