00:00
直播间的小伙伴大家晚上好,欢迎来到云家社区直播间,不知不觉我们燕西学堂胡从楚专题直播已经走到了第四期,本期我们邀请到的是腾讯云专家工程师严俊明老师,今天分享的主题是通过对传统大数据分析的优劣势进行深入分析,探讨云时代大数据分析发展阶段及趋势,以及云原生环境下腾讯云存储如何应对大数据分析所面临的原数据性能挑战。然后在直播开始前呢,我先跟大家简单说一下我们的抽奖机制,然后在报名环节的话,我们是有抽奖激励的,然后这个奖品是一共有20分,直播过程中也有,如果在直播中您有什么问题的话,您可以将您的问题打在评论区,直播结束,我们会随机抽取三个问题做相应解答,如果您的问题被有幸抽中的话,将有机会获得金。
01:00
费礼品一份,那接下来呢,我们把时间交给明老师,由他来做今天的分享。OK,大家好。呃,我叫严俊明,然后今天我给大家带来就是故事数据,原数据加速的一个能力解析。呃,相信之前看过前面几期学堂的一些课程的话,就知道故事之前介绍过故事F。整个一个系统的一个介绍,其中也提到过原数据这一块的一个加速能力,所以今天我就主要针对数据加速这一块的一个能力呢,给大家做一个深入的一个探讨。那我呢,是在一一年就从中科院所毕业,然后同年加入腾讯,就一直在从事分布式计算和存储领域的一些相关工作,前后也参与了很多一些腾讯的大型分布式系统,那目前主要在腾讯云负责大数据存储。
02:03
以及数据的存储。一些设计和研发工作。所以今天我的演讲呢,主要分为这几个内容,就是第一个先跟大家一起去探讨一下,就大大家目前在云原生的一个环境下面,我们大数据分析的一个架构如何做了一个就从传统的大数据到目前原环境下如何去构建我们的大数据一个分析架构。第二就是在原生环境下面,我们大数据分析所面临的一个能挑战有哪些?其次呢,就是我们就重点去给大家介绍一下我们在应对。数据加速这一块做了一个技术。最后是给大家做一些简单的介绍。就是我们目前。在语音环境下,然后去。在大数据分析里面主要运动的一些场景。以及我们后面做了云数据加速呢,整个一个它怎么一个使用的方式。
03:05
给大家做一个介绍。OK,行。所以第一节我们先给大家一起,呃,想跟大家一起探讨一下,就是在云环境下面,我们怎么去构建我们一个大数据分析的一个架构。以及未来整个大数据分析架构如何做一个。进化或者眼睛。或者大家的需求是什么?呃,在开始之前呢,我们想跟大家一起去回顾一下,就是在传统的大数据分析架构的一个整体的一个结构。现在很这张图大家都很不不陌生啊,就是一张好的一个架构图,重点的是H这一块。那在很十几年前,Google发表三篇论文,就是还有HGS,还有big table,所以从此呢,大数据分析呢,也越来越热。那呢,作为那个三驾马车的一个开源实现也非常成功,在国内外也得到了很多应用,它的生态呢非常丰富。
04:10
基本上很多公司里面的大数据分析的架构都基本上是基于哈这一套开源的。分析架构去进行的,那这个架构它有哪些优势呢?就是。从开始讲的就是它具备一定的,它生态很丰富。它所基本上很多公司用。大家对它也很熟悉,它的迭代版本很多。所以你遇到问题呢,很快能得到解决,最重要是它这套架构在诞生于比如说十几年前,十几年前因为当时的一个机房的一个网络限制,因为当时的机器呢,图片可能。网卡带宽可能也就百兆是不要普遍的机房里面。但是磁盘带宽呢,是比较高了,相对于网网卡来说,它可能也到,比如说100兆大B,就是800兆小B,那网卡呢,可能就100兆小。
05:08
这个差距是比较大的。调度,它计算调度可能根据数据的一个。分布,比如说在每个机器的位置,机架的位置,或者机房的位置。做一个调度,它的总总体原则呢,就是我的计算是跟着存储走,尽可能是数据呢从本地去读,这样可以达到很高的一个本性的一个性能。那这个这个架构呢,是随着我们现在目前技术来越发发展越来越迅速。那是否在现在就是云环境下面。是否适用了?其实也未必了。比如说现在大家很明显感觉到就是我们的网络带宽,就是我们机器上的网络网卡。
06:06
现在基本上很多就到25G就很普遍了,比如40G,我们腾讯云的里面可能有40G的,200100G的网卡。就相比于磁盘的一个发展呢,网卡发展是更加迅猛。就现在磁盘的可能一个本地的ad盘,它的磁盘的一个。可能跟十年前没有太大的区别,可能还是几百兆这张子,但是我们网卡到100G了。所以磁盘的一个带来的所带来的一个性能提升呢,已经。不,效果已经很不明显了。相反的。这套架构如果用在现在的一个网络。机房或者网络架构里面呢,它的往往会成为了一个计算的瓶颈。因为它磁盘。的带宽小,大量的网络,网络资源会被闲置掉,所以整体的一个业务,比如计算,可能要等待数据,等待我的数据底以后呢才能计算,整体的业务效率很低。
07:10
其次呢,就是我们都知道里面有一个痛,就是单点。它的所有的文件的lo文件的一个属性,还有它的分。的数据全是存在内存里面。它的单点呢,会限制它只能是向上扩容。就是纵向扩容,但你知道每个机器它的内存可能是有限,没法就是做到无限。所以当一般的。就页内一般用到H的话,文件到达五个或者四个的时候,其实基本上运维就很困难,而且你内部做一个切换,整个时间是不可控的,可能要比如几个小时做一次切换。所以使得它整个架构的一个运维成本会非常高。
08:01
业务的压力也会比较大。其次呢,在环境下面,环境的一个最的一个特点呢,就是。那存算一体这种架构呢?很难去用到云环境下面一个弹性能力,比如说他现在计算和存储是耦合的,你要计算去扩资源的时候呢,你又把磁盘,把整个的存储的资源也扩上去。存储资源去扩容。把计算的资源扩上去,就会导致。计算和存储的资源浪费,你要为你多出的资源去买单。这对整个企业的一个。成本也是一个很大的挑战。所以说我们在云环境下面,其实算架构已经不能满足我们现在大数据分析的一个需求。其实我们也对接过很多些客户啊,然后之前跟很多客户去聊,他们在下面对大数据呢。
09:03
到底有哪些诉求?其实最左边这是我们梳理出来的一些很长。就大家提了很多的一些。基本要求,比如说用户可能说我这个存储,我不想存储太底了,那用户可能只关心计算。我只关心我的业务逻辑,要交给你全全托管出去,我不需要运维,我只要按需使用。自动扩容、缩容,我只按为我自己所用的使用量买单。那文件数呢,我可能内部因为业务的发展,它的现在数据爆炸的时代。数文件会越来越多,那文件数最起码要求一百亿十亿到100亿这样规模,这个肯定是满了。存储量呢,我可能也至少需要10PB100PB这样的一个量级上面。所以在用就会。
10:00
无法满足用户的需求。其次呢,就是我们现在用户的数据呢。就是种类会越来越多,比如说结构化的数据啊,非结构化的数据。等等。这些数据可能都要放在一起去做一个共享,然后充分去挖掘数据的一个价值。其次就是成本,我们要这个存储成本尽可能低。然后呢,要支持很多协议,比如说。HT还有对象存储S3这样协议,以及什么38NFS这样的协议。这些都是很通用的一些需求,就是这些,这个是就是目前这个时代下面用户对大数据存储的一个需求。那基于这些需求呢?其实目前。业界,或者说。呃,图片的一个解决方案呢,就是基于。对象存储来解决用户这些需求,因为对象存储有支持扩展,因为它这就是云云的一个能力,弹性扩容。
11:06
用户并不关心我的扩容、缩容这些运维的一些。成本。也是全托管。按需使用。因同时呢,这个次数也支持。的协议,比如CS协议。所以呢,基于对象存储呢,是目前业界一个。最有效的一个解决用户的需求的一个方案。所以下面接着我给大家介绍一下,就腾讯云基于对象存储做了一个数据的一个示意的一个架构。那么整个数据的架构呢?分为三层,最下面一层大家看到就是基于对象存储做了一个统一的存储底座,可以存很多很多类类型的数据。比如说杰森的数据格式化的。还有一些大数据,你们很常用的一些or这些数据。
12:04
那基于这个统一的存储,存储可以做数据一个共享。那数据存到你的存储里面,数据是需要访问的,所以最上面呢,会提供一个统一的一个计算。做一个数据分析,比如数据分析里面集成了有腾讯的,腾讯的一些。做a ho查询的DLC还有可能机器学习。还有。数据仓库啊,做报表这些一些一些数据分析的一个能力。那数据存在你的存储里面呢?其实最重要的还是要做一个数据的管理。有一个原数据的一个管理层,那这个基于我们腾讯云的一个数据的一个DDFDL。他做你做给你的数据呢,做一些分类。做一些组织。数据。
13:03
那这里为什么就是选择course?因为腾讯云的对象存储。那除了刚才提到几个能力以外,就是它高可用,高可靠,它提供12个九的一个高可靠的一个S保证。然后四个九一个五的一个可用性的保证。他E级别的一个扩展能力,现在其实腾讯云上的数据已经存到了E级别。然后一个高性能低成本。和生态因为兼容S3的完全兼容S3协议呢。所以它生态也很丰富。所以整个腾讯的数据的架构呢,就基于对存储来做的。可以给大家介绍一下整个腾讯云的对象存储的一个系统架构。整个存储呢,其实很常规的就分为三层,接入层、逻辑层和存储层。接入层呢,主要协议转换。
14:00
和。比如说用户的一些请求解析,然后把数据解析,然后下沉到一个逻辑层,相当于我们的索引层。我们的数据处理。新的转发数据的转发数据的一个搬迁,然后你数据的一个生命周期的一个管理。最底下两层就是我们一个最要一个存储层,存储层分为两部分,一部分是我们的索引层。一个超大规模,可能上上万台机器的一个索引机。另外一个就是超大规模的一个数据集群,咱们专数据,然后索引呢,专门索引,两者结合起来,对上层提供一个数据的。然后最上面就通过基于cos做了很多一些解决方案,比如大数据啊,图片处理,安防监控,这是整个一个腾讯的对象存储的一个存储。那对象存储刚才说基于大数据是通过Co去做的,那Co呢,怎么去映射到大数据生态里面去,然后提供HC一个,其实在这里面我们提供了一个叫一个文件系。
15:17
这个文件系统的作用是什么?作用就是。我们把HDFS的一个文件接口做一层转换,转换。API的一个结构。做一个映射。所以通过这一层接口呢,我们实现了HC个接口,然后可以让这一层无无缝的插入到的一个生态上应用,不用改任何代码就直接可以用。基于cos的一个大数据分析。然后其他的还提供一些权限啊,授权啊,临时要访问的一些机制。重点说的是这个开源这个实现啊,这个实现我们现在已经。
16:04
打入到杜普的一个社区,就是在的3.3.0的一个版本。上版本上面大家都可以找到,我们一个实现是完全开源的。所以通过这接口呢,我们就无缝的打通了大数据分析和我们的存储中间一个连接。所以跟大家之前呃。讲了那么多,其实我们总结我们我们认为啊,就大云在环境下面,大数据分析大概会经历这样四个过程,就第一个就存在一,就刚才我讲了都一套存一体的架构,那么这个可能是由于之前存在的时间很长,大家对他的认知程度很高,所以业用来很熟悉很。但是当你的业务发展到一定规模时候,比如数据增长很快,刚才说可能有一些瓶颈。
17:02
已经支撑不了你的业务发展。那么这个时候,而且由于我们的网卡和磁盘的一个发展不均衡,网络越来越发达。所以呢,就存在一个存在分离的一个架构出来,存在分离架构呢,就可以把存存储计算脱离开,你就算可以弹性扩容存储也可以弹性扩容。两者可以整个架构做一个清晰,那最上层可能还有一个就是用户可能要做数据一个共享。那把所有的数据都存在一个可以共享的一个数据存储里面,做数据的一个架构。整个三层,刚才讲数据库三层结构,统一的计算,统一的存储,一的数据管理。能够解决业务多样性的问题。可以。挖掘业务的。更多的一些价值,就数据的价值,最上就是提供云原生的一个能力,就是计算统一,那我可以用的一些。
18:01
弹性高效的一些弹性调度能力,比如说用docker。用K8S这样的一些技术。让我的计算更让我的计算效率更高。所以这。发展到最后呢,可能一定是基于云原生的一个大数据的一个分析的一个架构。来满足业务对。敏捷、高效、多样性。这样一个需求。OK,刚才讲那么多,就是我大家讲就是我们现在大数据分析基本上都是基于来做大数据分析的一个架构,那基于在云原生下面基于cos做存储来做大数据分析呢。他。是很好,刚才讲了很多很多好处。解决了用户一些很多痛点,当然真的就一定会一定是那么好吗?其实我们在构建这个架构的时候呢,其实也遇到了很多一些性能上的一些挑战。
19:03
我给大家去重点去讲一下为什么会有这些挑战,特别是数据这一块的挑战。其实熟悉文件系统的用户呢,可能都知道,就是文件系统,他在组织他的文件管理方式的时候呢,是有一颗就类似于树的树状的一个管理方式。比如说从最上面跟节点到下面的文件节点中的目录节点,它是一层树状的结构。那对象索引系统。不太一样。为什么不太一样?就是因为。两者需求不一样,对象存储的出,但是呢,就是为了支撑。比如说超过万亿级别这种文件的一个。那么它的索引是一种扁平化的一个组织方式。
20:01
所有的文件,你可以把当做类似一个KV系统,你可以把文件的路径呢当做一个K。那么它的属性呢,它的它的文件的一些。分信息,那些位置信息呢,作为个value存在的索引系统里面。它的缩系统是一个按序有序排列的一个KV系统。他把项目的一些一些。名字,比如说K的名字,按字排序的一些呢,存储。所以它是一种扁平化的一种存储结构。那相比文件系统呢,我们在做一些数据的操作,比如说下面就举例,比如把一个user目录,我把它到一个USER1的这样一个目录里面去。那在系统里面,它这种树状结构呢,天然就支持原子的操作,比如它一个名字,因为它整个树状结构是以。
21:06
就熟悉文件系统的人都知道,同学都知道,他是以它串联起来的,比如说我的PID是什么,我的是什么,它的名字呢,是跟。无关紧要的,那我直接可以把我的这个user对应的L的一个name换成USER1,这样一步操作就OK了。那在对象存储里面,因为我刚才讲它是一个扁平化的结构,它其实没有这样一种树状结构,那我要把user换成user,大家可以看我这个图上黄色部分。我需要把。包含前缀user前缀的这样一些K全部都出来,就把它全部列出来,然后把每一个K呢,它的名字换成杠USER1这样一个前缀。而且。它不仅仅是换名字,而且他要需要做一个数据拷贝,所以你每一次相当于是在下面在在前缀的所有的文件。
22:08
他都做一次copy copy这样前缀一个,然后再再目录。这样有什么有什么就大分析里面啊个见操作,常见操作。所以因为这个存储这样一个特性呢,就会导致。在大数据分析里面,它的性能会很差。相当于你每次呢,要做很多的文件一个。拷贝。并且呢。最重要的问题就是他无法做到原子性,比如我要改一个目录,我会把目录那文件系统里面可能轻松的去改一下,就是原子性的操作,那在里面,因为没有这样一个机制。还因为涉及了大量的文件的一个修改。
23:00
没法做到一个一致性。就是原。那中间可能存在很多中间状态。这个数据分析里面也是。也是会有一些问题。另外呢,就是存储它的一个索引。嗯。路径会相对文件系统它来说会比较长。所以它的整个延迟呢,会比较大,比如说像list list操作是吧,里面可能一个list通过。比如说像一个内存操就回去了,存储里面一存可能需要扫多次。盘的这个时间跟你的内存时间这个差距也很大,所以呢,整体我们总结出来就是。在原数据操作里面呢。第一个他没挑战,就是他没法支持原则性的操作。第二个就是它延迟会很高,像这种操作会很高,所以在这个存储里面,一般list就会。
24:03
对底层的一些压力会很大,所以一般会有一些的限制。那么历史的一些评估呢,会导致会加剧这个大数据分析的一个。一个一个实验。这个效率。另外提到一个就是带宽,因为我们把存算分离的存算一体架构变成存算分离的架构以后呢。它的数据基本上都是通过网络来交互的。并在磁盘的交互了。所以大量的数据通过网络。他对整个带宽的一个,比如说有时候。需求会很大,有时候可能会机房的一个,因为你的存储机器可能部署在多个机房里面,那可会存在很多大量的机房的一个网络。对整个的一个成本也是有很大压力。那今天我主要聚焦在就是上面提到原数据操作的一些优化,那刚才提到带宽这种这种。
25:04
压力呢,其实我们之前的同事也给大家讲过,就是我们会有其他的一些。一些解决方案,比如像之前讲它是一个缓存。另外还有一个叫az级别的一个加速器,加速器一个数据缓存。所以今天我给大家主要主要聚焦在讲那个数据加速器这一块的一个。优化。所以这个图大家应该也不陌生啊,就之前有同之前几位同事应该给大家。看过。就是整体我们一个。就整体腾讯云的存储,存储团队对大数据一个场景呢,做了一层三级加速,刚才也讲到就是我们有在计算的一个加速。然后有在。就像存储上面做一层数据加速的一个服务,来解决list这种问题。
26:01
然后另外一个就是我们可以把数据。机房的这样通过一个加速器。来解决一个跨机房带宽的问题。所以整体呢,我们在一些客户那里的一个性能表现呢,也是非常好的,基本上都会有二到十倍的一个性能提升。所以重点现在接下来给大家重点讲一下我们数据加速这一块是怎么做的,就是。来做一个能力解析吧。那原数据加速服务呢?其实它基本上是基于云原生的一种架构了。那么它是在可以理解它就是在对象存储的基础之上。构建了一整套完善的、高可用的。展性的一个数据,那么这数据就在存储一些件,那所的数据呢,先经过这个原数据服服务。
27:05
获取到你的文件的信息,然后再再拿到信息以后,再通过对象存储把数据。上来个大数据分析。那这个数据服务呢,重点就是解决前面提到的list这种问题。所以这个这套原原生的架构呢,为什么为什么说它是原生啊,就因为它所有用到的一些技术,基于上面的一些能力去做的,比如。数据加速,数据加速这一块主要怎么去数据,那么。也是基于我们腾讯的一个。就分布式的一个数据库。那么它可以做到一个无限的扩展。同时呢,它也提供很强的原子性的能力,事物的能力。那数据呢,存在我们对象存储上面,对,因为刚才我提到它是一个无容量的高可用,高性能的一个数据服务,你就可以把它,它就是个服务器。
28:06
面是数索引服务器客户户客户。他就做一些协议转换。然后通过这个整个一套服务架构呢,来解决我们在大数据分析里面的一个数据的问题。那可以看一下我们整个原数据组织的一个格式。我们是整个在讯云的存储之上架了一层数据服务器嘛,然后因为刚才就是我们需要做。原数据的一个高性能呢,其实我们还是需要把文件呢,按照之前传统的。类似于HD那种文件组织方式去组织。比如说我们也也是按照一个内部这样一个目录数,从根到叶子节点。
29:03
然后叶子节点呢,我们会把每个文件呢,拆成很多的一些文件块。每个文件框里面呢,在掺着很多一些配置就是。数据页。那这个数据呢,在对应的我们整个对象存储上面的一些文件。就拆这个配液的目的呢,就是。为了支持我们里面的一些。啊,追加啊,然后。随机写可能还有一些像语里面可能要支持一些随机的一些语,去支持一些A场景啊等等。我们知道对象存储它是是不是没有随机写这种一个概念。只有一次上传了就能,所以我们在这里面索引呢,也支持了一些像这种随机写。追加的一些语义。
30:00
Interface。就是接入层进到我们一个。数据的一个加速。原数加层,通过原数据的一些操作呢,就进到我们最边这样一层文件的一个数据管理的一个服务器。进行操作。然后数据呢,就进到左边这边这个数据的一个存储存储里面去。整体呈现这样一个状态,去对外提供服务。那刚才讲的就是数据,它我们数据其实存在底下一个分布式的一个数据库里面了。那数据库其实你要存下,比如用户可能几十亿,几百这样一个件规模,可能可能都存在内里面所能都它其实都是落盘的,存在一些SD盘上或者些S。
31:04
所以我们要做一些数据的加速,才能满足用户对数的一些性能要求。这个是我之前看过一些文章啊,就是一些业界的一些。统计就是在大数据分析里面,基本上95%的一些请求都是请求。比如说像我要查询一个文件的属性。我要获取文件的一些位置信息,去做一些请求数据。所以呢,其实这里我们有一个重点的一个优化,就是我们希望就是我们要。存在底层的数据库里面的数据信息一缓存。作缓存呢,存到我们。云数据服务器里面。而这一次缓存呢?因为我们所有请求都只会到缓存里面,从缓存里面读出来以后再给用户,所以这缓存一定是一个强性的缓存,就是它的状态跟底层的数据的,就数据库里面的数据是一模一样的。
32:11
那怎么样做到一个强制性的,就是我们基于我们有一种。呃,做法就是基于。日志的一个复制的方式就是每一组请求我们会日志到底层存储以后呢,再通过日志的回放,回放到内存里面,来保证整个系统的一个强强一致性。通过这套架构呢?通过这套架构,我们就可以保证,就是用户的所谓的请求基本上都可以通过内存直接返回客户。因为内存的。或者说一次,我们一次可能就会一次五千五千条可能就不到一秒就返回给客户了。
33:02
这样可以大大缩短比如说大数据分析里面这些操作的一些延迟,来提升整体的大数据分析的一个性能。另外讲一下,我们整个刚才讲数据操作一些一些加速,然后可能还有一些数据层面的加速。就数据呢,它比如用户的client端写到我们的系统时候,它不可能说写,比如写100K就落了100K,因为我们的存储呢,像它也是存在我们最普通的一个磁盘上面去了。如果你每次都要落款,那这个性能就完全没法接受了。所以在写的过程中呢,我们会先做一缓存,内存里面缓存积攒到,比如我们设一个。限制,比如64兆。我们就把内存的数据呢。拆成按照cos的。
34:01
拆成block,就刚才我刚才那个整个文件的一个组织方式,比如block按照四兆去拆,六四兆拆成16个六四兆,这四兆的就对应的文件,我们会把这16个四兆做并发去去写。尽可能让整个刷S时间更短。写完以后呢,我们再统一的去提交我们的数据息,比如文件的位置是写到哪个位置,文件的大小,这些信息呢,再刷到我们的,再提交到我们的数据服务器。这样你写完以后呢,整个文件对外是可见的。所以在整个的流程中,我们做了一些流水线,因为比如像S,它S它支持大宽,但是它延迟呢,相当文系统是有一劣势的,就写一次可能要几毫秒秒。那怎么去把这些几十毫秒的一些。损失呢,降低就是我们在数据操作,数据操作操作这个操作之。
35:04
的一些处理,尽可能的整个操作呢。流水流水线,这样可以就是规避一些。常委。然后尽可能的提高一些写数据的性能,读取这个,读取这里也是一样的,就读取这里我们会做一些。比如说我们要读一个文件,我们可能先从。先要读文件的数据,再读数据,那如果是的,比如你先读完一个数据,读一个block的位置,再把block下下来,这个相当一个创新操作,这样。效率会很低。比如你在过读一个数据操作是吧,那可能花了几十毫秒,然后再。啊,不是,你要读数可能几毫秒,你再从读个数,比如读可能也要个100毫秒左右。
36:00
那所的吞吐呢?就一边去读你的数据,一边去下载你的并发,去下载预读你的数据,就根据业务的一些点,比如这个业务可能是顺序图的,那我就把调大一点。一次性读十个块,20个块回来,那剩下的呢,就在你读第一个的时候呢,一起去下载,等到你读第一块读完了,你读其他的可能都从内存里面去直接返回给你。这样整个吞吐呢是很高的。可以。就可以可以屏蔽掉一些整个读实验的一些毛刺的一些影响。并且我们每个block级别呢,都有一些校验,就保证整个数据的一个可靠。
37:01
下面是展示一些我们的一个。性能指标就是我们针对。数据操作,比如像这种数据操作呢,我们做了一个对比,我们。本地的HS还有去做一个对比,那中间的黑色部分就是我们做数据加速以后呢,一个性能指标。云这边。那客户的访问呢,是在客户的机房,客户机房或者客户这个V里面。那中间必定会经过一层。网络网关的一个过程,那一般会就部署在客户的一个中间,是没有任何的一个。网络一个联通。可能会读本机,或者读个本机房内的一个服务器上的一个。比如像内部的,所以呢,它整个延迟呢,会有一定的一个增加。
38:05
但相比于来看,其实已经有大幅度的提升了。比如看最后一个,我们我们3000个照的文件用了九。应该是九秒,然后。我们的那个数据加速呢,用了14秒,然后呢,整体用了313秒。如大里面几下这个这个可以感受一下,如果要做完这个操作,可能cos要等313秒那。也是做了一是加速以后呢,那可能只有14秒就完全是了。
39:04
如果做过大数据分析的人应该也都清楚这个工具。所以我们跑了很多circle circle进行分析。整个图可以看到,就是我们大部分的一些。甚至有些情况下,我们的性能会比好。好的原因就是因为。对象存储,它可以提供了网络带宽是很高的。因为它是量的存储是那限,比如的里可能受限你。这个作业的数据在哪里?数据在某个磁盘,如果磁盘受到一些瓶颈。可能会拖你,拖慢你整个的一个运行的速度。
40:03
就整体上看,我们数据加速这一块。那可能那个图上你看不清楚啊,那个其实还有根白色的一个线,白色线是这一块对比。其实cos这块大家可以如果看的清楚的话,可以看到就是它有些差距还是挺大的。行,所以绍完之前我们数据加速一些能力以外,后面我可以给大家介绍一下,就是整个。我们现在做了这些东西呢,主的一些场景。其实主打场景之一呢,就是我们提到,就是我们当时分析的一个趋势就分离。能够让。通过一个中间的,比如说网络带宽是计算和存储独立出来结偶。那么计算和存储呢就可以。
41:02
独自去性展,然后计算可能用到一些原的一些能力,比如用到容器S调度。这种方案呢,有些收益就是它可以完全兼容啊,不用就是你之前用的一体的。那么。现在用的分离完全不用改任何东西。业务完全不用管。不用去修改,然后就是存储,你可以把存储完全交给腾讯云这边去管理,它是一个全托管的。没有没有,你的运维开销按需使用,你用多少就算多少多少钱。不会浪费。另外就是一个高效的原数据性的。保证业务呢性能不受影响,就相于传统的HS的性能。不会受影响,反而在模型上会更高。就利用我们腾讯云的一个。
42:00
海量存储的一个。吞吐能力。保证你的性能。是不低于HD。这个我们也做了一些大数据的一些案例啊,就是我们可能讲的国内某一个还比较大的音乐厂商。他就是通过他以前是自己自建机房。然后呢,所有的离线在线分析基本上都是自建的。也是用到,也是用,也是用自开源的一套。他目前也是完整的迁移到我们腾讯的一个解决方案上去。这是它整体一个架构。就他数据实时采集上来,然后通过福林格这样一个清洗。出去到,呃,我们的。以后呢,后面再通过离线分析,比如Spark做一些离线分析,成一些报表做报表。另外一个场景呢,就可能做一个数据的能热分层或者云备份。
43:04
比如可能有些客户他可能现在还不太接受在分离这种一个架构,或者他觉得。我线下跑了也挺好。但是呢,他就有一个痛点,就是我的数据存不下了。而且我每次的数据要扩容,因为它它没有这种的一个概念,它数据都存在里面,比如。你很难去区分,很难去降成本。那他我们也可以就通过我们这套。这个桥梁或者一个架构呢,我们可以使你的就线下的大数据的一些数据。做些备份,你可把这些数据呢备份到上来。可以把比如说保险等的,比如说像have有分区表里面一些比较老的分区。传到过来。而且呢?从那过程上来以后呢,你可以也可以通过基于云的。
44:03
一些大数据分析的一个能力呢,直接对的数据做一个分析。甚至你可以基于比如说像。我们之前说的一个能力,它可以统一个命名空间,你可以通过它去统一去分析数据,加上你本地的数据,一个整体的一个分析。那这个方案的一个好处就是。它可以降成本,Cos支持很多种类型的一个存储。比如说它支持标准存储归档,存储深度归档,根据你的存储的一个使用的屏热度。冷热程度自动去做一个。降了。能够降低你的成本,因为每档存储的它的成本是不一样的。所以用这个方案可以解决H。解决你扩容一个问题,就是你可能不再需要存储量不够再去扩容了,你扩容存储的话,带来你计的一个资源浪费。
45:12
利率的一个下降,甚至可以带来你的成本攀高。这个也是我们有个客户,就是某国内的,且国内的某一个游戏客户。他就用了这套架构。然后把一些。据或者数据到。嗯。节省它那个成本。就是数据。更低的一个存储,存储单价,存储成本。第三个就是我们刚才说我们存储呢,也支持很多的一个存储类型啊,就是像协议除了支持H呢,我们支持。
46:05
主要解决比如像一些学习啊,Flow这种可能没有。呃,他可能就是。原生就支持写本地文件,通过接口的使得的业务不用改任何代码,完全去兼容你的政的一个业务流程。这个也是我们。一个客户理就是他通过把存储放在,他是把完全放在上,然后通过接口去做一个机器学习的一个模型训练推荐。第四个案例就是呢,做统一的一个存储,它可以做存储共享。
47:03
比如现在,其实现在很能支持周边的产品越来越多,比如像除了H是吧,一个大数据分析,然后比如你的。呃,数据也可以写到去做一些快啊。然后比如说像你的日志是通过写到cos上去都可以。然后另外还有一些,比如说可能你还有一些数据库的一些数据,要跟要跟我们之前大数据分析里面,比如数据做表关联做表的一个关联,关联查询。你也可以把数数数据库的数据呢,通过一些工具导入到里面去,通过一些。工具者,这种查询工具联里面色数存储。它可以解决就是你的数据的问题。
48:01
做那个数据的一个高效流转和一个。最大价值的一个挖掘。数据联通。所以cos完全是可以满足你这种就统一数据存储的一个需求。能够使得一些产品之间可以高效的一个联动。刚才说了还除了这些,还有比如说flow啊,去做一个数据分析,整个产品线就连起来。这个也是非常有价值的。行。所以讲刚才讲了这么多,就是一些。呃。就例子或者是一些场景啊。一些一些技术上的一些东西,所以最后一节呢,就给大家。大家去一起去看一下,就整个数据加速一个是怎么使用的,所以我给大家了一些例。可能更从感官上更更直接去感受一下。
49:04
所以这个产品化的能力呢,现在我们也正在做,然后马上就会给大家见面。还有就是一个支持语义的一个。访问一个一个一套协议。比如说你在创建存储的时候呢,现在我们会开一个按钮,就数加速,这样钮可以。就。这样的话,你就会创建一个带原数据加速能力的一个存储桶。那这个存储跟之前的存储可能。用网上基本上是一样的,就是可以在。它的功能页面里面去。上传文件,下载文件,做一些管理,文件上的管理。但是呢,目前因为它支持了一个。数据加速所的结构呢一些差异,所以在原的存储里面它有些功能。可能现在不太不太开放。
50:02
知识的能力会有一些限制。这后面会有一些专门的一些产品页去做说明。呃。下面会贴贴了一些我们现在目前测试的一些性能指标。就通过数速加速读写据操一些一些比。比如像最下面这样一个测试,其实跟刚才差不多,就是。整体的性能会有一个大幅度提升。那这个是整体的一个存储界面上,怎么去使用这个数据加速的一个展示,刚才我提到就是你在创建的时候呢,会有一个按钮让你去选要不要开启数据加速,如果你开启的话,那这个存储就是用了一个新的索引方式去组织你的文件。
51:00
然后你就可以享受到数据加速一个能力。然后下面可以配一些高级的一些配置,比如说你可以配服务端加密啊等等一些基本的一些。控制。按钮。这个如果你开了以后,这里会有一个显示,就是告诉你原数据是否已经开启,如果你启用,这边会显示已经启用。那这个呢,页面就是在整个数据加速那个存储里面,就是在存储里面的操作页面里面可以去上传文件。就是你点上传文件,会弹出一个呃对话框,可以从本地的电脑里面选一个文件上去,可以传上去。传去以后,可以在列表里面去查到这个文件。可以点下载,可以把文件下来。然后你也可以创建文件夹。
52:01
比如说你可以创建12121这样一个文件夹。文件创建文件夹等等这些操作。然后你也可以比如说做一些清空存储的一些操作,比如你要清空某个存储。平常确认信息。然后他就可以把整个存储孔给清理掉。然后这个里面也有文件片的一些概念就存。就分上传这种接口去上传,如果一个文件没有传完之前呢,它这个文件会作为一个文件碎片存在。所以这里也会展示一个。就整个存储里面有多少个催文件给列出来,然后你可以做一些清理啊。或者可以查到一些信息,可以做一些传等。比如说你现现在要清理整个文件碎片,你点确定就可以把整个文件碎片给清理掉。这些操作基本上跟呃。
53:01
就是最原生的cos的变是一模一样。就感知上没有区别。还可以删除文件,比如你要确定删除某个文件,点确定。然后这个文件就会被清理掉。行,大致那个用的方式呢,就给大家介绍到这儿,然后后面就是我们给大家,我给大家列了一些我们。可能PPT里面也讲到了。提到者。去看一下,去了解一下。另外,如果大家有什么。疑问呢,也可以直接通过。通过留言,或者说通过一些问题可以发到我这边,我给大家做一些解答。
54:02
行,我的内容大概就这些,所以。那非常感谢严老师的分享,这边的话我看评论区大家也很活跃,都问了好多问题,呃,我这边的话会随机抽取三个问题,然后由呃杨老师做一下解答。我看一下第一,嗯,好,第一个问题的话就是我看。呃,发发这边的话问了一个问题,他是说使用原数据加速的桶还可以使用S3的API去访问吗?这个问题需要您回答一下。呃,就是我们刚才给大家演示那些界面啊,其实那些界面的接口基本上都是通过接口去访问的。嗯。所以我们目的就是为了支撑I3,就统一三这个接口,哦哦嗯,了解。行,我看第二个问题的话,这边有一个问题是云数据能够支持AI处理,处理的领域不。
55:07
呃,可以的,刚刚其实我的那个场景里面,其实就提到了AI这种场景。是完全可以,嗯,好的,嗯,那如果是这样的话,最后一个问题有闫老师这边自己来做选择,然后做解答好吗?OK,行,嗯嗯,您看一下评论区。我看一下一下好嘞,好嘞。呃,我这边看到一个问题,就是HCH文flash这三个操作是如何映射的?我理解对应函数肯定无法支持这三个三种操作的,是这样的,就是。
56:04
呃,刚才提到就是最原生的呢,这三个操作的确是没有法没办法支撑的,像文件这种操作呢,它没有实现,文件flash呢也是空的。因为它对象存储接口里面就没有这些对应的接口,文件夹刚才我提到就是文件夹,它会把文件list出来。文件夹出来,然后文件一个一个去。Copy操作。一并。原数据加速这一层。大约数据加速这一层呢,我们基于对象存储提供了一层文件系统的一个。文件组织方式。那可可以完美的对接HS所需要的一个文系统。所以你这个文件夹对应我们这边可能也就是一个操作。文件的文件的flash这三个也支持,就是我们提供相应的接口来支撑你的一个一个。
57:06
协议的一个转化的需求。对。对好的好的了解了,那是这样的,这边的话我我这边我这边的话就是我们下期我下期的时间直播时间是10月28号,然后我们讲的内容是库FS的TTK容器服务,然后刚刚就是没有抽到问题的小伙伴也不要呃,也不要气馁,因为你可就是我们的那个报名抽奖的活动的话,暂时还没有截止,如果你还没有抽奖的话,您可以扫我们这个腾讯云存储的二维码,然后关注关注,关注完之后你回复燕期,我这边会把那个抽奖链接发给您,你也是有机会抽奖的。然后就今天的直播的话,我们到此结束了,谢谢大家的聆听。
58:09
好的,谢谢大家。嗯,好好。
我来说两句