00:00
各位直播间的小伙伴大家晚上好,欢迎来到云家社区直播间,不知不觉我们燕溪学堂红松楚专题直播已经走到第八期,本期我们邀请到的是腾讯云产品经理林楠老师。今天分享的主题是。数据加速器库FS的数据迁移篇,接下来琳娜老师会跟我们分享数据是怎样迁移海量数据的,以及在迁移的过程中怎样保障数据安全和成本控制的。直播中呢,我们也有设置多个奖项,中奖名单的话会在直播结束之后公布在评论区。好的,接下来我们把时间交给林丹老师,让他给我们做分享。好,呃,考虑到刚刚中断的蛮多哈,我我这可就重新开始讲一下,然后今天给大家介绍一下数据库存储的一个迁移方案,整个的一个方案介绍的话呢,我大约会拆成三个大块,第一块的话呢,会先讲一下,呃,整个迁移过程当中我们会涉及到哪一些环节,然后第二块的话呢,我会告诉大家,给大家介绍一下咱们腾讯现在有的一些迁移工具和迁移能力,然后第三块的话呢,会给大家讲一下,在大数据这个场景下啊,我们去怎么样进行一个高效的安全的一个迁移啊,然后接下来的话,我们开始今天的一个正式的一个介绍,首先的话呢,我们来看一下整个数据的一个迁移流程哈。
01:33
数据的一个完整的迁移流程,大约可以拆成这么几个部分啊,第一个的话呢,是呃,咱们那个确认一下迁移的一个目标啊,这个迁移的目标呢,就是说你这一次迁移要达成什么样的目的,然后第二个的话呢,是啊,咱们自身的一个业务架构是怎么样的啊,因为啊,不同的业务架构的话呢,对应的搬迁到公有云上,它的那个所需要设计的一个产品是不一样的,那最简单的话呢,就是说啊,我只有数据需要搬,那我可能就是只需要拿一些硬盘啊什么的,然后拷贝过来就完事,或者说直接走公网上传。
02:11
然后呢,一些杂的业务架构,可能会涉及到计算群啊,或者说涉及到一些啊前端的一些组件啊之类的,那这一块的话呢,啊,它的迁移会更加复杂一些,那第三块呢,就是要评估一下啊整个的迁移方式,然后第四块的话呢,要确认一下我们这个迁移的节奏,就每个环节,每个环节的时间点,交付的时间点是怎么样的,然后第五个的话呢,我们要看一下具体要迁移的内容,那有的业务呢,可能是出于一些安全合规的要求,他可能会呃,把数据留在本地,然后把计算搬到云上,或者说呢,他可能就是因为业务需要,我不一定是呃把所有的数据都直接一把全搬上来,可能只是部分业务数据,那这个的话呢,就需要在迁移评估过程当中,先确认清楚,然后最后一项呢,就是说我们要根据前面啊所讨论的这一些东西,然后去选择我们所需要的一个迁移服务,好这个是一个大体的流程啊,然后接下来的话呢,啊,我们会分点来介绍。
03:11
一下,首先来看一下我们的迁移目的啊。呃,就是在整个迁移过程当中的话呢,我们可以给他画一个四象线图。就是呃,因为迁移这个东西,它说白了就是一项任务,那做做一个任务的话,我肯定要看它的一个投入产出比的,那投入是多少呢?比如说啊,我们整个业务和it,它可能是需要投入一定的人力,还有设备,还有各种各样的那个,比如说像云厂商体啊支付的一些服务费用,那这个是我们的一个迁移的投入,那收益呢,可能就是说啊,我这里项迁移带来的整体资源的it成本支出上的一个减,或者说效率上,运维效率上的一个提升,或者说资源利用率的个提升,对这个是迁移收益这一块,那呃,从那个整个四象线图来看的话呢,我们可以把呃,目前现有的一些迁移方式啊,用六个R。
04:08
六个二来代替一下,那呃这里啊,分开来讲啊,第一个的话呢,我们叫return return这一块的话呢,就是说我维持现状,我什么都不变,我可能私有云的话呢,我就还是私有云,然后比如说在本地IDC的话呢,我就还是现在本地IDC,最多最多我就变更一下部分机器,然后第二个的话呢,叫retire,这一部分的话呢,就是说啊,我需要那个啊,把部分服务给淘汰掉。然后用云服务来代替,那比如说呢,有一些业务,他可能是说我本地的那个磁盘太多了,然后机位不够了,然后数据其实也没有说,那么呃,一定有必要放到本地,那我可能会选择说把数据搬到公有云上去备份,那现在很多档案数据业务其实都是普遍采用这种模式,就是我的计算还在本地,但是我会把一些偏冷的数据啊备份到公有云上,那这一个呢,我们可以认为说就是说这个呃设计,然后第三种的话呢,是这个的话呢,就是说我会去啊把用云服务去替换掉所有本地的架构,比如说我在本地呢,最简单的我可能是一个海集群,然后里面呢,可能会有micro业务。
05:21
Map reduce作业,也有可能会有那个HS的,有h base,那我到有云上的话呢,我就会找对应的云服务去替换,然后第四个类别,我可能就是说啊,我希望把这一个啊,整个的业务架构我去platform,那就是啊,比如说我以前我在本地用的数据库是Oracle,然后的话呢,我希望说搬到公有云上,我不仅仅是平滑搬过去,而且我还希望说把它升级一下,做一下业务的升级,比如说把它升级到那个Mexico,那这种的话呢,叫re,然后还有一种的话呢,叫architect,那这个的话呢,就是我能会使用一些有上面的一些pass,或者来重构一些业务,比如说我在本地我可能是买了啊一些物机,然后自己搭了一,那云上的话呢,我可能会接使用弹性map reduce来直接。
06:21
大数据作业,然后到第六种的话,我们交虑pat,那这一个的话呢,就会更加的高阶一点,就是说我会使用公有云上面的一个SAS服务来替代本地服务的能力啊,举个例子,比如说我本地呢,我可能是搞了用服务器啊,然后用各种各样的,然后搭了一套企业内部的一套I服务,就时通的服务,然后到云上的时候,我可能就不需要了,我就直接用企业微就完事,这是一种对这个的话呢,是。我直接把本地的那一套啊,冗于的那一个价格给拆掉,然后我直接购买一套SAS化的服务,对这一种的话呢,是我们的一个迁移的目的啊,啊这几种目的的话呢,其实在迁移之初就应该先明确清楚原因,在于说啊,我们有一个明确的方向,到底是这一次搬迁的是呃,原封不动的还是说啊。
07:19
COPY1份到公有云上,还是说不仅要COPY1份的公有云上,并且做一个升级,还是说直接裁撤掉以前老的业务架构,然后我换成一套新的业务架构,或者说直接购买一个新的服务,这些都会决定啊,后边所有的一些啊决策的一个差异,对OK,这一个是迁移目的,迁移目的是一个提纲的东西,所以必须要在最开始那个地方先评估清楚,然后第二个的话呢,是我们要评估啊,评估啥呢?这个可以用搬家对一个case来做一个对比啊,比如说我们正常搬家的时候啊,我们可能会看说啊家里有哪一些东西需要,比如说是家电,有家具,然后还有各种杂七杂八琐碎的东西,然后呢,第二点呢,我们搬要搬了,那我肯定要看一下到底怎么样啊,那怎么样搬运到我的目的地,比如说我要用金杯呢,还是要用大车呢,然后啊,第三步的话呢,就是要看一下我这个搬家步骤,我是不是啊一车。
08:20
搬完还是说像蚂蚁搬家一样,我今天搬一点,明天搬一点,后天再搬一点,这些其实也会不一样好,第四点的话呢,我就可能要选择一下到底用哪一些啊搬家公司,这个是搬家的流程,那迁移的话呢啊也是一样,迁移的话呢,它其实啊首先要看一下我们到底要搬哪一些啊数据,比如说我是啊日志数据,还是用户行为数据,还是说各种各样的代码文件,这个是我们第一步要确认我们的要迁移的内容,然后第二个的话呢,我们要看一下到底有使用哪一些迁移工具比较好。啊,迁移工具的话呢,我们现在腾讯上面提供了迁移服务平台,还有一个离线迁移的模式,当然还有各种各样的迁移工具,这一些的话呢,用户也可以根据自己的一个需要,然后去选择,然后第三点的话呢,我们要去制定一个周密的迁移计划,啊那这个是一次性迁呢,还是说啊热迁移呢,这个其实要根据业务的一个情况我们来制定,然后第四点我们要看一下到底要选择哪一些公司来作为我们的一个迁移合作伙伴,来保障我们这一个迁移的一个安全性。
09:32
这一个是迁移的一个初步的评估,然后再往下的话呢,就进一步讲一下,说我们整个数据上云它的一个大体的一个环节。几个流程啊,第一个我们会先看一下这个业务架构长什么样。对吧,就前面其实有讲了,我的那个业务的话呢,我可能有用存储,也有用计算,然后还有可能会各种各样旁路的逻辑,这些都需要啊,先对整个业务架构进行一个初步的一个分析,那这里边的话呢,我们要看一下,首先你是你的一个系统架构是怎么样,我们一般的话呢,啊,要强调的一个点就是说啊,我这个服务最好是分层的,然后几个组件之间最好是相互啊尽可能的去松耦合的,那这里的话就是不同服务之间的依赖关系啊什么的都得去捋清楚,这一个是系统架构层面的一个评估,那第二个的话呢,就是我会去看一下你这一个业务的一个流量的特点,那这一个地方其实说白了就是你在整个集群哪个时候呢,是你这个集群的一个业务高峰,哪个时候是你的业务低,那显然我在趁着一个时期去迁移的话,相对来讲会更加安全可靠一点啊,然后第三个的话呢,要看的是我的数据的一个特点。
10:50
我数据有哪一些是热的,哪一些是温的,哪一些是冷的,然后呢,他们的那个平均文件怎么样,然后读写的频率怎么样,然后根据这一些来制定一下不同的那个文件,它的一个迁移的一个计划,比如说你大文件我可能会占带宽多一些啊,小文件的话呢,可能会占磁盘要多一些,那这个其实是需要在迁移过程当中啊,明确的要考虑的,然后第四个就是我们的一个网络环境的,因为现在的话呢,你涉及到搬迁的事情,肯定会不可避免的要跟网络打交道,一个是你本地的一套一个网络,然后另外一个的话呢,是你原端跟目的端的一个网络环境是否能够打通,然后两端的网络质量怎么保障,这一系列的网络相关的问题,然后到了第二步啊,我们要设计我们的方案,那方案这里的话呢,要去评估你的资源,要去看一下你这一个迁移到底是全量圈还是平滑圈。
11:50
然后以及一些可能出现的一些异常情况,我的一个备份的一个方案,或者说回滚的方案,然后第三个的话呢,要去看啊,就刚刚提到的,我这个网络到底要去怎么样去处理啊,我到底是要买多大的专线,然后专线从哪到哪,然后我这个专线的那个,呃,带宽有多大,这些信息是需要在方案设计的时候去制定好的。
12:17
然后第三步的话呢,是一个测试验证的过程。啊,很多时候的话呢,呃,如果说哈一些稍微小一点的业务,我们可能这个流程就直接跳过了,但是对于绝大部分企业来讲啊,你的业务架构迁移的过程当中,肯定不可能说一把就把所有的业务都迁过去,所以肯定需要经过这一个啊迁移测试的一个,呃,那个。然后第二个的话呢,我要去压一下你的一个性能,然后第三个我要去check一下你各种各样的功能性能是否符合预期。然后第。
13:04
四个我们要部署这个环境,那环境这里的话呢,要看网络是否连通,然后完了之后也要演练一把,看一看啊,我整个流程能不能跑得通,那这一套下来之后的话呢,我们可以正式进入到一个执行的环节,那执行的环节这里的话我们就会去看说啊我这一个数据的一个迁移大约需要站多久的一个时间,然后我们要如果说你是一个全量迁移,一把割接的话,那还得去看一下你这个停服要停多久,然后完了之后迁移完成,你还要去看一下验证方案怎么做,然后去倒数第二步啊,就是一个割接的一个过程,割接这一个的话呢,你可能会涉及到一些呃线上的业务,比如说啊,有一些用户他可能是engines,然后完了之后再加消息队列,再加存储,这样的一套业务架构,那我这里可能就需要去做一些,呃,业务的接以前呢,可能是先双写,或者说只单写。
14:04
写试读,然后我后面要先切成另外一套集群的单写,对这一个东西的话呢,是需要在所有东西所有数据都迁移完成后,在上线业务新业,在上线新的业务架构之前做一把呃,隔接的,然后最后一项呢,是我们后续长期的一个云上的一个优化,那这个的话呢,属于一个啊持续性的工作,那这里更多的是根据一个业务的需求来看的。啊,然后我们讲一下那个迁移的方式,一般来讲的话呢,会有两种迁移方式,一种是全量的,一种是平滑的,那全量这一种呢,就是说我把所有数据捋到一起,然后一把签,签完了之后我就。把这个整个流程都给截了,这个是全量移,那它的方案优点也比较明确,就是我的停服的一个时长会相对比较可控一点,而且的话呢,你把搜完了之后,也不会说出现一些啊异常情况,然后只要我新迁入到目标端之后,我的业务能够正常运行,那就意味着说我这个数据已经结束了,那第二个的话呢,是平滑迁移。
15:17
平滑迁移的话呢,是。分批去签,或者说是一两端的业务同时跑,然后热迁移,那这里的话呢,它的优点在于说啊,我这个迁移过程其实可以随时回滚,因为一旦说这这个其实有点像一个主备的一个架构,我可能啊备份的新的业务架构呢,我是一个备份的一个模式,然后完了之后一旦出问题了,我可以随时回切到老的那一个架构下,这个的话呢,是频发迁移的一个优点,而且的话呢,时间上也会相对可控一点。它比较适用于一些相对大型的业务的一个牵引啊,然后完了之后呢,有一些方法论,那这个一般就是说我们可能在迁移过程当中会比较注意需要注意的一个点,比如说啊,我们是有两种玩法,一种是上层到底层的迁移,一种是底层到上层的迁移,怎么说呢,就是比如说我这一个大数据集群哈,我可能会有上面会有一套map,下边会有一个HDS,那我这个地方其实有两种迁移方式,一种是我先map的集群,先把计算的集群给到公有云上,一种呢是先把底层的HS到公有上,那这两种玩法需要注意的一个点其实是不一样的,比如说啊,我先签,先从比赛到上层迁移,那就是先签数据再迁计算,那这种模式下的话呢,我们数据的一个迁移,我们可能就是需要去看一下这个数据的热温冷的分布,我把冷数据先迁过去,完了之后再逐步的温数据,最后我再热数据。
16:50
去,然后把这一部分数据两端都迁移完之后,我再设计一个双的一个逻辑,或者双写的逻辑,然后再逐步把计算的给切过去,这种是一个方案设计过程当中的一个,呃,注意的点,但是的话呢,有一个额外的点要注意一下,就一般来讲,我们讲究的是要么呢,你就是顺序的从上往下。
17:15
逐步一个一个组件去签,要不的话就从下往上一个一个去签,而不要出现说那一种说啊,我可能先上边最上层的一套组件,我先签了,签完我就突然又签下边的那一套组件,完了之后最后再签中件的,这个其实很不合理,因为你有可能说啊业务架构,这样迁移的一个业务架构会变得异常复杂,比如说我冷数据先签完,签完了之后我就要签计算集群,完了之后这数据还停留在原来的集群里边,那这个地方的话,整个迁移的业务架构就没有办法去设计了。然后第二个要注意的呢,可能就是说我们的一些逻辑要先简单后复杂,这个其实啊是一个比较朴素的一个认知,因为你如果说先把复杂的搞了的话,那可能。
18:03
啊,很容易出问题,完了之后的话呢,也容易受挫,对吧,然后这个地方的话呢,就是呃,需要注意的一个点,然后第二个的话就是业务先普通后核心,因为你普通的业务影响范围会小,而且能够等于说先做一遍验证,然后尽量去避免易购的迁移,以及说我们数据层的一个迁移,啊,一定要尽可能的去保持同步,对这个是一些可能偏抽象的一个方法。然后的话呢,考虑因素这里就啊不去详细展开了,因为这里边其实前面在谈到那个业务架构的时候,都有提到,第一个你的架构的层次是怎么样的,你的一些资源的一些利用率是怎么样的,就啊怎么比如说你的数据吞吐,你的计算集群的一个利用,然后你你的各种各样的一些网络的一些利利用,这些是什么样的,这些要评估,然后完了之后再有一个业务特性,这些的话呢,是需要在迁移,迁移的过程当中要进行一个评估的,那我们所有的这一些前期的考虑因素,或者说一些方案的设计,最终都是要落到我们的一个全量迁移或者平滑迁移的最终的一个方案过程当中,所以的话呢,下边会进一步讲一下。
19:20
我们的那个全量迁移跟平滑迁移,具体的一个啊模式啊,首先全量迁移的话呢,它其实刚刚其实讲到了,就是说一这一个东西是一刀切的,一次性就迁移完毕,那他的话呢,其实啊很显而易见。就是特别适合一些啊,业务规模比较小的一些团队,比如说啊,我这里可能就只有10TB的一个数据库,或者说10TB的存储,10TB的HDS,那我这一个地方,我可能很快的我制定好一套迁移方式,我找一个夜间的时间。没有业务数据流量进来的一个时间,我直接停服搬迁就完事。
20:02
那到了第二天,OK,业务重新启动了,我把那个新的业务直接接入到新的集群上面来,这个就啊完事儿,那缺点的话呢,可能啊也有,比如说没有,比如说我一旦说出现异常了,那我这个不好回滚,完了之后的话呢,我可能牵着牵着出现问题了,然后这个停服的时长就变得特别不可控了,然后第三点的话呢,可能就确实会比较耗然力一点,因为需要你一般这种停迁移是全量迁移,是需要停的,那停服的话呢,一般也是需要找一个业务的低峰期的,那在国内的话,业务低峰期一般就完善了,那这个时候的话呢啊,就需要耗费比较多的人力去通宵割接啊之类的,这个确实是全量迁移过程当中会经常会遇到的一些问题啊,但是的话呢,总体来讲,对于一些小的业务团队来讲,如果说不想去耗费过多的精力去设计一个复杂的迁移方案的话,用全量迁移的方式其实是一个比较经济划算的一个玩法。
21:01
然后第二个的话呢,是平滑迁移这一块,那平滑迁移这一块的话呢,一般就是一些大规模的业务被采用的一个方案,呃,大规模的业务的话呢,他们一般会在线上跑很久,而且服务了很多,可能服务了很多C端的客户,比如说啊,我现在QQ音乐,我以前用的。啊,停服的周知,然后完了之后的话呢,去慢慢的去折腾这一个迁移的事情,因为我的数据量会特别大,我的用户呢也会特别大,如果太久的话呢,你对用户的体验其实是很损伤的,那所以呢,对于大规模的业务,并且在线上持续运行的一些业务来说,我们推荐的是平滑迁移的这种模式,那一般这种的话呢。会搭配着专线一起来用啊,然后这个地方的话呢,就啊优点的话其实很明显,因为你平滑迁移的话呢,整个过程会比较灵活,然后持续的一个时间呢也比较长,那相应的也比较自由一点,然后对业务的影响也会非常小,然后缺点的话呢,也有原因在于说你这里要设计好你各种业务的一个迁移的步骤,完了之后的话呢,也要详细的制定好一些回滚啊,或者说准备热切啊之类的一些方案,那这个地方的话是平滑迁移的一个啊,缺点你这在那个资源的准备,还有方案的设计上需要考虑的比较多,那这一个地方会涉及到一个特别关键的点,就是我们在搬迁过程当中会涉及到一个专线啊,专线的话呢,一般现在如果你是本地IDC或者说第三方云厂商拉到公有云上的话呢,我们都会有一个专线的经理来进行一个对接,然后的话呢,根据业务的。
22:55
充值流量我们来推算啊,一个总的一个流量情况,然后给大家拉好这个专线,这个的话呢,目前整个流程其实还是相对比较顺畅的,那这里面的话呢,最关键最关键的一个点可能就是说啊,我到底要拉多大的专线。
23:14
多大的专线,这里其实有一个评估值,就是说我们这边比如说业务正常的一个峰值流量,乘以二乘以八除以1014,再乘以1.5,那这个地方怎么去看呢?我们峰值流量可能要精确一点,就是按照do b来算,那乘以八乘102算下来就是你的G值。然后的话呢,我们一般会预留一定的buffer,比如说我预留个50%的buffer,那我可能就是五个G,那完了之后的话,迁移还需要一个上下行双向的通道,那所以的话还得乘一个二,所以的话呢,比如说我这边值流量一般400大,那我对应的就是实小的一个专线的,对这是一个简单的一个评估方式啊,当然也有一些业务可能会更加集约一点,那这个啊,也可以去选择一些比较便宜的那个专线代理商,那这一个的话呢,就啊属于另外一个话题,就是怎么去选择一个合作伙伴。
24:06
的一个一个话题了,这个不展开,然后再往下的话呢。会给大家介绍一下啊,我们常见的一些迁移场景,那第一种的话呢,是自建的IDC要搬迁到公有云上,然后第二种的话呢,是第三方云,我搬迁到公有云上,然后第三种的话呢,是我们可能一些异地多火或者灾备的一个场景,然后先说我们这个这些场景哈,它其实对应的那个迁移模式多多少少会有一些差别,那具体的话呢,我们可以下边展开讲一下,就是我们啊还是回到刚刚的那一个点,我们如果说是停机全量迁移的话呢,啊,这一个地方的话呢,就是说啊,它的方案优势会比较明显,就是说我这一个业务我是可以停机的,然后完了之后啊,用全量约的方案可以管控好整个的进度跟效果,然后第二个的话呢,我在不停机的一个情况下啊,我可以说把我底层的这一个数据,按照数据的访问热度。
25:12
去签,签完了之后的话呢,再呃,逐步的去签上层的一些计算的应用,或者说各种逻辑上的东西,所以这个是不停机的一个平滑牵引。然后的话呢,再往下介绍一下我们的那个迁移服务平台,迁移服务平台这里的话呢,是在公有云这边推出的一款那个啊比较产品就产品化程度比较高的一个迁移产品。啊,先分开介绍一下,我们就重点来讲一讲,把数据搬迁到那个数据服存储,就公有云的对象存储costs里面,我会有怎么样的一个流程,首先你们在那个迁移服务平台上面,我是可以创建一个像对象存储迁移的一个任务的,那这个任务里面呢,会涉及到我们的一个任务规模,迁移的原端是什么样的,然后我的目标又是怎么样的,我的迁移模式是全托,全托管或者半托管的,那全托管的话呢,就是这个服务平台啊,你只要授权给他,他啥事都帮你干完了,那半托管的话呢,就是你可能还得下载一个,呃,那个迁移的一个脚本到本地,然后找一台C托管,然后进行一个数据的啊上云的一个过程,这个是迁移服务平台那啊。
26:29
整个迁移服务平台的话呢,它会给你提供一个相对统一的一个进度,还有状态的监控,那这一个地方的话呢,就可以在单个web UI界面给用户提供所有的一个迁移的关键信息,让用户可以快速的掌握那个所有迁移的一个进度更新。那这个地方其实是效率会相对高一点,而且你可以减少说为这个迁移项目花费的时间跟工作的一个啊消耗,然后另外的话呢,我们在迁移完成之后也会有一份啊迁移报告,那这一块的话呢,可以啊相关的一些成本啊,或者说啊。
27:05
迁移作业的一个信息啊,清晰的展示给用户,然后可以去管控一下我们整个迁移的一个节奏。然后。在选择迁移服务平台啊过程当中的话呢,它你可以根据说啊我们的那个数据啊的大小,然后来选择一下说我们到底是啊通过那个专线还然后还是通过说那个全托管半托管的模式进行一个牵引,这个地方的话呢,就会啊,虽然说都是从迁移服服务平台上面来的,那有的呢,你可能链入的不同,因为数据的一个规模的大小,你可以决定说最终到底是选公网还是选择专线,然后你如果说是选择那个啊公网的话,那你是到底是要选择全托管还是半托管的模式,这些都是可以根据说数据的一个类型,还有数据的一个规模来决定的,当然最终的话呢,落到公有云上,我们一般推荐的就是用公有云的那个对象存储服务来存储这些海量的数据。
28:09
然后举一些简单的一个case吧,就是用这个迁移服务平台来我们这里一般可能会有三个不同的阶阶段啊,因为你这里的迁移其实涉及到两个点,第一个的话呢,是存量的数据迁移,第二个的话呢,是我增量的那一部分,因为你在搬迁过程当中,实际上也会产生增量数据,所以的话呢,这个地方啊需要分成三个阶段来看,第一个我们先说一下存量数据搬迁到目标桶,我们一般就是说啊卡一个时间点,然后用这个迁移服务平台把存储统一到存储统二,这一种是公有云上的一个迁移,我们大约的话呢,可能就比如说啊若干数据大约需要若干时间,这一个是一个步骤一的过程,然后第二个的话呢,就是说啊,我上层可能会有一个啊不同的一个业务,那我在这种啊云端的一个迁移的过程当中哈,我要业务需要改造,把那个新的数据写到目标里边,同时的话呢,也要。
29:09
要配一个回源策略到目标统一,然后当我们业务访问到那个新增的数据的时候,可以回原到目圆筒里面,啊,这里一个地方引入了一个新的概念叫回源,所谓回源是什么意思呢?就是当我。目标里面的数据找不到的时候,不存在的时候,我会去圆里面去拉一份数据过来,那这个地方其实就可以帮你把一些新增的数据写到目标桶里边,对这一个地方属于一个偏增量的一个迁引,然后的话呢,到了第三步的话呢,我们可以再用MSP平台把阶段一就刚刚讲的存量的搬迁完成后的数据再搬迁到目标桶里面,这个是会做一份校验的事情,对啊,然后我们看一下,就是我们如果说用刚刚提到的签约服务平台来完成这一个啊,腾讯云上面两个桶之间的一个搬迁的话。
30:08
我们会进行哪一些处置哈,首先的话呢,我会在这里建立一个迁移的一个任务,完了之后的话呢,我会把我的数据量规模这些全部填好,然后包括我们的一个信息也全部填好,然后目标桶的信息也输入好,完了之后啊,我们可以选择一个全托管的一个迁移任务,因为这一些东西你其实不需要做额外的工作,你只需要让迁移服务平台去帮你执行就OK了,然后完了之后第六步哈,我去主界面那里看一下我整个迁移的一个进展,对,就就这么六步,其实很简单,然后的话呢,啊,到了第二步的第二个阶段,我们这边有一个新增数据的搬迁,那这个地方实际上是利用了对象存储,它本身有了一个回源的能力,那这个地方的话呢,啊,我需要去原目标那里配一个回规则,然后迁移到一个原站上边,然后完了之后的话呢,把这个规则配完了之后,那后边只要目标。
31:08
小上面没有的数据,我就会自动的到目标那个上面去拉一个,对,这个是整个基移务平台的一个移的步骤,然后完了之后,接下来再介绍一下我们离线迁移这一个工具,那这个地方的话呢,离所谓离线迁移最简单粗暴的一个理解就是我把一个服务器,一个存储服务器寄送到。那这个地方的话呢,比较较适用于一个数据量相对小的一个业务的一个迁移啊,然后整个迁移的话呢,它的成本也会相对低一点,如果对时效性的要求没那么高,并且说你的数据其实也没有那么多的情况下,你可以用这种离线迁移的模式,好然后介绍一下有不同的产品,我们M机器这个是正常机房里面用的那一些存储服务器了,里面可能会有80个T,然后的话呢,呃,这里面的话呢。
32:21
呃,你如果说小文件比较多的情况下哈,可能会影响到这个迁移的速率,因为你这里的磁盘用的都是沙塔盘,它的IO其实也是比较有限的,所以的话,我们一般不是特别推荐那种几KB几KB的小文件进行用,用这种服务器来搬迁。那是我们推出了一款的就是基S,然后的话呢,另外一个就是相对来讲比较小的,那我们可能是用这一种啊纳的一个啊设备,然后寄送到本地用户去搬迁,对这个是离线迁移的产品,然后刚刚其实提了在线跟离线两款,那我们到底怎么去选,这里边其实列了一个表给大家看一下,那一般来讲的话呢,我们要评估这个数据搬迁啊,就要看你的到底要签多少数据,然后你这个IDC出口有多少,然是否空闲的机可以接受的完成时间这因定么?然后一般来如果说迁于周期超过十天,就比如说我可以慢慢签,不着急,或者说我的数据又特别啊多的话呢,就是啊,我们会推荐你去。
33:40
数据特别多的情况下哈,我们而且你需要很着急去搬迁,那我们推荐是线上迁移,然后走专线,那你数据少,然后并且说不不不开这个迁移的时间,那我们推荐你用CDM,对好,这个是迁移服务,然后的话呢。两种方案其实是各有优缺点的,那一般来讲的话呢,我们这边的话呢,啊。
34:07
离线我们一般推荐的还是说去适用于那些相对数据量比较小,然后完了之后啊,线上的一个我们推荐的是搭配专线去搬迁那些数据量比较大的好,然后接下来啊,再展开讲一下,我们具体到大数据这个场景,我怎么样去做搬迁啊。首先的话呢,我们会先看一下整个大数据迁移过程当中,我会有哪一些,呃,涉及到的环节可以看一下,我们端肯定是会有。计算加存储两块业务啊,目标端的话呢,我们肯定会有那个啊,也有计算跟存储两块,那本地的话呢,可能大家会用,还自己搭一个计算机群,然后再搭配HDS,然后目标端的话呢,现在公有对应的产品一般是em Mr,或者你用自建的啊,用CVM自己去自建一个大数据集群,这个也OK,然后目标端的存储一般现在普遍用的是那个对象存储cos。
35:15
那这一个地方的话呢,啊,我们大约拆下来可以分成三块,第一块的话呢,我们是啊,先讲一种比较普通的一个迁移方式,就是我直接本地的HS,我就通过迁移工具,比如说目前推荐的是我把它移到目标环境,这就完事了,那我计算这一块呢,我可以先不签,还是留到本地,这是一个存储的一个光只有存储的一个普通的迁移方式,那另外一个模式的话呢,是我计算加存储分离,然后并且我两个都要签。那这个地方的话呢,我可以把一部分的数据先搬过来,完了之后的话呢,计算的业务,我通过那个repe的模式,我把它迁移到那个em上面,对这个是大数据的一个迁移方案。
36:06
然后的话呢,这里是一个更加详细的一个介绍,一般情况下的话呢,我们本地的一个大数据集群会遇到什么问题呢?就你的弹性的一个横向扩容其实是非常受限的,因为你机房的机会就那么有限,完了之后的话呢,啊,很多本地的一个系统,它的性能可能相对也比较少差一点,然后公有云上边的厂商一般也会做比较多的优化,然后呃,再者就是说公有云上边因为厂商有比较好的规模效应,所以确确实实呃,也有更低的一个存储成本。或者说计算成本,对这个属于说在本地IDC里面啊,没有办法去满足的,然后我们在整个搬迁过程当中的话呢,数据搬迁这一块的话,我们肯定是用copy这种模式,然后replication啊,计算的那个集群,我们可以通过那个大数据集群里边replication的模式去迁移,又或者说啊,我们可以直接停机迁移,像前面提到的。
37:07
然后啊,到了公有云上了之后,我们的em Mr服务其实是可以通过CMS或者cosn这一种大数据组件来访问cos,然后啊,相应的我们群跟cos其实都是相对比较弹性的,像em这一个服务的话,可以去弹性的,包括你如果说用CBM或者用t ke都可以去实现这个弹性扩容的一个计算机群,然后对于海量的存储,分布式存储服务呢,我们一般就用对象存这个服务了,那应的话呢,啊,这一块我们可以啊,对象其实还是蛮明显的哈,因为像QS这一块,传输这一块,以及说啊还有那个单价这一块。我们目前其实都是会有非常非常多的优势可以去啊,给用户提供一个海量的分布式存储的一个方案,对这个是整个大数据迁移过程当中,我们推荐的一个玩法,就是你计算你可能去到em,或者到CM,或者到t ke,然后存储呢,就推到那个对象存储上面啊,来享受这一种说海量分布分布式的一个服务,然后的话呢,下边会给大家介绍一下,我们如果说用那一个copy,我来做一个大数据备份,我们一般啊会用什么样的一个。
38:31
I数据拷贝,然后拷贝到公有云上。而那个公有云上边的话呢,我们也可以通过像生命周期这样的一个模式去做一个数据的一个啊分层管理,那这一种玩法的模式下的话呢,啊,我们能够说充分利用了这个啊大学那个hadop和copy工具它的它对那个原生H的一个容保障说你这个移的顺畅的一个,然后的话呢,有些输的能力,能够保障说传输过程的一个安全性,然后此外的话呢,第二点就是说啊,因为这一种是一个偏备份的冷备份的一个业务,所以的话呢,你这些数据在公有云上也可以说自己设置从标准存储降到深度归档存储,那这样的话可以说保障这整套数据的成本是最节约的,然后啊,谈到备份的话,就会看到说啊有一些业务可能需要说呃,尽快。
39:43
在一些本地的业务故障的时候,把数据恢复过去,那这个地方的话呢,就啊也可以通过工具把这个。标准存储里面的数据通过专线再拷回去到本地的HDS里面,对这个是基于cost copy的一个大数据的一个备份方案,然后的话呢,接下来再看一下,就是我们普遍关注的就是我们大数据迁移过程当中都会遇到一些数据安全的问题,那这里面刚刚前面其实反复提到我们copyy工具哈,它其实除了数据加密传输之外呢,还有一个。
40:20
最核心的一个数据校验的能力,那一般来讲啊,原生的HDS软件,你在迁移过程当中,实际上无论是传输还是说在本地机器的一个拷贝过程当中,都有可能遇到一些数据跳变,或者说遇到一些软件bug的因素导致了这个数据那。对于对象云端的对象存储服务而言,这个时候收到的如果是已经已经是一份损坏的数据,其实对象存储服务无法感知的,那这种情况下怎么去处理里其实提供了这样一个解决方案,就是用C1个数能力,我在地呢,我可能算一遍。
41:00
教育。完了之后到公有云的云上呢,也有一份校验码,那这个时候本地的公有云班的我两边一比较好,那这个时候就能够保障说,哎,你只要校验码一对,那我意味着我数据传输过程当中没有问题,那我就校验码不对,意味着说我传输过程已经发生跳变了,那你这一次迁移其实是错误的,对这个通过这样一个的一个C来保障说这个上面数据。对,好,这个是迁移过程当中的一个数据安全的问题,然后本期的一个分享就大致到这里,然后大家看一下我们来到。好的,非常感谢李娜老师的精彩分享,然后这边的话,我看评论区问题还是挺多好挺多的,然后我这边汇总了一下给到琳娜老师,然后这边的话就选三个做一下回答,然后我简单跟大家回答一下评论区的一些一些问题,就是说我们的产品的话,相对来说是有门槛的,然后大多数的话是TOC的产品,然后因为对象存储cos的话,它是一个底层的服务,然后之后呢,我们会有数据万象,还有名质控的直播,然后这些的话可能就更偏向于TOC一些,然后的话相对来说它实用性可能会更强一些,好的,那接下来由。
42:37
呃,李娜老师帮我们解答就是。客户的问题。好的。嗯,我看一下哈,就是。先说一下第一个问题吧,我挑一下,因为今天的问题其实蛮多的,然后我先说一下啊,第一个MSP产品迁移数据跟传统数据迁移有什么区别,其实我不太确定说这个传统数据迁移指的是哪一些,但是如果说是一些,呃,比如说我通过那些脚本啊这一类或者SDK这些方式,就把它认为说是一个传统的数据迁移模式的话,那MSP这个产品其实提供的是一个啊,相对来讲比较开箱即用的一个能力,你在上边可能就是控制台点点点点两下,然后授权,然后完了之后填好你的云端,目标端以及对应的迁移模式,你就可以实现一个数据的迁移了,然后整个的一个使用流程其实也会比较顺畅,大家如果感兴趣的话,也可以在上面试用,然后第二个的话呢,是离线数据牵引服务,怎么保障数据的稳定跟安全,其实刚刚啊,我我就以大数据场景为例啊,刚刚其实提到了cost。
43:51
里面的一些能力就是啊,首先的话呢,你在传输上云的之前,你可以在本地做一次加密,然后到了公有云上的存储是肯定是一个密文了,这个地方的话呢,你的存储安全就有保障了,然后第二个的话呢,你可以再加上那个CRC32C的一个校验码,这个是国内独所有云厂商里面独有的一个能力啊,你能够保障说啊,你的迁移前跟迁移后的数据是一定一致的,那这个地方的话呢,就能够保障啊,我整个迁移过程当中这个传输的安全。
44:29
啊,这个是一个数据牵引,然后再来讲第三个问题。我看一下啊,我们度备份方案恢业务流程是么?恢方式是么?需要提前预约还是业务等待啊,这里边其实是刚刚看到的那一个,呃,冷备份的一个存储类型哈,那那个存储类型的话呢,其实啊是跟磁带库有点像,它是一个非常冷的存储介值,然后完了之后的话,成本也非常低,那数据放进去之后的话呢,你可以认为说啊,我们下一次取的时候需要先啊把它激活一遍,那这个激活呢,是调一个接口叫post of je store的接口,把它激活一遍,然后重新围绕到一个标准的一个。
45:25
副本的一个状态下,然后我们读的时候呢,我就直接去读这个标准副本文件就OK了,那这个啊流程的话,可能会花一定的时间,根据自己的一个业务需要,可以选择不同的一个啊回热的一个模式,对这个是三个问题好。好的,嗯,是这样的,那。就是刚刚抽中问题的同学,凭借您的问题截图,然后在我们腾讯云公众号回复您的收货地址和那个就是问题截图,我们会在一周之内将你将那个礼物送你。
46:04
送到您的手中,然后嗯,稍等一下,我看一下这边的活跃观众,本期的活跃观众是哪些。然后经我们后台评估的话,用户92724845889632429240448是我们本期的活跃观众,然后待会儿您凭借那个评论截图在腾讯云存储公众号回复收货地址和评论,评论截截图,我们也会尽快将礼物送到您的手中,然后这边的话感谢我,感谢我林老师,然后感谢直播间的小伙伴,然后本期的直播到此结束,谢谢大家。好,再见。
我来说两句