前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >自建大数据迁移到云大数据整体方案

自建大数据迁移到云大数据整体方案

原创
作者头像
平常心
修改2021-11-05 09:22:16
1.9K0
修改2021-11-05 09:22:16
举报
文章被收录于专栏:个人总结系列个人总结系列

一.背景

公司从自建大数据,服务器,网络,大数据技术组件经常出问题,基本每周异常达到2次,不能够很少的保障业务应用。同时因为投入人力在这块进行服务保障效果不好评估的情况下,我们考虑大数据上云的决策。主要是: 1.释放和大数据平台,技术组件开发运维的人力;

2.聚焦业务应用和赋能,大力发展数据业务和数据价值体现的数据应用能力建设;

3.降低数据存储成本,基于自建集群的方式,数据3副本的可靠存储,因为数据量的上涨,带来服务器购买和费用的增加。

二.方案调研

主要考虑降本提效,所以我们对比了购买cdh订阅版+云服务器搭建方案,海外:Google 云大数据全托管体系,AWS大数据体系;国内:al云大数据体系和hw云体系,基于成本,服务等进行调用和方案评审,简单说明如下: 1.评分表

评估维度

权重

apache hadoop

cdh订阅版

al云

hw云

AWS

Azure

Google

人力成本

20%

2

4

9

8

9

9

9

稳定性

25%

5

7

9

9

9

9

9

安全性

10%

3

6

9

8

9

9

9

生态工具

20%

5

5

8

7

6

5

5

服务响应速度

10%

7

7

8

7

5

5

5

迁移成本

10%

9

8

5

5

4

4

3

学习成本

5%

9

9

7

6

6

6

3

综合得分

100%

5

6.1

8.2

7.55

7.35

7.15

6.9

  • 各类型评分 【每个维度分值在1-10,分值越高表示越好】

2.未来3年费用对比

...

3.结论

  • 自建集群需要投入人力,服务器成本,同时对应系统不一定能够做到99.99%的稳定性,因为底层稳定性的拖垮业务使用得不偿失;
  • 长远来看,上云成本优势明显,省去技术组件运维人员,周边生态工具/系统开发人员和服务器托管费用;云上提供丰富的生态工具能够帮助业务快速落地。总的来讲能够达到降本提效的目的;
  • 目前云排名来看: 国内 al > hw > 腾讯;

海外 AWS > Azure > Google

  • 综合考虑目前是al云相对较好,但是缺点就是 云上议价能力, 和长期使用云的费用问题(存储固定收费,没有存储阶梯式收费,数据量越大存储越便宜),还有就是上云容易换云或者回迁至自建集群比较困难。

三.架构部署

     1. 考虑未来的发展,比如湖仓一体;

     2. 考虑当前费用和对应技术的先进性和应用丰富,运维等内容。

四.迁移实施

1.平行迁移

  • 基于以前的数据任务,先创建表和加工内容,进行空跑,逻辑验证,主要是发现语法兼容和调动问题,因为没有数据内容,所以验证效率高。
  • 逻辑验证通过后,进行数据迁移,由近及远的方式,同时关注冷数据存储到OSS外表方式,不使用本地存储方式,能够支持查询就可以了。

2.说明展示

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 一.背景
  • 二.方案调研
  • 三.架构部署
  • 四.迁移实施
相关产品与服务
大数据
全栈大数据产品,面向海量数据场景,帮助您 “智理无数,心中有数”!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档