将数据迁移到云:回到未来?

数百家公司现在已经证明,单一数据泄露可能会造成长期的经济,法律和品牌上的损失。除了数据保护之外,仅仅管理云中的数据是不同的,如果做法不当,成本,复杂性和风险会使一切毁于一旦。

如果你深入了解了要迁移到云的数据以及用来管理数据的云原生目录的就绪情况,你就有把握加快迁移速度。

我在最近的“赌场之夜”活动中,在21点上押上了所有筹码,并在最后一手牌大获全胜。同事对我的勇气大加赞赏,我还赢得了奖励(我们不是为了钱而赌博),他们问我为什么冒险下注,我回答说:“没有什么危险的。”

规划云迁移的大型企业也是如此。按需容量,低成本存储以及丰富的开源和商业工具生态系统的前景十分激动人心。但是风险是真实存在的,特别是在数据迁移方面。数百家公司现在已经证明,单一数据泄露可能会造成长期的经济,法律和品牌上的损失。除了数据保护之外,仅仅管理云中的数据是不同的,如果做法不当,成本,复杂性和风险会使一切毁于一旦。

将数据仓库或数据湖泊简单地“提升并转移”到云中将不会产生成本节省来证明这其中付出的合理性。对总拥有成本(TCO)和规模都有显著影响的云技术是低成本的对象存储(例如Amazon S3,ADLS)和弹性数据处理(EMR,Spark)。事实上,利用这些措施来建立一个弹性的(而不是固定的)数据管理云环境,这可以将总拥有成本降低85%之多。

管理云中的数据需要多少成本?

需要注意的是,降低数据存储成本的技术提供的数据管理功能要少得多。Hadoop比Teradata便宜很多,但它不提供成熟的RDBMS(Relational Database Management System,关系数据库管理系统)所具备的数据完整性控制、负载平衡和自动化。同样,S3比Hadoop数据节点上的存储更便宜,但它只是一个文件系统。没有表,字段或数据类型。如果你要在S3上查询或处理数据,你需要使用商业或开源工具(例如AWS Glue、EMR)或编写自定义程序。为了管理和更新S3中的数据,你需要一个数据管理工具(Redshift、Snowflake、Podium)。数据保护仅限于加密文件——当你想要分析在某些字段中具有PII的数据集时,数据保护功能不是很有用。尽管对象存储可扩展,价格低廉且灵活,但它使数据管理倒退了几十年。

与很多不成熟的技术一样,对象存储的局限性也被鼓吹为功能特性。它们“允许”程序员处理任意大小,形状或质量的数据,并解释其结构和内容。这种“读取模式(schema on read)”方法适于处理非结构化数据或频繁更改结构的数据。但它妨碍了自动化、标准化和规模化,这对于协作和重用来说至关重要,因为数据的含义隐藏在代码中。这听起来是不是很熟悉?是的。关系数据库的口号就是要使数据的结构和含义成为声明式的,而不是嵌入在COBOL重定义中(你可以去查)。

根据目录优先策略建立的纽带

高度结构化的数据库和“为所欲为”的对象存储之间的纽带是数据目录。目录是一个共享数据库,为对象库中的数据提供结构和含义。Hadoop目录包括HIVE、Atlas和Navigator,它们定义了HDFS文件如何构成表和字段。通过API,程序可以查询目录来查找逻辑数据对象的结构,其技术和业务属性,访问权限以及数据文件的位置。然后这些程序可以将洞察和结果推回到目录中以丰富它。

但是,很多云目录都是被动的——它们扫描文件和日志,在数据得到处理后推断数据的结构和使用。然而,数据管理必须是主动的,以确保敏感数据不会暴露,重要的数据标准得到了遵守,图谋不轨者不会实施不牢靠的计划。所有云迁移都应采用以目录为中心的策略:

•所有共享和敏感数据都在一个通用目录中注册

•所有程序都将通过目录访问数据并记录其活动

这使得公司可以提供支持各种快速发展的技术的基本数据管理。S3上的数据湖泊可以支持Hadoop处理、自定义PySpark代码、R分析,Amazon Glue等,同时维护(并丰富)共享数据资产。此外,人们还可以制定一个如何存储,更新和检查数据质量的标准,从而实现这些任务的自动化。

目录还支持弹性,这对云经济至关重要。目录可以在一台服务器上全天候提供使用,它支持业务用户购买数据,开发人员设计新数据产品,管理员检查质量并添加业务定义。只有数据处理任务(如数据加载、刷新、准备和分析)需要并行处理能力。关系数据库和Hadoop习惯上将存储,处理和目录结合在一个固定的系统中,随着数据的增长,成本会全线上升。在新的世界里,目录又是处理能力和廉价存储之间的桥梁。大量的数据可以通过目录进行合理管理,并且可以控制处理成本。实际上,如果目录具有分析统计信息(例如基数、最小值、最大值),那么它就可以优化数据的处理。

以目录为中心的另一个好处是可移植性。云供应商迫切希望你注册他们的集成的专有工具。这就是他们的策略——一旦他们的应用程序中拥有你的数据和代码,他们就掌握了你。目录为你提供了选择——我们确实在一个周末将一个客户从一家云供应商迁移到另一家供应商,因为另一家供应商是由目录驱动并自动化的。

在防火墙后面,目录优先策略是最好的,它使你对以目录为中心的战略做好准备。自动编目工具可以使你在几周内洞悉所有的数据资产(关系型、大型机、Hadoop、文件),并为你提供迁移剧本(playbook)。

•我们应该迁移什么资源?

• GDPR和PII数据在哪里?

•我们应该将哪些重复的和相关的数据合理化?

•什么是各个字段的配置文件,内容和质量?

人们的目标就是通过可验证的审计跟踪(audit trail)来创建云就绪(cloud-ready)数据,以证明其来源、血缘和质量。此外,目录通过对广泛用户群体的安全,自助访问为敏捷性和扩展性提供了基础。如果你深入了解了要迁移到云的数据以及用来管理数据的云原生目录的就绪情况,你就有把握加快迁移速度。

(来源:企业网D1Net)

原文发布于微信公众号 - 云计算D1net(D1Net02)

原文发表时间:2018-06-20

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏数据和云

招商银行王龙:金融科技银行数据架构设计的13条守则(含PPT)

作者简介:王龙,招商银行数据中心MySQL资深架构师,将MySQL引入招商银行,并从无到有建设MySQL生态,解决了MySQL在银行领域使用的诸多问题。

2215
来自专栏云计算D1net

重叠网络——什么让我们等了这么长时间?

虚拟化大获成功,是因为它实现了最初承诺的优势,包括优化硬件利用率,减少服务器泛滥和最大限度增加服务器硬件投资回报。这是通过以下途径实现的:对服务器的计算资源(C...

3497
来自专栏java一日一条

从“小白”到“白帽子黑客”的实用指南

早先,我也是半个黑客,经常在学校的教务系统看妹子。通过 URL 注入的方式,可以轻松进入别人的个人信息页。后来,又通过某种方式发现了管理员的账号,管理员又没有修...

1383
来自专栏Java架构沉思录

知乎大V@Phodal:小白也能看懂的Web安全进阶指南

早先,我也是半个黑客,经常在学校的教务系统看妹子。通过 URL 注入的方式,可以轻松进入别人的个人信息页。后来,又通过某种方式发现了管理员的账号,管理员又没有修...

1863
来自专栏腾讯技术工程官方号的专栏

2017 全球移动技术大会

导语 6月9日-10日,“2017年全球移动技术大会(GMTC)”在北京举行。会议为期两天,面向移动开发、前端、AI技术人员,聚焦前沿技术及实践经验,打造技术人...

3357
来自专栏喔家ArchiSelf

来吧,一个IoT应用设计

大量的研究表明,智能家居和可穿戴设备是目前最流行的物联网应用。嵌入式的MCU是这些物联网应用程序的核心。 然而,为了在这个快速而有竞争力的市场上成为一个有效的基...

1742
来自专栏福利活动清单

腾讯云学生优惠

腾讯云学生优惠相对于阿里云的槽点在于价格贵了6元一年,而且只能学生认证才能够购买。但是!但是腾讯云学生机可以选择搭配学生优惠的云数据库体验套餐,最低3元一月,还...

20K14
来自专栏云计算D1net

你为什么需要在云端构建Linux服务器?

云端Linux服务器比以往来得成本更低、性能更好。 要是你之前还没有启动过云端Linux服务器,眼下也许正是大好时机。原因何在因为你在短短几分钟内就能安装好一台...

6267
来自专栏人人都是极客

计算机的基本组成

严格来讲计算机从诞生到现在经历了很多阶段,已经发展成为一种自动地、高速地、精确地进行信息处理的电子设备,也是20世纪的重大发明之一。

1422
来自专栏互联网数据官iCDO

5招教你轻松获得手机App好评

引言:在应用程序方面,意见和评论也会影响到应用程序商店搜索结果的可见性,以及它们在app store中出现的概率。因此,如何能获得更多的好评呢?本文教你5招。 ...

3865

扫码关注云+社区

领取腾讯云代金券