云数据服务蜂拥而至...好难选呀

(译者补充:随着每个云提供商都提供了数十种数据服务,为您的需求选择合适的云数据服务比以往任何时候都更重要,更不用说为了省钱了。这文章就是教你如何选择适合自己的服务。)

传统的数据管理没有提供大数据或NoSQL中的可扩展性,但现在事情变得简单了。你可以从所选择的供应商购买存储,在上面添加数据库,并把你所有的工作负载放到上面。

然而,在新的世界里,每个应用程序都需要数据服务。目标服务可能听起来不错,但是多个工作负载意味着复杂的数据管道,跨不同存储库的多个数据副本以及复杂的数据移动和ETL(提取,转换,加载)过程。所有这些面向批处理的数据操作都无法实现实时分析。

随着单一用途的数据仓库增多,存储和计算成本迅速增长。像亚马逊和谷歌这样的公司纷纷涌入,出售有针对性的服务 ,从而以大量资金掠夺,利润更高,而且往往采用很坑的定价方案。

虽然这一切都很复杂,但现在是企业确实需要统一数据服务,这些数据服务应该具有更好的API多样性以及体积和速度的融合平衡性。对于如此复杂的数据管道或ETL,不需要这么多重复的副本。

以AWS为例子进行分析

亚马逊网络服务(AWS)提供10个以上的数据服务。每个服务都针对特定的访问模式和数据“temperature”进行了优化(参见下面的图1)。每种服务都有不同的(专有)API,以及基于容量,请求数量和类型,吞吐量等等的不同定价方案。

图 1

在大多数应用程序中,可以通过几种模式访问数据。例如,它可以写成流式,可以通过Hadoop读取为文件,或者由Spark读取。或者,当单个项目被更新,修改列表被视为流。通常的做法是将数据存储在多个存储库中,或将它们从一个存储位置到另一个存储位置,如图2所示。

图 2

图2显示了用于移动和存储SAME数据的六个服务(DynamoDB,DynamoDB Streams,S3,Lambda Redshift和Kinesis)。其中每个服务扮演一个小部分的功能角色,这种组合服务与支持多种工作负载类型的整体服务相比,应用程序耗费的容量和处理能力都高出很多。

AWS和其他服务商使用的流水线方法都具有一个主要缺点——太复杂了。例如,当数据在不同阶段之间漫游时,跟踪数据安全性和数据世系是非常困难的,因为上下文或身份可能在翻译中丢失。长管道也意味着结果会延迟很多,因为它们需要在被分析之前遍历多个阶段。

下面的图表可以指导:如何为每一个特定的工作选择合适的服务。

图 3
图 4

错误选择的代价很大

对于需要存储中等大小对象的应用程序,选择可能包括S3和DynamoDB(直观的决定是采取S3,因为它“更简单,更便宜”)。真的简单?… 太天真啦。

让我们来看看几个用例的数学运算分析:

使用AWS价格计算器,结果显示,对于案例1,使用DynamoDB显然成本较低,而对于案例2,S3更便宜。

这表明,即使传输率低(每秒低于1000个请求),S3的 IO和带宽成本远远超过通常所说的S3容量成本(每GB 3美分)。

对象大小

写入/秒

读取/秒

总容量

情况1

2KB

500

500

10 TB

案例2

64KB

50

50

10 TB

S3

DynamoDB

情况1

案例2

情况1

案例2

容量成本

236

236

2,679

2,557

请求成本

6,997

700

497

799

转出成本

221

711

222

712

总成本

7,552

1,786

3,398

4,068

$ / GB每月

0.76

0.18

0.34

0.41

请注意,对于一个公司使用20K请求/秒和10TB数据存储空间(零转出)的DynamoD。当所有NoSQL解决方案都可以放入一个主流服务器节点 ,公司将每年支付172,000美元(三年将超过50万美元,三年是服务器的平均寿命)。想象一下,用这些费用公司可以购买多少台本地服务器。

如果还是太慢,多交点钱呀!

关于AWS等云提供商的有趣之处在于,他们总是找到为同样的服务收费更多的方法。因为DynamoDB速度相当慢,所以如果您需要更快的访问速度,又不想修复它并使速度更快,那您现在可以购买专用的DynamoDB高速缓存加速器DAX,它将每月要我们多花$ 600- $ 10,000(还只是使用最低3节点的DAX)

概要

总的来说,现在是时候使用更智能的统一数据平台来处理不同形式的数据(数据流,文件,对象和记录),并将它们全部映射到可以一致地读写数据的通用数据模型中,不用管所要用的API。

随着高性能存储器(如快速闪存和非易失性存储器)的最新进展和商品化,不需要为“hot”和“cold”数据分离产品。分层逻辑应该在数据服务层面实现,而不是强迫应用程序开发人员编写不同的API去实现。

通过在通用平台上统一数据服务,我们可以节省成本,降低复杂性,提高安全性,缩短项目部署时间,缩短数据分析的时间(从第二天开始直到数据挖掘开始进行的时间)。

本文的版权归 fengziboboy 所有,如需转载请联系作者。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏云计算D1net

私有云和混合云成功的四个关键因素

许多企业希望获得云计算基础设施的敏捷性和成本效益,但是在部署实施云计算时,在复杂性和成本方面受到阻碍。此外,企业需要将云部署扩展到任何级别的能力,以及管理许多类...

34880
来自专栏java工会

阿里双十一购物节背后的技术问题

一年一度的双十一购物狂欢节又要来临了,你准备好剁手了吗?我每年都要购买好几百,有时候甚至是一千多的东西。不过以前我还没有考虑过这背后的技术问题,直到最近我做了一...

10020
来自专栏Java架构师进阶

10多年程序员总结的20多条经验教训

1.从小事做起,然后再扩展 无论是创建一个新的系统,还是添加功能到现有的系统中,我总是从一个简单到几乎没有任何所需功能的版本启动,然后再一步一步地解决问题,直到...

10320
来自专栏Java后端技术栈

“杀”一个程序员不需要用枪,改三次需求就可以了!

在很多软件公司,特别是一些创业型的团队中,对于这样的情景可能大家都很熟悉:项目经理或者产品经理(产品狗)口头或者简单记录一下软件产品的大致要做的功能,直接就让研...

13310
来自专栏腾讯云培训认证中心

腾讯云认证云从业者考试攻略

大家等待已久的考试攻略来啦! ...

8.4K1440
来自专栏安恒信息

邮箱安全第7期 | 邮箱大数据分析平台与异常预警模型

上一期我们谈到通过WEB应用防火墙技术来防护邮箱系统自身的安全问题,由此解决了应用层防护不当导致的邮箱系统被黑客技术入侵的问题,本期我们介绍针对邮箱系统整体大数...

456100
来自专栏刘望舒

App开发,怎样又快又稳又清晰

开发者的价值,是通过技术和产品体现的,对于App开发来说,除了实现业务之外,最重要的莫过于开发的速度、质量和可维护性,速度决定你能否支撑公司抢占市场,质量决定你...

11810
来自专栏带你撸出一手好代码

把网站做成软件

刚接触电脑那会,对软件的了解不如现在来的深切 ,那时候软件两个字在我脑海中的概念就是通过搜索引擎搜索结果或直接在浏览器地址栏中输入网址进入获取我需要的软件的网站...

36280
来自专栏云计算D1net

如何集成云层与本地存储

云和本地存储正走向越来越紧密的整合,于是云成为了另一个存储管理员可用的层级。 ? 组织不大可能把100%的数据都移到云服务上,但大多数企业都会至少想让一部分数据...

32360
来自专栏云计算D1net

云计算时代新机遇 促五大职业需求暴增

云计算概念始于20世纪60年代,如今已经存在了数年,但是在今年,随着云计算的发展,越来越多的公司开始希望利用它提升业务敏捷性,并减少开始。 随着云计算在当前的巨...

35260

扫码关注云+社区

领取腾讯云代金券