前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >混合云存储:大数据应用的上云之道

混合云存储:大数据应用的上云之道

作者头像
云存储
发布2020-06-29 12:10:24
3.3K0
发布2020-06-29 12:10:24
举报

企业数字化转型过程中,数据价值被显著放大,大数据应用成为不少企业探索的重点。

从技术上看,大数据业务由于数据体量大,且数据量很多时候呈急速膨胀状态;在进行大数据计算分析时,对资源的需求呈现浪涌式特征,又偶有突发性,因此通过上云充分发挥资源按需使用按需付费的优势,成为了不少企业在探索大数据应用时的常见模式。

这其中,企业在综合考量数据安全性、可扩展、可管理和成本效益等因素后,混合云部署的方式就成为了企业的主流选择。

近日,腾讯云存储高级产品经理贺永红在混合云主题论坛上发表演讲,详解了大数据应用上云的新思路。

01

企业自建大数据的难点

企业数据中心自建大数据业务,一般会遇到扩容的问题,随着大数据分析在业务价值挖掘上的作用愈加重要,新增及突发的分析任务越来越多,此时,趋于饱和使用率的硬件资源便会成为瓶颈,从提交预算申领设备到新设备加入分析集群,通常需要较长时间(有时会超过一个月),这样也会导致大数据计算结果延期交付。

随着时间推移,大数据中存储的数据越来越多,如何降低数据的存储成本,在需要的时候又能快速分析?

02

大数据混合云存储之道

大数据混合云存储将 IDC 大数据和公有云大数据连接为混合云,通过存算分离(计算与存储分离),实现计算弹性伸缩;通过数据全生命周期自动沉降实现存储低成本。

03

大数据混合云存储中的关键技术

1、存算分离

存算分离,计算与存储分离,计算基于标准 HDFS 协议访问存储,计算资源和存储资源各自按需扩容;计算资源可以分钟级按需创建及销毁,数据存储在 COS(Cloud Object Storage)「https://cloud.tencent.com/product/cos」统一存储层,集中存储、统一管理。

存算分离,让数据存储在云中对象存储 COS 上,计算集群直接分析 COS 中的数据,计算资源专注于计算,按需实现弹性伸缩,按需创建及销毁,不用维持冗余设备来保存数据;通过计算与存储分离,实现计算弹性伸缩,按需创建及销毁,可以节约大数据20-30%的成本。

2、高效存储

存储资源 COS(Cloud Object Storage)海量、无容量上限、无需扩容、按需供给,高效、平滑接入大数据生态、按需使用付费、通过生命周期策略自动沉降极致降低成本。

COS 中存储类型分为标准存储、低频存储和归档存储,通过配置数据全生命周期策略实现自动沉降:经常访问的数据放在标准存储,较少访问的数据放在低频存储,基本不访问的数据放在归档存储,以上三种存储类型,价格不同,例如归档存储刊例价就不到标准存储刊例价的1/3,数据自动沉降后成本节约20-30%。数据沉降归档后,能及时回热,需要用的时候能及时被计算集群访问。

3、统一管理

云上云下的统一管理,一致使用体验;在数据面,云上 COS 与 IDC 中 HDFS 统一元数据管理,实现全量数据 ETL(抽取、转换、装载)。在技术面,云上和云下均采用大数据开源组件,接入大数据开源生态,保持一致使用体验。

4、数据高效流动

云下与云上的数据流动,这里主要包括两种数据流动。

其一、数据在 IDC 与云上 COS 间快速水平流动;用户每天可往云上 COS 灌入200 TB+数据,基于 COS 海量并发设计,可进一步加粗上传管道,加速数据上云。数据下云,一般是结算结果返回到用户 IDC,这部分数据量比较小,是从海量沙子里掏出的金子,不存在技术挑战。

其二、数据在 EMR「https://cloud.tencent.com/product/emr」计算与 COS 存储间快速垂直流动,在 EMR 进行大数据计算时,需要在瞬间从 COS 中读取大量数据到 EMR 中进行计算,关键技术是 COS 的高性能,来满足数据的快速读写。

04

腾讯云大数据混合云存储实践

腾讯云大数据混合云存储方案,经历腾讯内部业务(微信、QQ、腾讯视频等)长期打磨而沉淀下来。

腾讯云大数据混合云存储,包括三层:混合大数据引擎、任务统一编排、数据开发平台:数据开发平台实现数据价值开发,包括用户画像、广告推荐等;任务统一编排实现大数据任务在 IDC 及云中全局调度及计算弹性伸缩;混合大数据引擎对 IDC 及云中大数据进行管理。

某头部游戏直播公司,大数据体量大,很早就成立了近百人的专业大数据团队,以支撑近百 P 规模的离线、实时流式数据的高效存储计算及数据科学探索。

其大数据架构如图,左边本地 IDC,右边腾讯云 EMR ON COS,通过专线打通,数据互通,优先上传分析用到的数据,将数据导入到腾讯云 COS 中;基于存算分离,通过腾讯云 EMR 产品创建的 Hadoop 集群分析已导入到 COS 中数据。分析任务结束后,销毁 EMR 集群,不再产生费用,COS 数据自动沉降进一步降低成本。

05

结语

腾讯云大数据混合云,能够实现大数据业务平滑上云,并实现对已有 IDC 硬件资源的合理利用,实现业务弹性伸缩,实现存储资源和计算资源的高效利用。

未来,腾讯云存储还将以业务场景为指引,推出更多高效的云存储方案,并结合生态资源,为用户提供更好的云上存储服务。

点击阅读原文,领取 COS 限时1元礼包!

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2020-06-28,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 腾讯云存储 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
对象存储
对象存储(Cloud Object Storage,COS)是由腾讯云推出的无目录层次结构、无数据格式限制,可容纳海量数据且支持 HTTP/HTTPS 协议访问的分布式存储服务。腾讯云 COS 的存储桶空间无容量上限,无需分区管理,适用于 CDN 数据分发、数据万象处理或大数据计算与分析的数据湖等多种场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档