前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >三级加速,打造高性能云原生数据湖

三级加速,打造高性能云原生数据湖

作者头像
云存储
发布2021-03-18 10:26:32
1.1K0
发布2021-03-18 10:26:32
举报
文章被收录于专栏:腾讯云存储

日前,腾讯云专家工程师严俊明老师,在云+社区技术沙龙「云原生」专场,分享了基于对象存储的云原生数据湖最新技术突破,包括云原生数据湖业务场景以及技术架构。

下面,让我们一起回顾下严老师的精彩演讲内容。

一、大数据存储云原生趋势解析

第一阶段:存储一体,孤岛。十几年前,网络速度远低于本地磁盘吞吐速度的时候,本地化读取数据可以换取更高的吞吐性能。但随着网络速度不断加快,磁盘吞吐速度逐渐成为计算瓶颈,本地盘HDFS压力加大,运维成本升高,可网络带宽资源却闲置,导致业务效率低下。

第二阶段:存算分离,存储、计算解耦。 解耦计算和存储负载,系统负载均衡调度更加灵活,系统的资源利用率提高,节约成本,可以满足业务快速增长的需求。

第三阶段:数据湖,存储统一。随着业务多样化发展,业务间数据共享变得困难,而数据湖是一个集中式存储池,支持多种数据源,无缝对接各种计算分析和机器学习平台,实现数据处理与分析,打破数据孤岛。

第四阶段:云原生,计算统一。随着数据湖计算节点调度效率降低,云原生技术能构建和运行可弹性扩展的应用,跨多云构建微服务,持续交付部署业务生产系统。

二、对象存储架构及数据湖场景挑战

对象存储 COS 是腾讯云提供的一种存储海量文件的分布式存储服务,具有高扩展性、低成本、高可靠、高可用、EB级扩展能力。通过控制台、API、SDK 和工具等多样化方式,用户可简单、快速地接入 COS,进行多格式文件的上传、下载和管理,实现海量数据存储和管理。

相比传统分布式存储系统,COS 采用超大规模分布式存储引擎:YottaStore,可轻松操控百万级超大规模存储集群。YottaStore突破了单点Master的瓶颈,做到单集群可达百万节点的控制,且不需要拆分元数据。同时,元数据能存得更小,管理得更多,1Byte元数据可以管理2GB的物理空间。

此外,YottaStore是原生多AZ,在资源管理、调度考虑AZ,所有服务器共同承担吞吐,对数据一致性有天然的保障。加上分钟级RTO,RPO为0,可以彻底解放上层业务,数据冗余度低,存储成本大幅度减少。

为了支持以 COS 为中心的大数据存算分离架构以及云端数据湖,Apache Hadoop-3.3.0发布了COSN文件系统,兼容HCFS接口,全覆盖HDFS大数据计算应用。

而数据湖场景面临的主要有3点:

  • 元数据延时高
  • 元数据非原子性
  • 带宽需求大、成本高

三、对象存储数据湖三级加速

1. 元数据加速技术(用户侧)

文件组织以文件树形式管理,文件拆成块管理,块又会进一步拆解存储到对象存储 COS 上,是一种扁平化结构。支持目录级别并发,分区可扩展,也可跨分区。

加速读操作,尽可能内存化,从内存直接读取数据。

2. 缓存加速技术

元数据缓存到计算端(用户侧),提前预热数据,从本地直接读取,减少网络带宽限制,提高访问性能。

提高缓存命中率,提高资源利用率,极大降低网络带宽成本。

支持云原生部署,部署方式灵活

3. AZ数据加速技术——COS加速器(存储端)

  • AZ Locality
  • 专有加速域名访问资源;
  • 缓存数据强一致;
  • 可以加速Bucket,或者prefix;
  • 同一个Bucket,支持多个加速器
  • 支持存量Bucket,随时Enable/Disable;
  • 如果miss cache,从COS回源

四、EMR On COS 存算分离实践分享

Hive On COS 存算分离优化实践

hive的例子原本是存算一体架构,数据含有大量的本地化策略、逻辑。可数据上传到 COS 后,不再含有本地逻辑,会重新计算、切分数据大小,map从274个减少到5个,从而提高系统并发,降低系统运行时间。

Spark On COS 存算分离优化实践

spark采用串行、单线程操作,网路延时过大。存算分离实践对spark进行并发加速,加快单线程操作时间,从而提高spark的运行速度。

以上是严老师分享内容的简要概括,更多精彩内容,可以点击下方视频观看。

视频内容

关于我们

云+社区「腾讯云存储团队」主页,涵盖了腾讯云存储团队最新动态、团队信息、产品矩阵、技术文档、视频教程等,欢迎关注或留言,给出您的宝贵建议。

本文系转载,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文系转载前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 一、大数据存储云原生趋势解析
  • 二、对象存储架构及数据湖场景挑战
  • 三、对象存储数据湖三级加速
  • 四、EMR On COS 存算分离实践分享
  • 关于我们
相关产品与服务
对象存储
对象存储(Cloud Object Storage,COS)是由腾讯云推出的无目录层次结构、无数据格式限制,可容纳海量数据且支持 HTTP/HTTPS 协议访问的分布式存储服务。腾讯云 COS 的存储桶空间无容量上限,无需分区管理,适用于 CDN 数据分发、数据万象处理或大数据计算与分析的数据湖等多种场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档