前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >存算分离架构下的数据湖架构

存算分离架构下的数据湖架构

作者头像
云存储
发布2021-05-28 15:52:16
2.8K0
发布2021-05-28 15:52:16
举报

日前,腾讯云高级工程师程力老师在 ArchSummit 全球架构师峰会上分享了存算分离架构下的数据湖架构。

针对存算分离架构带来的性能问题和数据本地性减弱问题,腾讯云的数据湖方案设计构建了新一代分布式计算端缓存层。该缓存不仅兼容 Hadoop 和对象语义,同时具备了结构化元数据管理的特性,还充分利用了对象存储 COS 的弹性伸缩和低成本的优势。

下面,让我们一起回顾下程老师的精彩演讲内容。

一、数据存储发展趋势

图片
图片

可分为4个阶段:

第一阶段:存算一体,孤岛

十几年前,网络速度远低于本地磁盘吞吐速度的时候,本地化读取数据可以换取更高的吞吐性能。但随着网络速度不断加快,磁盘吞吐速度逐渐成为计算瓶颈,本地盘 HDFS 压力加大,运维成本升高,可网络带宽资源却闲置,导致业务效率低下。

第二阶段:存算分离,存储、计算解耦

解耦计算和存储负载,系统负载均衡调度更加灵活,系统的资源利用率提高,节约成本,可以满足业务快速增长的需求。

第三阶段:数据湖,存储统一

随着业务多样化发展,业务间数据共享变得困难,而数据湖是一个集中式存储池,支持多种数据源,无缝对接各种计算分析和机器学习平台,实现数据处理与分析,打破数据孤岛。

第四阶段:云原生,计算统一

随着数据湖计算节点调度效率降低,云原生技术能构建和运行可弹性扩展的应用,跨多云构建微服务,持续交付部署业务生产系统。

二、云原生生态下的存算分离

图片
图片

腾讯云上的数据湖生态如上图所示,

  • 数据湖底座:对象存储 COS;
  • 云原生:serverless 架构,免运维;
  • 数据共享:通过统一的对象存储 COS 作为弹性底座,结合三层加速器接入多种生态;
  • 结构化数据管理:感知数据 Table 格式,支持按照 Hive Table 预热,支持 IcebergTable 管理等;
  • 高性价比:弹性、按需扩容;
  • 生态支持:支持 Hadoop 生态,K8S 生态等多种生态的部署、运维、鉴权等;
  • 面向业务场景包括:数据本地性加强、 数据湖结构化、容器化调度。

以对象存储为底座的存算分离架构,腾讯云 COSN 对象⽂件系统接⼝:

  • 实现了 HCFS 接⼝,全覆盖 HDFS ⼤数据计算应⽤;
  • 实现了⽂件系统的扩展属性管理接⼝,允许⽤户对⽂件和⽬录设置 xAttr 的扩展属性;
  • 实现了包含 CVM/EMR instance ⾓⾊授权以及临时密钥访问的凭证获取机制。

三、腾讯云数据湖三层加速

图片
图片

1、GooseFS :计算端 - 湖仓缓存加速(Cache Accelerator)

图片
图片

特点如下:

  • 运⾏在 EMR/AI/ML/K8S 集群内,基于集群 MEM/SSD 资源,提供 Data Cache 能⼒;
  • 热数据缓存在 Cache 中,对象存储保存全量数据;
  • 针对各种计算引擎,提供 Data Locality 能⼒;
  • 提供磁盘模式和内存模式,⽀持淘汰机制。

2、元数据加速:数据端 - 元数据加速(Metadata Accelerator)

特点如下:

  • 提供⽂件系统级别元数据操作能⼒;
  • Rename 操作,无需 Copy/Delete 数据;
  • List 操作,无频控;
  • 每个 Bucket,提供10 万QPS。
图片
图片

3、COS 加速器:存储端- AZ 加速(Data Accelerator)

特点如下:

  • AZ 级部署,全 SSD 存储介质,热数据读加速;
  • 提供 Tbps 带宽,满⾜⾼吞吐需求;
  • 提供 ms 级别时延。

四、案例方案

方案1:TKE + GooseFS + COS 支持 OCR 搜索框架实例

图片
图片

方案2:GooseFS + COS + Tstor 支持云上云下打通应用实例

图片
图片
  • IOT 数据(⻋载数据、摄像头数据)上传到本地数据中心 TStor 对象存储;
  • 本地⼤数据集群通过 GooseFS 加速数据访问,完成数据清洗和标注,⽣成训练数据集;
  • TStor ⾃动同步训练数据集到云上 COS 对象存储;
  • 在云上按需拉起 GPU 训练集群,通过 GooseFS 加速,完成 AI 模型训练。

以上是程力老师分享内容的简要概括,更多精彩内容,可点击下方视频观看。

视频内容

如您有疑问,请扫码加群与我们交流。

图片
图片

— END —

本文系转载,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文系转载前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 一、数据存储发展趋势
  • 二、云原生生态下的存算分离
  • 三、腾讯云数据湖三层加速
  • 四、案例方案
相关产品与服务
对象存储
对象存储(Cloud Object Storage,COS)是由腾讯云推出的无目录层次结构、无数据格式限制,可容纳海量数据且支持 HTTP/HTTPS 协议访问的分布式存储服务。腾讯云 COS 的存储桶空间无容量上限,无需分区管理,适用于 CDN 数据分发、数据万象处理或大数据计算与分析的数据湖等多种场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档