日前,腾讯云高级工程师程力老师在 ArchSummit 全球架构师峰会上分享了存算分离架构下的数据湖架构。
针对存算分离架构带来的性能问题和数据本地性减弱问题,腾讯云的数据湖方案设计构建了新一代分布式计算端缓存层。该缓存不仅兼容 Hadoop 和对象语义,同时具备了结构化元数据管理的特性,还充分利用了对象存储 COS 的弹性伸缩和低成本的优势。
下面,让我们一起回顾下程老师的精彩演讲内容。
可分为4个阶段:
第一阶段:存算一体,孤岛
十几年前,网络速度远低于本地磁盘吞吐速度的时候,本地化读取数据可以换取更高的吞吐性能。但随着网络速度不断加快,磁盘吞吐速度逐渐成为计算瓶颈,本地盘 HDFS 压力加大,运维成本升高,可网络带宽资源却闲置,导致业务效率低下。
第二阶段:存算分离,存储、计算解耦
解耦计算和存储负载,系统负载均衡调度更加灵活,系统的资源利用率提高,节约成本,可以满足业务快速增长的需求。
第三阶段:数据湖,存储统一
随着业务多样化发展,业务间数据共享变得困难,而数据湖是一个集中式存储池,支持多种数据源,无缝对接各种计算分析和机器学习平台,实现数据处理与分析,打破数据孤岛。
第四阶段:云原生,计算统一
随着数据湖计算节点调度效率降低,云原生技术能构建和运行可弹性扩展的应用,跨多云构建微服务,持续交付部署业务生产系统。
腾讯云上的数据湖生态如上图所示,
以对象存储为底座的存算分离架构,腾讯云 COSN 对象⽂件系统接⼝:
1、GooseFS :计算端 - 湖仓缓存加速(Cache Accelerator)
特点如下:
2、元数据加速:数据端 - 元数据加速(Metadata Accelerator)
特点如下:
3、COS 加速器:存储端- AZ 加速(Data Accelerator)
特点如下:
方案1:TKE + GooseFS + COS 支持 OCR 搜索框架实例
方案2:GooseFS + COS + Tstor 支持云上云下打通应用实例
以上是程力老师分享内容的简要概括,更多精彩内容,可点击下方视频观看。
如您有疑问,请扫码加群与我们交流。
— END —
本文系转载,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。
本文系转载,前往查看
如有侵权,请联系 cloudcommunity@tencent.com 删除。