11月29日~12月1日,首届 CCF 中国存储大会(CCF ChinaStorage 2024)在广州拉开序幕。会议以“存力、算力、智力”为主题,是一场汇集海内外著名高校和产业界的院士、国家高层次人才等出席的计算存储智算的学术与产业盛会。
会中,腾讯云存储荣获2024《存储产业先锋奖》的殊荣,腾讯云存储相关论文《GooseFS: Distributed Cache Service to Enhance Cloud Object Storage Performance》入选 NAS 2024 国际学术研讨会。
NAS2024是一个高质量的国际学术交流平台,汇集了来自学术界和工业界的研究人员和从业者,讨论并行和分布式数据存储技术的前沿研究。通过参与科学院的研究项目、撰写学术论文、举办学术会议和研讨会等方式,不断推动人工智能领域的前沿探索和实践应用。
论文背景及介绍
在公有云存储市场上,以高水平扩展性和低成本为锚点的对象存储,已经成为了用户在众多场景下海量数据的首选存储解决方案。然而,由于对象存储的数据组织和实现方式,其元数据操作性能较低,例如 List 之类的元数据操作无法同时实现高性能与强一致性。另一方面,原生对象存储低成本磁盘和集群也存在时延和吞吐的制约,对象存储尤其在海量小文件的数据访问上性能较低,导致在海量数据分析、自动驾驶训练,AIGC等高性能存储场景无法直接使用对象存储。
本次峰会腾讯云存储研发总监程力针对入选论文做了专题报告,提出了 GooseFS 一个搭建在对象存储之上的分布式高性能文件系统,实现了存储计算分离架构下,对象存储的加速访问。GooseFS 引入了三个关键设计:
1. 计算端缓存,以多级粒度缓存管理和短路读机制降低了随机小 IO 下的数据访问时延。
2. 存储端缓存,以高性能 SSD 缓存池提高了面对顺序 IO 时的吞吐率。
3. 元数据加速,通过特殊的元数据组织和无锁的强一致性缓存大幅提高了元数据操作的性能。实验结果表明,相比原生对象存储,GooseFS 的吞吐量提升了8~10倍,同时降低了90%的存储带宽消耗,满足了多种工作负载对高性能要求。
程力现场分享论文成果
挑战与机遇
以对象存储作为存储底座支持如海量数据分析和 AIGC 等大数据工作负载,满足其对存储层高吞吐、低延迟和低成本的需求,存在诸多挑战。
1. 由于面向公网提供存储服务,对象存储的 IO 路径相对复杂;同时由于对象存储提供Region 级的存储服务,还可能有跨数据中心的流量。综合导致了对象存储的数据IO延迟高
2. 对象存储的数据吞吐表现不佳,尤其是面向 AI 和大数据分析的海量随机小IO时,数据吞吐进一步受限。
3. 对象存储的元数据操作效率低下。例如路径解析过程依赖于频繁的ListObjects 操作,导致读操作效率相当低;rename 操作需要分解为递归的 list+copy+delete 操作,也存在效率低下问题。而在 AI 与大数据工作负载中,读操作占比超过了92%,rename 操作占比也达到了4.51%。
整个 GooseFS 包含一个计算集群、元数据集群和数据集群。
计算集群由众多计算节点构成,客户端部署在上面发起请求。计算集群上部署了计算端缓存,用以降低数据 IO 延迟。
在数据集群中部署有存储端缓存,以全闪存储消化来自计算节点的随机小 IO,实现系统带宽的提升。
元数据集群包含众多元数据服务器,通过企业级分布式数据库管理文件元数据,实现元数据操作的加速。
今天,腾讯云对象存储已经广泛部署在全球近百个可用区,通过块存储 EBS、对象存储 COS、数据湖 GooseFS、数据万象CI与企业网盘 TCED、备份容灾等服务云上数百万的客户,覆盖政企、互联网、金融、零售、制造、医疗等千行百业。