专栏首页腾讯大数据的专栏腾讯大数据团队主导Apache社区新一代分布式存储系统Ozone 1.0.0发布

腾讯大数据团队主导Apache社区新一代分布式存储系统Ozone 1.0.0发布

近日,由腾讯大数据团队主导的Ozone 1.0.0版本在Apache Hadoop社区正式发布。经过2年多的社区持续开发和腾讯内部1000+节点的实际落地验证,Ozone 1.0.0已经具备了在大规模生产环境下实际部署的能力。

Ozone 是Apache Hadoop社区推出的新一代分布式存储系统,它的出现满足了大量小文件的存储问题,解决了Hadoop分布式文件系统在可扩展性上的缺陷。作为Hadoop生态圈的一款新的对象存储系统,能够支持百亿甚至千亿级文件规模的存储。

腾讯大数据团队Ozone项目负责人陈怡表示,作为大数据领域的领导厂商,腾讯是国内一线互联网公司中最早加入社区的,目前已经在Ozone项目上已经主导完成了集群网络拓扑感知的开发,以及数据写入Multi-Raft Pipeline功能的开发。同时,主导的StorageContainerManager(SCM) 高可用HA功能也正在开发中。

以集群网络拓扑感知来说,在传统的大数据构架下,有了网络拓扑结构,计算引擎的调度器可以将任务调度到离数据最近的节点来获取“数据的局部性”。即便是新兴的计算存储分离构架,同样也需要集群网络拓扑信息,来保证数据的故障容错能力和高可用性。

Ozone 架构图

陈怡进一步介绍说,在Ozone 的Alpha 发布后,腾讯内部的大数据平台上线了Ozone生产集群,承接了一部分业务的数据存储。随着数据服务体量的增加,逐渐发现Ozone写入性能显现出了一定的波动和瓶颈。基于这个发现,腾讯Ozone项目组设计并开发了数据写入Multi-Raft Pipeline功能,显著的提升了Ozone的写入吞吐量和性能。

此外,为了测试Ozone整体的稳定性和性能,作为部署应用的先锋小队,腾讯内部部署了一个1000个数据节点的集群。进行了长达几个月的稳定性和压力测试。期间团队遇到并解决了各种OOM、节点Crash、性能低于预期等问题。经过全面的优化之后,单集群1000个节点现已能长时间稳定运行,并且所有的数据都校验确认正确无误。

除了1000个节点集群的测试,1.0.0版本还进行10亿个元数据对象的测试和优化,进一步解决长期困扰HDFS的大量小文件问题。目前Ozone 1.0.0能够轻松支持10亿个10KB小对象的写入,同时元数据节点内存使用不超过64GB。

为了确保Ozone和Hive、Spark、Impala等计算框架的无缝对接,Ozone 1.0.0进行了和Hive LLAP、Spark以及Impala的集成测试。TPC-DS的测试表明,在100GB和1TB两种数据量大小下,Ozone总体比HDFS有3.5%的优势。

经过不断的测试和优化,升级后的Ozone 1.0.0在版本功能上有了质的跨越。除了支持 Hadoop Compatible FileSystem、Hadoop 2.x以及 Hadoop3.x环境,Ozone 1.0.0还兼容Hadoop生态的Kerberos认证体系,支持数据的用户无感知加密存放和Ranger授权集成、GDPR “Right to Erasure”以及网络构架感知。

未来,腾讯大数据将继续发挥自身技术优势和积累,在Ozone的基础上开发基于SCM的新一代高性能分布式文件系统,并持续推进Ozone在更多腾讯内外部业务的实践落地,部署更大规模的生产集群。同时,进一步拥抱开源,深度参与Hadoop社区,提高Ozone的可靠性、稳定性和性能,将其打造成新一代大数据文件和对象混合存储系统。

除了在Ozone 项目上的贡献之外,近年来腾讯大数据在开源领域的贡献正在逐步加速,目前已完成了大数据核心能力全开源。同时,还结合实际业务场景推动开源技术加速落地,通过技术实践和创新持续回馈社区贡献开源。在Apache基金会的大数据项目上,腾讯已经为主流的Hadoop、Spark、Flink等项目贡献了大量的特性和patch。

扫码关注 | 即刻了解腾讯大数据技术动态

文章分享自微信公众号:
腾讯大数据

本文参与 腾讯云自媒体分享计划 ,欢迎热爱写作的你一起参与!

如有侵权,请联系 cloudcommunity@tencent.com 删除。
登录 后参与评论
0 条评论

相关文章

  • Apache基金会正式宣布新一代分布式对象存储Ozone成为顶级项目

    刚刚获悉,Apache基金董事会通过一致表决,正式批准分布式文件对象存储Ozone从Hadoop社区孵化成功,成为独立的Apache顶级开源项目。这意味着,作...

    腾讯开源
  • 星火计划 | 面向数据湖的下一代大数据存储——Ozone技术沙龙火热报名中

    导语:大数据技术与应用不断演进,数据存储需求愈发多元、复杂,由此催生了许多新的存储系统,以支撑上层业务系统运行,技术生态也日益繁荣。 Ozone就是Hadoo...

    腾讯大数据
  • 腾讯开源之道:基于Apache之道的开源实践与探索

    8月6日,腾讯开源联盟主席、腾讯云开源生态总经理单致豪在2021 ApacheCon Asia上分享了腾讯对Apache之道的思考、探索与实践的历程。作为开源...

    腾讯开源
  • 腾讯云大数据团队:认真做开源的人,眼里有光

    前段时间,Oracle 正式发布了 JDK 15,同时作为惯例公布了 OpenJDK 全球贡献者榜单,表达了对这些企业与个人开发者的感谢。其中,Oracle 依...

    腾讯开源
  • 腾讯云加速构建云原生数据仓库,助力企业数字化转型

    在企业数字化转型的当下,数据仓库的云端构建成为主流趋势,Gartner 预测,到2023年全球3/4的数据库都会跑在云上。

    腾讯云大数据
  • 腾讯云加速构建云原生数据仓库,助力企业数字化转型

    在企业数字化转型的当下,数据仓库的云端构建成为主流趋势,Gartner 预测,到2023年全球3/4的数据库都会跑在云上。 12月20日,腾讯2020 Tec...

    腾讯QQ大数据
  • 开源界的盛会来啦!要错过了解腾讯Apache生态最佳实践的机会吗?

    8月,一场盛夏的技术盛宴将要来啦!这就是ApacheCon Asia。作为开源界备受关注的会议之一,今年大会将持续3天,开设14+分论坛,内容覆盖从大数据到搜索...

    腾源会
  • Apache之道在腾讯的探索与实践

    演讲人:单致豪 整    理:腾源会 本文4598字,阅读完成约为12分钟 Apache 软件基金会成立于 1999 年,迄今为止其管理着 2.27 亿多行代...

    腾源会
  • 大数据架构前沿实践分享

    12月19日,9:00-12:40,由来自腾讯数据湖研发负责人邵赛赛老师出品的DataFunTalk年终大会——大数据架构论坛,将邀请来自腾讯、Tubi、车好...

    腾讯大数据
  • Hadoop Meetup 现场直播

    自2006年诞生以来,Hadoop技术与社区已走过了13个年头,在经历了大数据技术高速发展之后,迎来了3.x时代。Hadoop如何在腾讯、阿里、滴滴、小米、美团...

    腾讯开源
  • 首届Hadoop技术社区中国meetup来袭!对外报名正式启动!

    自2006年诞生以来,Hadoop技术与社区已走过了13个年头,在经历了大数据技术高速发展之后,迎来了3.x的时代。这些年来,Hadoop如何在腾讯、阿里、滴滴...

    腾讯技术工程官方号
  • 大咖预告 | Apache首次亚洲技术峰会:大数据专场

    2021 Apache首次亚洲虚拟技术峰会:大数据专场即将在8月6日-8月8日震撼来袭。腾讯云存储高级工程师程力将在8月7日14:50分和8月8日14:10分别...

    云存储
  • 大数据江湖十年:腾讯底层技术的进化往事

    生活不可能像你想象得那么好,但也不会像你想象得那么糟。人的脆弱和坚强都超乎自己的想象。有时,我们可能脆弱得一句话就泪流满面,有时,也发现自己咬着牙走了很长的路。...

    腾讯大数据
  • 首届Apache Hadoop技术社区中国Meetup在京举办(附PPT)

    近日,在Apache Hadoop社区主导及邀请下,腾讯开源、腾讯大数据、腾讯云联合承办了Hadoop技术社区在中国的首次Meetup。围绕Hadoop技术实践...

    腾讯技术工程官方号
  • 首届Apache Hadoop技术社区中国Meetup在京举办(内附完整PPT)

    近日,在Apache Hadoop社区主导及邀请下,腾讯开源、腾讯大数据、腾讯云联合承办了Hadoop技术社区在中国的首次Meetup。围绕Hadoop技术实践...

    腾讯开源
  • 开源项目介绍 |Apache Ozone-分布式大数据通用存储

    2021腾讯犀牛鸟开源人才培养计划 开源项目介绍 滑至文末报名参与开源人才培养计划 提交项目Proposal Apache Ozone项目介绍 标签:大数据...

    腾讯开源
  • 回顾 | 第二届DataFunSummit:大数据存储架构峰会合集

    [ 导语 ] 2022年3月26日,DataFun联合腾讯大数据及其他平台举办的第二届线上大数据存储架构峰会已经完美收官落幕。当日,腾讯大数据作为主办平台之一,...

    腾讯大数据
  • Hadoop Ozone如何巧妙利用Multi-Raft机制优化数据节点吞吐量

    背景 作为近期Hadoop社区的明星项目,Hadoop Ozone吸引了社区广泛的关注。它脱胎于HDFS,不仅同时支持文件系统和对象语义,能原生对接HDFS和...

    腾讯大数据
  • 开源新发布 | Apache InLong(incubating) 进入1.0 时代!

    点击蓝字关注 | 更多腾讯大数据资讯 Apache InLong(应龙)是一个一站式的海量数据集成平台,提供自动、安全、可靠和高性能的数据传输能力,同时支持批和...

    腾讯大数据

扫码关注云+社区

领取腾讯云代金券