专栏首页大数据杂货铺Apache Ozone和密集型数据节点

Apache Ozone和密集型数据节点

该帖子也是由两名思科员工共同撰写的:Karthik Krishna,Silesh Bijjahalli

当今的企业数据分析团队不断寻求从平台中获得最大收益。存储在数据平台策略中扮演着最重要的角色,存储为在其之上构建所有计算引擎和应用程序提供了基础。企业还希望转向可提供密集存储以及可靠性、可扩展性和性能的横向扩展存储模型。Cloudera和Cisco已在密集型存储节点上一起进行了测试,以实现这一目标。

Cloudera已与Cisco合作,帮助构建适用于Apache Ozone的Cisco验证设计(CVD)。此CVD使用Cisco UCS S3260 M5机架服务器上的Cloudera Data Platform Private Cloud Base 7.1.5构建,Apache Ozone作为CDP的分布式文件系统。

Apache Ozone密集型的部署配置

Apache Ozone是CDP中引入的主要创新之一,该CDP为大数据应用程序提供了下一代存储体系结构,在该体系结构中,数据块在存储容器中进行组织以实现更大的规模并处理小对象。这是Apache Ozone如何在数据湖中大规模管理数据的主要体系结构增强。

Apache Ozone结合了HDFS和对象存储的优点:

  • 克服HDFS的限制
    • 与HDFS相比,它可以支持数十亿个文件(已测试多达100亿个文件),而HDFS的可扩展性阈值为4亿个文件
    • 目前可以支持400 TB /节点,并有可能在以后的某个时间点支持1 PB /节点,而HDFS最多只能支持100 TB /节点。
    • 支持与HDFS不同的16TB驱动器,HDFS仅支持多达8 TB的驱动器
    • EB级数据规模
  • 克服对象存储限制
    • 与其他对象存储不同,Apache Ozone可以支持线性性能的大文件。像HDFS一样,Apache Ozone将文件分成较小的块(其他对象存储无法做到这一点,并且由于大文件是通过大多数对象存储中的单个节点提供服务的,因此线性处理大型文件不会降低性能),而这些较小的块从所有不同的Apache Ozone节点读取,从而实现线性性能,而文件大小不会造成任何性能问题,从而解决了对象存储中经常遇到的大文件问题。
  • 将控制平面和数据平面分开,以实现高性能。支持从多个副本中快速读取
  • 使用distcp等熟悉的工具,可以轻松地将HDFS中的数据迁移到Apache Ozone。Apache Ozone可处理大型文件和小型文件。
  • Ozone使用recon提供了易于使用的监视和管理控制台
  • 从组件收集和聚合元数据并显示当前集群状态。
  • 集群中的元数据在组件之间是不相交的
  • 没有一个组件可以计算集群的整体状态。
  • 作为Ozone的用户/支持工程师,我可能要:
    • 查看卷/存储桶/键/容器/管道/数据节点的详细信息。
    • 给定一个文件,找出它属于什么节点/管道。
    • 找出跨数据节点以及在数据节点的磁盘内的数据分布是否良好。
    • 找出我的文件块是否丢失(或复制不足)
  • 支持计算和存储分离

测试方法

大规模数据生成

编写了一个数据生成器工具来为Ozone创建虚假数据。它的工作原理是将合成文件系统条目直接写入Ozone的OM、SCM和DataNode RocksDB,然后在DataNode上写入伪造的数据块文件。这比使用应用程序或其他客户端写入实际数据快得多。通过在集群中的所有存储节点上并行运行此工具,我们可以在不到一天的时间内填满集群中的所有400TB节点。

使用此工具,我们能够生成大量数据并在密集存储硬件上对Ozone进行认证。我们对产品进行了几项增强,以改进、扩展规模和提高性能,以处理每个节点的高密度。

标准基准

我们在此测试设置上对Impala TPC-DS性能进行了基准测试。使用的查询模板和样本查询符合TPC-DS基准规范所制定的标准,并且仅包含规范的4.2.3节所规定的较小的查询修改(MQM)。所有这些脚本都可以在impala-tpcds-kit中找到。运行此基准测试时,Impala本地缓存已打开。该测试的结果表明,与使用HDFS作为文件系统运行的相同查询相比,有70%的查询的性能相匹配或有所提高。

故障处理

一个或多个密集节点的丢失会触发大量的复制流量。为了提高数据的持久性和可用性,重要的是应从硬件故障中快速恢复文件系统。Ozone包括优化以从密集节点的丢失中有效恢复,包括使用Apache Ozone的multi-RAFT功能来获得更好的数据分配,并避免复制在较少的节点上成为瓶颈。

Cloudera将发布带有性能基准测试结果的单独博客文章。

思科数据智能平台

思科数据智能平台(CDIP)是一种私有云体系结构,可满足未来数据湖的下一代混合云体系结构的需要,它将大数据、AI /计算场和存储层结合在一起,可以作为一个整体工作同时还能够独立扩展以解决现代数据中心中的IT问题。该体系结构允许:

  • 极快的数据提取,并在数据湖上完成数据工程
  • AI计算场允许不同类型的AI框架和计算类型(CPU、GPU、FPGA)处理此数据以进行进一步分析
  • 存储层,允许在$ / TB较低的存储密集型系统上将数据扩展到EB级,从而提供更好的TCO
  • 使用Cisco Application Centric基础架构(ACI)通过一个玻璃管理面板无缝地将体系结构扩展到数千个节点

该架构是三个最大的开源计划与Hadoop,Kubernetes和AI / ML融合的开始,很大程度上是由Cloudera Data Platform Private Cloud基础和Cloudera Data Platform Private Cloud经验引入的令人印象深刻的软件框架和技术驱动的处理大数据。

思科UCS C240 M5机架服务器提供高密度,成本优化的本地存储,并为对象存储,Hadoop和大数据分析解决方案提供了广泛的基础架构灵活性。

该CVD为客户提供了进一步整合其数据湖的能力,每个数据节点的存储量更大。通过存储合并,Apache Ozone可带来以下成本节省和收益:

  • 降低基础设施成本
  • 降低软件许可和支持成本
  • 减少实验室的占地面积
  • 支持HDFS和S3的新的附加用例以及数十亿个对象以相似的方式支持大文件和小文件。

总结

具有Cloudera数据平台的CDIP私有云体验使客户能够独立扩展存储和计算资源,同时保持类似于上一代HDFS的数据本地性。它提供了具有低总体拥有成本(TCO)的EB级架构,以及采用Cloudera提供的最新一代技术的,面向未来的架构。

除此之外,CDIP还可以通过Cisco Intersight为整个基础架构提供一个单一的透明管理面板。

您可以在此处找到发布的Cisco验证设计文档。

原文作者:Karthik Krishnamoorthy& Ali Bajwa &Arpit Agarwal &Wei Chu &Marton Elek

原文链接:https://blog.cloudera.com/apache-ozone-and-dense-data-nodes/

文章分享自微信公众号:
大数据杂货铺

本文参与 腾讯云自媒体分享计划 ,欢迎热爱写作的你一起参与!

如有侵权,请联系 cloudcommunity@tencent.com 删除。
登录 后参与评论
0 条评论

相关文章

  • 腾讯大数据团队主导Apache社区新一代分布式存储系统Ozone 1.0.0发布

    近日,由腾讯大数据团队主导的Ozone 1.0.0版本在Apache Hadoop社区正式发布。经过2年多的社区持续开发和腾讯内部1000+节点的实际落地验证,...

    腾讯大数据
  • 0802-Cloudera Data Center7.1.3正式GA

    CDP Data Center是CDP(Cloudera Data Platform)的on-premise版本。这个新产品结合了Cloudera EDH和HD...

    Fayson
  • Hadoop 对象存储 Ozone

    Apache Hadoop 项目至今已经有十多年的历史了,作为大数据的基石,自从投放之社区之后就引来了不少的眼球,进而也孕育出了众多的Apache项目,例如HB...

    Fayson
  • Ozone安装部署指南

    Ozone 的安装和运行有多种方式,支持从简单的本地节点 docker 部署,到大规模多节点的 Kubernetes 或物理集群部署。

    从大数据到人工智能
  • 开源界的盛会来啦!要错过了解腾讯Apache生态最佳实践的机会吗?

    8月,一场盛夏的技术盛宴将要来啦!这就是ApacheCon Asia。作为开源界备受关注的会议之一,今年大会将持续3天,开设14+分论坛,内容覆盖从大数据到搜索...

    腾源会
  • 【存储】2022 年的 4 个开源对象存储平台

    介绍 在处理大量非结构化数据时,我们需要一个地方来存储它。我们选择存储数据的方式有很多种,但今天我们要关注的一种是对象存储或基于对象的存储。这是处理大量数据...

    首席架构师智库
  • 首届Apache Hadoop技术社区中国Meetup在京举办(附PPT)

    近日,在Apache Hadoop社区主导及邀请下,腾讯开源、腾讯大数据、腾讯云联合承办了Hadoop技术社区在中国的首次Meetup。围绕Hadoop技术实践...

    腾讯技术工程官方号
  • 首届Apache Hadoop技术社区中国Meetup在京举办(内附完整PPT)

    近日,在Apache Hadoop社区主导及邀请下,腾讯开源、腾讯大数据、腾讯云联合承办了Hadoop技术社区在中国的首次Meetup。围绕Hadoop技术实践...

    腾讯开源
  • 大咖预告 | Apache首次亚洲技术峰会:大数据专场

    2021 Apache首次亚洲虚拟技术峰会:大数据专场即将在8月6日-8月8日震撼来袭。腾讯云存储高级工程师程力将在8月7日14:50分和8月8日14:10分别...

    云存储
  • Hadoop Ozone如何巧妙利用Multi-Raft机制优化数据节点吞吐量

    背景 作为近期Hadoop社区的明星项目,Hadoop Ozone吸引了社区广泛的关注。它脱胎于HDFS,不仅同时支持文件系统和对象语义,能原生对接HDFS和...

    腾讯大数据
  • 开源项目介绍 |Apache Ozone-分布式大数据通用存储

    2021腾讯犀牛鸟开源人才培养计划 开源项目介绍 滑至文末报名参与开源人才培养计划 提交项目Proposal Apache Ozone项目介绍 标签:大数据...

    腾讯开源
  • 大数据架构前沿实践分享

    12月19日,9:00-12:40,由来自腾讯数据湖研发负责人邵赛赛老师出品的DataFunTalk年终大会——大数据架构论坛,将邀请来自腾讯、Tubi、车好...

    腾讯大数据
  • Apache基金会正式宣布新一代分布式对象存储Ozone成为顶级项目

    刚刚获悉,Apache基金董事会通过一致表决,正式批准分布式文件对象存储Ozone从Hadoop社区孵化成功,成为独立的Apache顶级开源项目。这意味着,作...

    腾讯开源
  • Apache之道在腾讯的探索与实践

    演讲人:单致豪 整    理:腾源会 本文4598字,阅读完成约为12分钟 Apache 软件基金会成立于 1999 年,迄今为止其管理着 2.27 亿多行代...

    腾源会
  • CDP私有云基础版7.1.6版本概要

    Cloudera于2021年3月宣布发布Cloudera Data Platform(CDP)私有云(PvC)基本版本7.1.6和Cloudera Manage...

    大数据杂货铺
  • 回顾 | 第二届DataFunSummit:大数据存储架构峰会合集

    [ 导语 ] 2022年3月26日,DataFun联合腾讯大数据及其他平台举办的第二届线上大数据存储架构峰会已经完美收官落幕。当日,腾讯大数据作为主办平台之一,...

    腾讯大数据
  • 腾讯开源之道:基于Apache之道的开源实践与探索

    8月6日,腾讯开源联盟主席、腾讯云开源生态总经理单致豪在2021 ApacheCon Asia上分享了腾讯对Apache之道的思考、探索与实践的历程。作为开源...

    腾讯开源
  • 腾讯云加速构建云原生数据仓库,助力企业数字化转型

    在企业数字化转型的当下,数据仓库的云端构建成为主流趋势,Gartner 预测,到2023年全球3/4的数据库都会跑在云上。

    腾讯云大数据

扫码关注云+社区

领取腾讯云代金券