Apache Ozone和密集型数据节点

大数据杂货铺

发布于 2021-04-30 10:51:30

1.4K0

发布于 2021-04-30 10:51:30

文章被收录于专栏：大数据杂货铺

该帖子也是由两名思科员工共同撰写的：Karthik Krishna，Silesh Bijjahalli

当今的企业数据分析团队不断寻求从平台中获得最大收益。存储在数据平台策略中扮演着最重要的角色，存储为在其之上构建所有计算引擎和应用程序提供了基础。企业还希望转向可提供密集存储以及可靠性、可扩展性和性能的横向扩展存储模型。Cloudera和Cisco已在密集型存储节点上一起进行了测试，以实现这一目标。

Cloudera已与Cisco合作，帮助构建适用于Apache Ozone的Cisco验证设计（CVD）。此CVD使用Cisco UCS S3260 M5机架服务器上的Cloudera Data Platform Private Cloud Base 7.1.5构建，Apache Ozone作为CDP的分布式文件系统。

Apache Ozone密集型的部署配置

Apache Ozone是CDP中引入的主要创新之一，该CDP为大数据应用程序提供了下一代存储体系结构，在该体系结构中，数据块在存储容器中进行组织以实现更大的规模并处理小对象。这是Apache Ozone如何在数据湖中大规模管理数据的主要体系结构增强。

Apache Ozone结合了HDFS和对象存储的优点：

克服HDFS的限制
- 与HDFS相比，它可以支持数十亿个文件（已测试多达100亿个文件），而HDFS的可扩展性阈值为4亿个文件
- 目前可以支持400 TB /节点，并有可能在以后的某个时间点支持1 PB /节点，而HDFS最多只能支持100 TB /节点。
- 支持与HDFS不同的16TB驱动器，HDFS仅支持多达8 TB的驱动器
- EB级数据规模

克服对象存储限制
- 与其他对象存储不同，Apache Ozone可以支持线性性能的大文件。像HDFS一样，Apache Ozone将文件分成较小的块（其他对象存储无法做到这一点，并且由于大文件是通过大多数对象存储中的单个节点提供服务的，因此线性处理大型文件不会降低性能），而这些较小的块从所有不同的Apache Ozone节点读取，从而实现线性性能，而文件大小不会造成任何性能问题，从而解决了对象存储中经常遇到的大文件问题。

将控制平面和数据平面分开，以实现高性能。支持从多个副本中快速读取

使用distcp等熟悉的工具，可以轻松地将HDFS中的数据迁移到Apache Ozone。Apache Ozone可处理大型文件和小型文件。
Ozone使用recon提供了易于使用的监视和管理控制台

从组件收集和聚合元数据并显示当前集群状态。
集群中的元数据在组件之间是不相交的
没有一个组件可以计算集群的整体状态。
作为Ozone的用户/支持工程师，我可能要：
- 查看卷/存储桶/键/容器/管道/数据节点的详细信息。
- 给定一个文件，找出它属于什么节点/管道。
- 找出跨数据节点以及在数据节点的磁盘内的数据分布是否良好。
- 找出我的文件块是否丢失（或复制不足）
支持计算和存储分离

测试方法

大规模数据生成

编写了一个数据生成器工具来为Ozone创建虚假数据。它的工作原理是将合成文件系统条目直接写入Ozone的OM、SCM和DataNode RocksDB，然后在DataNode上写入伪造的数据块文件。这比使用应用程序或其他客户端写入实际数据快得多。通过在集群中的所有存储节点上并行运行此工具，我们可以在不到一天的时间内填满集群中的所有400TB节点。

使用此工具，我们能够生成大量数据并在密集存储硬件上对Ozone进行认证。我们对产品进行了几项增强，以改进、扩展规模和提高性能，以处理每个节点的高密度。

标准基准

我们在此测试设置上对Impala TPC-DS性能进行了基准测试。使用的查询模板和样本查询符合TPC-DS基准规范所制定的标准，并且仅包含规范的4.2.3节所规定的较小的查询修改（MQM）。所有这些脚本都可以在impala-tpcds-kit中找到。运行此基准测试时，Impala本地缓存已打开。该测试的结果表明，与使用HDFS作为文件系统运行的相同查询相比，有70％的查询的性能相匹配或有所提高。

故障处理

一个或多个密集节点的丢失会触发大量的复制流量。为了提高数据的持久性和可用性，重要的是应从硬件故障中快速恢复文件系统。Ozone包括优化以从密集节点的丢失中有效恢复，包括使用Apache Ozone的multi-RAFT功能来获得更好的数据分配，并避免复制在较少的节点上成为瓶颈。

Cloudera将发布带有性能基准测试结果的单独博客文章。

思科数据智能平台

思科数据智能平台（CDIP）是一种私有云体系结构，可满足未来数据湖的下一代混合云体系结构的需要，它将大数据、AI /计算场和存储层结合在一起，可以作为一个整体工作同时还能够独立扩展以解决现代数据中心中的IT问题。该体系结构允许：

极快的数据提取，并在数据湖上完成数据工程
AI计算场允许不同类型的AI框架和计算类型（CPU、GPU、FPGA）处理此数据以进行进一步分析
存储层，允许在$ / TB较低的存储密集型系统上将数据扩展到EB级，从而提供更好的TCO
使用Cisco Application Centric基础架构（ACI）通过一个玻璃管理面板无缝地将体系结构扩展到数千个节点

该架构是三个最大的开源计划与Hadoop，Kubernetes和AI / ML融合的开始，很大程度上是由Cloudera Data Platform Private Cloud基础和Cloudera Data Platform Private Cloud经验引入的令人印象深刻的软件框架和技术驱动的处理大数据。