简介
在Hammerspace全局数据平台中,元数据不仅用于描述您的数据,还用于主动管理和保护数据。这种以元数据为中心的方法利用服务级别目标 (SLOs) 来自动化数据的保护策略,确保在整个环境中高效、安全地管理数据。
本文详细介绍了Hammerspace下的元数据如何负责保护数据以及如何通过多种手段满足RPO和RTO要求。
为什么用元数据来实现数据保护是有意义的?
Hammerspace独特的架构将元数据层与数据层分离,然后使用称为服务级别目标(SLOs) 的声明性策略来自动执行数据的保护和移动。
使用元数据实现自动化的数据保护有以下优点:
1. 元数据实现集中控制:元数据是Hammerspace数据平台的智能核心,它记录每个数据的位置、访问模式和策略,即使在数十亿文件的大规模下也能实现高效管理。这种集中化简化了数据复制、迁移和恢复等操作。
2. 按照服务级别目标(SLOs)自动执行:通过定义SLOs,组织可以定义数据的可用性、持久性和性能等期望的结果。元数据数据库会自动执行这些SLOs,无需人工干预即可协调数据放置、复制和访问控制。
3. 效率和可扩展性:管理数十亿个独立文件非常复杂,而且需要耗费大量资源。相比之下,元数据数据库可以更高效地处理数十亿条记录,利用先进的数据库技术进行索引、事务管理和优化存储。这使得备份、复制和恢复操作更快、更可靠。
4. 元数据驱动的数据保护:在元数据的控制下,系统可以快速做出明智的决策,优化资源利用率并最大限度地减少停机时间。这确保数据按照组织策略受到保护,并动态适应环境的变化。
5. 使用校验和来保证数据完整性:Hammerspace元数据数据库维护数据的校验和,以保证数据随着时间的推移始终正确。
保护包含数十亿条记录的数据库比保护包含数十亿个单独文件的文件系统效率高得多。原因如下图 1 所示。
《图 1 – 为何保护元数据数据库会更高效》
Hammerspace中保护元数据的全面、多层方法
Hammerspace全局数据平台采用全面的多层方法,确保可靠地存储和保护元数据。这种方法包括五种不同类型的冗余,每种冗余都能够实现多级复制“双向、三向甚至N向冗余”,以满足组织对数据保护的要求。
下面图 2 总结了这些方法,然后进行了更详细的描述。
《图 2 – Hammerspace多层元数据保护方法》
定义:
方法1 - 元数据服务器(Anvils)块存储镜像
元数据服务器(称为Anvil)可以使用直连存储 (DAS)内置NVMe磁盘或可靠的块存储设备。
直连存储 (DAS):
利用Anvil服务器中的本地SSD或NVMe磁盘,并通过镜像来防止驱动器故障。
可靠的块存储(可选):
采用高可靠的块存储解决方案,如SAN存储或云中的EBS存储,可提供原生的冗余。
零RPO(恢复点目标):不丢失已存储的数据。
零RTO(恢复时间目标):不间断数据访问,只有短暂的元数据停顿。
无性能影响:对正在运行的系统影响最小。
非常适合需要立即故障转移功能的单一可用区域内的场景。
支持同一可用区域内的多种冗余配置(例如,双向、三向、N向镜像)。
SAN是可选,许多场景下直连存储DAS+NVMe会更好,因为它性能最佳。
方法2 - 集群内元数据服务器(Anvils)之间同步
元数据数据库会自动同步镜像到Hammerspace集群中的两个或三个Anvil节点。建议将Anvil分开部署,以减少它们同时全部停机的可能性,因为停机会影响文件系统的可用性。只需使用不同的供电线路并将它们安装在不同的机柜中,但集群延伸是一种具有低延迟连接的选项,使用集群延伸,Anvil可能位于园区内或城市区域内的不同建筑物中。
同步复制:元数据通过低延迟连接在Anvil节点之间即时复制。
自动故障转移:利用包括Pacemaker和Corosync在内的第三方工具在节点之间实现自动故障转移。
零RPO和零RTO:确保无数据丢失和不间断访问。
高可用性:提供跨可用区节点故障的恢复能力。
推荐用于所有Hammerspace部署,绝对是最佳实践。
可根据Anvil节点数量配置多个冗余级别(例如,双向、三向)。
Anvil之间需要低延迟链接,以确保元数据复制不会影响系统性能。
方法3 - Hammerspace集群中Anvil之间元数据异步复制
元数据使用共享对象存储或云存储在完全独立的Hammerspace集群中的Anvil之间异步复制。这可能涉及数十个站点在具有更高延迟连接的完全不同的数据中心之间进行复制。
异步复制:元数据以可配置的间隔进行复制,通常以秒为单位。
“Active-Active”双活全局命名空间:所有站点都维护一个命名空间,以实现持续可用性。
将风险降低至最小:RPO以秒为单位。
零RTO:即使在复制期间共享命名空间仍然可用。
站点的独立性:可在高延迟或间歇性连接下工作。断开连接的站点(因设计或意外而断开)仍可继续正常运行。当站点连接恢复时,元数据同步将“赶上”。任何文件更改冲突都可使用版本消除歧义。
用例:非常适合需要跨不同数据中心或区域实现高可用性的地理分布环境,包括全球运营。
支持多个复制目标,允许跨站点实现双向、三向或N向冗余。
虽然开销很小,但高延迟或大量复制目标会降低性能。对客户端的主要影响是当他们访问另一个站点存储上的数据时,而且只是第一次访问,第二次开始不影响。
方法4 - 元数据数据库的定期检查点
系统定期创建元数据数据库的检查点,并将其作为备份存储起来以供恢复。可以维护多个检查点以提供多个恢复点。
检查点:元数据以可配置间隔定期保存(例如每小时、每天)。
存储:检查点存储在NAS或对象存储中,也可以存储在异地以增加安全性。
Anvil预安装:Anvil可以预安装并准备好从检查点恢复,从而减少恢复时间。
灾难恢复:在发生灾难性故障时提供后备选项。
性能影响:检查点期间对系统性能的影响可以忽略不计。
推荐用于所有Hammerspace部署,作为防止灾难性故障的第二层保护。
可以维护多个检查点(例如每小时、每天、每周)以增强保护。
如果数据集较大,从备份中恢复将花费更长时间,可能需要数小时,具体取决于元数据量。
方法5 - 将元数据导出为JSON格式以进行文件系统重建
元数据可以导出为JSON格式,这样文件系统就可以独立于Hammerspace系统进行重构。可以维护多个导出文件,以实现随时间推移的N向冗余。
元数据导出:将元数据转储为独立格式,如JSON或包含引用数据实例的符号链接的tar文件。
文件系统重建:Python脚本等工具可以根据导出的元数据重建文件系统。
数据可移植性:允许移动或恢复数据,而无需依赖原始元数据服务器。
灾难恢复:通过直接数据分解提供额外的保护层。
适用于长期归档、迁移或在没有Hammerspace的情况下恢复数据的场景。
可以管理和维护多个导出,随着时间的推移提供N向冗余。
对于较大的数据集,重建文件系统的过程将花费更长的时间。
结论:数据保护的思路转变
正如云计算的出现最初引发了人们对安全性的担忧,后来才证明它比传统的企业IT基础设施安全得多,Hammerspace正在重新定义数据可靠性和保护的标准。乍一看,像Hammerspace这样的数据平台由于其分布式架构和抽象层,似乎比传统的NAS解决方案有着更高风险。然而,这种看法与事实相去甚远。
传统的NAS系统虽然很熟悉,但受到以硬件为中心设计的限制,缺乏适应现代数据需求的灵活性。它们需要对单个文件和存储设备进行广泛的管理,这使得可扩展性和数据保护变得更具有挑战性。相比之下,Hammerspace以元数据为中心的方法将元数据置于数据管理的主导地位。
这种转变改变了数据的保护方式
元数据驱动治理:元数据充当操作的大脑,通过自动化策略和服务级别目标 (SLOs) 来管理数据保护。它协调数据放置、访问控制和复制 - 甚至跨异构存储系统、多个站点和云 - 其精确度和效率是传统NAS系统无法实现的。
高效扩展:单独管理数十亿个文件需要大量资源,而且容易出错。数据编排通过处理针对性能、可扩展性进行优化的数据库中的数十亿个元数据记录来抽象这种复杂性。这确保了数据量即便呈指数级增长也可以保持稳健。
高级保护机制:通过控制元数据,平台可以采用复杂的数据保护策略,例如全局命名空间管理、自动故障转移和智能数据分层,这些策略在传统NAS环境中难以有效实施。
通过将这些先进的元数据保护策略与通过元数据对数据进行智能治理相结合,Hammerspace全局数据平台实现了传统NAS解决方案无法比拟的可靠性水平。