全文概览
在数据爆炸的时代,存储技术的革新成为推动数字化进程的核心动力。Seagate作为全球存储领域的领军者,正通过突破性技术重新定义HDD的未来。本文聚焦其三大核心技术:HAMR热辅助磁记录(突破存储密度极限)、MACH-2双执行器架构(提升性能与能效),以及Reman Build自愈机制(优化数据恢复效率)。这些创新不仅将单碟容量推向新高度,更通过智能资源虚拟化与数据迁移策略,显著降低数据中心的总拥有成本(TCO)。在AI与云计算需求激增的背景下,Seagate的解决方案为大规模存储提供了兼具高性能、低能耗与高可靠性的路径,重新定义了HDD在混合存储架构中的核心地位。
阅读收获
图片展示了 Seagate 在 HDD 存储技术方面的创新,重点介绍了三大核心方向:
整体目标是提高存储效率,优化系统性能,并推动大规模存储的发展。
图片重点介绍了 HAMR(热辅助磁记录) 技术如何提升 HDD 存储效率与记录密度。主要涉及:
关于 HAMR 热辅助磁记录
Western Digital 在2月12日召开投资者日会议上,同样强调了 HAMR 技术的落地前景,借助HAMR等先进技术,2024年至2030年期间,其每TB存储成本将保持比闪存低6倍的优势。在标准超大规模数据中心环境下,硬盘存储方案的TCO将比闪存存储低3.6倍。可参考阅读:
在HAMR(热辅助磁记录)技术中,磁介质的温度通常需要加热到上千摄氏度的范围,以便增强磁性材料的稳定性和可写性。
具体来说,HAMR技术的加热温度一般达到约400°C到500°C(摄氏度)。这个温度足以改变磁介质的磁性特性,使其在更高密度下进行数据记录,同时保持数据的稳定性。当磁头将热量传递给磁介质时,局部区域会被加热到这个温度,然后通过冷却过程快速记录数据。
这种加热使得数据可以被写入更小的磁粒(即更高的存储密度),而在常温下,磁介质的磁性较强,不容易改变,因此需要通过局部加热使磁介质变得更为“柔软”并可用来记录数据。
图片展示通过使用更高容量的硬盘,存储基础设施的功耗可以显著降低。随着硬盘容量的增长,每TB的功耗逐渐下降,这意味着通过采用大容量硬盘(例如采用HAMR技术的硬盘),可以在保持或提高存储容量的同时,减少能源消耗。总体上,这为数据中心和大型存储基础设施带来更高的能效和更低的运营成本。
图片介绍了MACH-2技术,强调通过并行数据流的应用,能够显著提升存储系统的性能,支持更高的带宽和 IOPS(输入输出操作每秒)。该技术通过使用多执行器技术,优化了存储系统的成本、功率和密度,在提高存储密度的同时,保持高效的性能,适用于高要求的数据访问场景。
图表显示了双执行器技术相对于单执行器的显著性能优势。
通过使用双执行器,存储设备能够在相同功耗下实现约2倍的带宽,尤其在处理随机读取时表现尤为突出,适用于各种传输大小。此外,随着随机写入和顺序读取/写入传输数据量的增加,性能提升效果更为明显。在顺序性能上,SAS/NVMe接口被认为是最佳选择。
图展示了如何通过优化工作负载在不同存储层级之间的迁移,来降低存储的总拥有成本(TCO)。具体做法包括:
这些过渡工作负载的设计旨在降低SSD和HDD层级的热量,从而使得它们可以重新配置,以适应更大的存储容量。
智能数据迁移策略
为了在不同存储层级之间高效地迁移数据,可以采用智能的数据迁移策略。通常涉及以下内容:
图展示了SAS存储设备的配置,重点是每个驱动器(Actuator)对应一个“磁盘”并与Linux设备进行映射。每个LUN管理一个文件系统,允许系统按LUN进行分配和管理。图中还提到,在这个配置中,需要特别关注故障域的管理,确保在出现硬件故障时能及时处理。
具体而言,设备列出了每个存储设备与相应的路径(如/dev/sda、/dev/sdb等)之间的关系。这有助于系统管理员在Linux系统中定位和管理存储设备。
图展示了双驱动器HDD(Dual-Actuator HDD)在RAID架构中的集成,特别是如何在RAID5或RAID6阵列中使用LUN/NS(逻辑单元号/命名空间)。
双驱动器硬盘在LUN/NS的基础上将数据条带化,以形成RAID50或RAID60群组,从而确保具有相同的容错性和可用性。此外,每个LUN/NS具有独立的存储容量,允许更灵活的配置和高效的数据管理。
通过这种配置,RAID群组可以根据需要进行优化,确保数据的可靠性和高可用性,同时最大化存储容量的利用。
图展示了如何通过修改存储堆栈中的各个层来实现对每个驱动器(Actuator)进行控制。在这个过程中,应用程序被修改以调度I/O操作到两个独立的驱动器位置。通过设备映射器和Linux块设备分区,存储设备可以进行独立的分区管理。I/O调度优化通过多种算法提高整体I/O性能。
同时,该图还描述了SCSI子系统的行为,指出通常不应重新分配工作负载,并且内核和遗留问题可能限制灵活性。图中的堆栈结构展示了从存储应用程序到SCSI中层的完整存储管理流程。
===
随着生成性AI的需求不断增加,存储和内存技术供应商正在加速基础技术的投资,特别是在面对传统技术提升已无法满足未来需求的情况下,必须采取更具进攻性的产品策略。此外,尽管未来仍有许多挑战,但如果供应商愿意适应并创新,软件架构师将能够找到解决方案以应对这些变化。
===
图展示了存储系统的网络流量和主机资源分配情况,强调了存储提供商在保护客户数据时所需的资源消耗。
在云数据中心,客户数据占据了大部分网络流量,而在传统的JBOD存储中,处理擦除编码、复制和重建的过程消耗了大量的主机资源。图中表明,存储提供商在保证数据保护和恢复的同时,不得不牺牲相当多的主机资源。
EC 与 副本机制对比
Seagate提出的Erasure Coding方案相较于传统的JBOD方案,显著提高了资源利用率。它通过智能的数据切割和冗余块生成,减少了冗余副本的存储需求,从而节省了存储空间,并保证了数据的容错能力。Erasure Coding不仅能提高存储效率,还能通过灵活配置来满足不同的数据保护需求,使得它在大规模存储环境中成为一种更高效的解决方案。
Erasure Coding是一种数据冗余技术,利用数学算法将数据分割成多个部分(数据块),并通过生成冗余数据块(也叫编码块)来保证数据的容错性。不同于传统的复制技术(如RAID 1或传统复制),EC将数据分割并分布在多个存储设备上,并生成冗余块,而不直接复制数据。通过这种方式,即使某些数据块丢失,也能从冗余数据块恢复原始数据。
举个例子:
在传统的JBOD(Just a Bunch of Disks)存储方案中,数据通常是直接存储在硬盘上的,没有内置的冗余机制。JBOD的工作原理是将每个硬盘作为一个独立的存储单元,不提供自动的数据保护或容错能力。若硬盘发生故障,数据可能丢失。
图展示了分布式Erasure Coding(EC)如何在硬盘故障的情况下提供更快速的关键数据重建。首先,随着第一个硬盘的故障,系统的容错机制确保数据安全。然后,在第二个硬盘故障后,仅有3%的数据被认为是“关键”,而这些关键数据可以在5倍于典型RAID 6速度的情况下被快速重建。即使第三个硬盘发生故障,系统也能够在不丢失数据的情况下继续运行。最终,数据重建完成,整个阵列恢复健康。
这个过程展示了EC技术在硬盘故障情况下的数据恢复速度和效率,尤其在多硬盘同时故障时,通过快速重建和容错机制确保数据安全和可用性,提供更高效的数据保护方案。
Seagate提出的HDD磁头故障修复技术(Logical Depop Self-Healing)通过自动化的修复过程,减少了硬盘在发生磁头故障时的停机时间和人工干预需求。
具体过程包括,当硬盘报告故障时,控制器会立即将数据转移至其他硬盘并将故障硬盘从逻辑卷中移除。随后,系统会对硬盘进行诊断和修复,最终通过重新平衡卷来恢复硬盘的正常工作,从而避免了需要完全更换硬盘的情况。这种技术有助于最小化电子废物,提高存储系统的运行效率,并降低硬件维护成本。
===
步骤:
Note
简单来说,当磁头出现故障,系统检测后会自动开启数据保护机制,将故障盘数据均衡到其他正常盘中。
前提条件:
右图是硬盘多个磁片叠加和读写头的结构。
Reman Build 机制的工作条件
Reman Build 数据恢复机制结合了 Erasure Coding (EC) 和高效的硬盘修复技术,能够在磁盘故障发生后迅速恢复数据。这一机制的工作原理需要特定的文件系统要求和存储配置,确保数据能在硬盘发生故障时快速恢复。以下是 Reman Build 数据恢复机制的关键文件系统要求和相关说明:
条件A:读取头正常工作,且硬盘有足够的备用块进行自愈
优点:
图示:
条件B:读取头正常工作,但硬盘没有备用块
条件C:读取头故障
条件B和条件C图示:
随着数据中心存储的持续发展和负载的增加,特别是涉及Erasure Coding (EC)、复制和重建过程时,存储网络会变得非常拥堵。
为了减少这些流量并确保数据容量、弹性和可用性不受影响,采用智能快速EC重建和磁头故障自愈修复(Reman) 技术,在硬盘和存储箱级别进行数据修复和恢复。这种方法能够显著减少网络拥堵,提高存储系统的效率,同时保持高效的数据恢复和冗余管理。
图展示了Linux环境中使用虚拟数据优化器(VDO)进行数据压缩的工作流程。
VDO通过两种主要技术来减少数据:数据去重(Deduplication)和数据压缩(Compression)。
在数据去重步骤中,VDO去除了重复的数据块,之后通过压缩剩余的数据块进一步减少数据量。VDO提供了2:1的数据去重和2:1的压缩,最终实现4:1的平均数据压缩率。然而,尽管VDO可以显著减少数据占用空间,但它也会增加SSD的写放大(Write Amplification)并可能降低HDD的性能,特别是在高负载情况下。
Cite
延伸思考
这次分享的内容就到这里了,或许以下几个问题,能够启发你更多的思考,欢迎留言,说说你的想法~
原文标题:Cloud Storage Efficiency at Scale