全文概述
文章主要探讨如何通过采用新型节能固态硬盘(SSD)控制器来大幅提高数据中心的整体拥有成本(TCO)。
首先,文中指出了数据中心和消费级SSD之间在功率效率上的差异,强调了为数据中心优化的工作负载需求与消费级设备面向间歇性工作负载的设计之间的区别。接着,详细讨论了控制器与NAND闪存之间的功耗分配问题,并介绍了利用NVMe电源状态来有效管理驱动器的功率消耗的方法。
文章还通过实际案例展示了如何通过改变NVMe设置来降低服务器和整个机架级别的能耗,同时保持或提升性能。此外,特别提到了一种名为FDP的技术,该技术能够显著改善写入带宽并提升每瓦特性能(performance per watt),从而进一步增强节能效果。
最后,作者指出虽然许多人将能源效率和可持续性混为一谈,但真正的挑战在于通过准确区分计算和非计算能量消耗,以及进行生命周期评估(LCA),来实现ICT领域的真正可持续发展。通过这些措施,可以有效地推动能源效率,减少数据中心运营的成本,同时对环境影响进行量化评估,以实现更加绿色的数据中心运行。
SSD:数据中心 vs 消费级
左侧:数据中心SSD
- 针对持续的工作负载和稳定性能进行优化。
- 通过 NVMe 功率状态可以高效管理功率,以限制驱动器的 TDP(热设计功率)。
- 关键的功率效率指标是在活跃状态和空闲活跃状态(低延迟恢复)下每瓦特的性能。
活跃状态下的每瓦性能是当今数据中心功率效率的关键指标。
右侧:消费级SSD
- 通常经历突发性工作负载,随后是延长的空闲时间(例如游戏、内容创作、办公生产力)。
- 这要求 SSD 在活跃使用期间提供快速响应的性能,同时在空闲期间尽量减少功耗。
- 消费者 SSD 使用 NVMe 自主功率状态切换技术和 PCIe L1.2,实现接近零的空闲功率。
SSD 中控制器和NAND模块能耗分析
- Echo[1] 是 FADU 主控品牌
- Comp 对照组
总功率相同条件下(16w):Echo的主控能耗相对较低(45%),而对照组达到(53%)
总功率为10w(受限)时,Echo 主控功耗上升到55%,而对照组攀升到85%。
控制器的功耗越高,当总功率预算受到限制时,性能损失越大,性能和功率效率的降低也越显著。
NVMe 能耗管理功能
- 通过 NVMe 工具,可以发现和调整 SSD 的电源状态。
- 用户可以查询(
get-feature
)当前电源状态,并将 SSD 配置(set-feature
)为一个新的状态,以在性能和功耗之间取得平衡。 - 输出的各个电源状态(
ps
)展示了不同的功耗等级,用户可根据需求选择更高性能或更低功耗的模式。
测试数据比较
- 左图:顺序性能的能效对比
- Echo 的功率效率提升了 37.61%。
- PM1743 的效率为蓝色柱(大约在 700 MB/s per W 左右)。
- Echo 的效率为红色柱(显著提高,达到了 984.72 MB/s per W)。
- 指标:每瓦特的传输效率(单位:MB/s per W)
- 对比结果:
- 性能改进:
- 右图:随机性能的能效对比
- Echo 的随机性能功率效率提升了 60.54%。
- PM1743 的效率为蓝色柱(大约 110 KIOPS/W)。
- Echo 的效率为红色柱(显著提高,达到了 188.53 KIOPS/W)。
- 指标:每瓦特的 IOPS 效率(单位:KIOPS/W,即每秒千次输入输出操作效率)。
- 对比结果:
- 性能改进:
SSD 功耗效率对服务器功耗的影响
总服务器功耗对比
- 两种方案的服务器功耗对比:
- Comp 传统的 PCIe 5.0 E1.S SSD(更高功耗)。
- Fadu 采用 Fadu E1.S SSD(更低功耗)。
- 对比结果:
- Comp 服务器功耗更高,总功耗接近 1400 W。
- Fadu 服务器功耗更低,总功耗约为 1000 W。
- 功耗下降比例:
- 风扇功耗优化潜力大:风扇在高功耗的服务器中占很大比例,通过降低 SSD 的功耗,可以减少散热需求,从而间接降低风扇功耗。
- 小组件改变,效果显著:采用更节能的 SSD(如 Fadu E1.S),不仅直接降低存储设备功耗,还对整个服务器的功率消耗产生级联效应。
- 节能效果显著:功耗降低 26% 对数据中心规模的部署具有重大意义(如电费节省、冷却需求减少)。
机架级功耗的影响
- 显著的成本优化:
- 通过使用 Fadu SSD,TCO 在运行成本(OpEx)和资本成本(CapEx)两方面均得到降低。
- 在 7.68TB 和 15.36TB 场景下,分别降低 29% 和 27%。
- 机架容量利用率提升:
- 使用高能效驱动器后,能在相同功率限制下增加 45% 的服务器容量,从而提升数据中心的空间和能源效率。
- 关键优化点:
- SSD 的高功率效率不仅直接降低存储功耗,还通过减少散热需求降低了风扇运行功率。
- 减少的总功耗能够显著提高数据中心的整体运营效率。
FDP 提高写带宽和能效
左侧部分:写入场景示例
- 并发写入线程
- 图中展示了 8 个不同写入线程,每个线程的块大小各不相同(128k、64k、16k、4k 等)。
- 数据被写入到同一个 SSD。
- FDP 优势
- FDP 能够通过优化数据放置方式,使所有线程高效利用 NAND 的全带宽。
- 达到 WAF = 1(写放大因子接近 1,意味着写入量几乎与实际数据量相等,极大提升了存储效率)。
FDP 技术的实现原理及具体优化方法
FDP(Flexible Data Placement,灵活数据放置)技术的核心在于优化 NAND Flash 的写入效率 和 存储管理策略,以实现更高的性能、更低的功耗和更好的耐久性。以下是对 FDP 技术的 实现原理 和 具体优化方法 的进一步分析:
一、FDP 的实现原理
FDP 的主要目标是通过灵活的数据放置策略,最大程度地提高 NAND 的利用率,并降低存储系统中的写放大因子(WAF)。以下是其关键原理:
1. 分区化数据放置(Partitioned Data Placement)
- FDP 技术能够根据 写入线程的不同特性(如 I/O 大小、访问模式)对数据进行分区化存储。
- 小块数据和大块数据会被分别放置在不同的 NAND 芯片或页面中,以避免写入冲突:
- 大块写入(128k、64k 等) 优先放置到较大的连续 NAND 页面,以实现带宽最大化。
- 小块写入(16k、4k 等) 则被放置到适合小写入的页面,以减少对整体存储性能的影响。
- 分区化的存储设计减少了由于不同块大小混写引起的 写冲突和性能抖动。
2. 动态负载均衡(Dynamic Load Balancing)
- FDP 动态分配 NAND 通道和芯片以平衡写入压力,避免某些通道因过载而成为性能瓶颈:
- 根据 I/O 压力,将写入任务分散到更多 NAND 芯片中。
- 在多线程写入中,确保每个线程的写入请求都能以最小冲突的方式分配资源。
- 通过实时监控和调整负载,减少写入冲突和 I/O 排队时间。
3. 精确的垃圾回收(Targeted Garbage Collection)
- 传统 SSD 问题:
- NAND Flash 的垃圾回收机制会导致随机写入性能下降。
- 当数据需要搬迁时,写放大因子(WAF)上升,功耗增加,性能波动。
- FDP 的优化:
- FDP 针对性地选择回收最少数据搬迁代价的区域。
- 在垃圾回收期间优先回收低利用率的块,并避免干扰正在进行的高优先级写入。
- 减少垃圾回收对写入吞吐量和响应时间的影响。
4. 写入合并和对齐(Write Coalescing and Alignment)
- 传统问题:
- 小块写入(4k、16k 等)在 NAND Flash 中常常导致写入操作被分散到多个页面,浪费存储空间。
- FDP 的解决方案:
- 在写入前对小块 I/O 请求进行 合并和对齐,尽可能将多个小块写入合并为大块写入。
- 减少 NAND 页面的写入操作次数,从而降低写放大因子。
5. 端到端数据路径优化
- FDP 通过优化从主机到 SSD 的数据传输路径,实现更高效的带宽利用:
- NVMe Queue 优化:
FTL 层采用更高效的映射算法,减少地址翻译的开销,并进一步降低写放大。
- Flash Translation Layer (FTL) 优化:
在 NVMe 层面调整 I/O 队列的调度策略,确保写入顺序与 NAND 的最佳写入模式相匹配。
二、具体优化方法
FDP 在实际部署中,通过以下具体技术手段进一步实现优化:
1. 多流(Multi-streaming)优化
- 将不同生命周期或特性的写入请求分配到不同的存储流中:
- 短生命周期数据(如日志数据): 分配到独立的 NAND 块,避免频繁的擦写对长期数据的干扰。
- 长生命周期数据(如冷数据): 放置在不同的区域,从而减少写入冲突。
- 多流技术减少了垃圾回收时的数据搬迁成本,降低了写放大。
2. 自适应写入功率管理(Adaptive Power Management)
- 根据 I/O 压力和 NAND 的写入需求,自适应调整功率分配:
- 在低负载情况下,减少 NAND 通道的供电,节约功耗。
- 在高负载情况下,充分启用所有通道以提升写入带宽。
- FDP 的功率管理策略可以显著提升性能功耗比(perf/W)。
3. 压缩和去重(Compression and Deduplication)
- 压缩:
- 对主机写入的数据进行压缩以减少实际写入到 NAND 的数据量,从而降低 WAF。
- 去重:
4. 智能冷数据迁移(Intelligent Cold Data Migration)
- 对长时间未被访问的冷数据进行后台迁移,释放高性能 NAND 芯片上的存储空间:
- 热数据优先存储在高性能的 NAND 区域。
- 冷数据迁移到更高密度的区域,以优化性能和存储效率。
5. 紧耦合主机协作(Host-Aware SSD Design)
- 在 FDP 系统中,SSD 可以与主机进行实时协作,共享写入特性和 I/O 模式信息:
- 主机提供 I/O 请求的优先级、生命周期和大小信息。
- SSD 使用这些信息优化写入放置策略,进一步提升性能。
可持续性与能效的定量分析
- 能源效率与可持续性的误区:
- 大多数人容易混淆**能源效率(Energy Efficiency)和可持续性(Sustainability)**的概念。
- 能源效率侧重于在使用阶段减少能耗,而可持续性涉及从全生命周期角度(包括生产、运输、使用、报废)评估对环境的整体影响。
- OCP 在可持续性方面的努力:
- 开放计算项目(OCP,Open Compute Project)针对信息通信技术(ICT)领域的可持续性问题发布了白皮书,提供了相应的指导和评估方法。
- 基础设施利用效率(IUE)指标:
- 计算功耗(Computational Power):实际用于计算的能量。
- 非计算功耗(Non-Computational Power):包括散热、功率转换损耗和空闲功耗。
- 新的基础设施利用效率(IUE,Infrastructure Utilization Efficiency)指标,用于评估系统和机架级别的能源消耗:
- IUE 用于区分计算能耗和非计算能耗,并量化能源使用的效率。
- 生命周期评估(LCAs):
- 通过生命周期评估(Life Cycle Assessments, LCAs)来记录能源效率,从设计到报废阶段提供综合的环境影响分析。