按:本文含两单元,前半部分介绍数据中心SSD发展趋势及FDP技术在SSD领域应用价值,后半部分介绍FADU 在SSD主控领域技术创新及发展路线.
云厂商视角下的SSD创新
数据中心/企业级PCIe-SSD的市场分析(基于接口形态)
- • 过去两年M.2 接口部分取代 U.2 接口市场
- • 企业级存储接口标准 EDSFF在未来将持续占据市场空间,其中E1.S占比最大
关于各类存储接口
SSD存储领域,为什么M.2 接口正在逐步取代U.2接口?
- 1. 体积更小:M.2接口设计紧凑,适合现代轻薄设备,而U.2通常较大,主要用于企业级存储。
- 2. 更高的速度:M.2接口支持PCIe 3.0/4.0/5.0,提供更高的数据传输速度,适合高性能需求。
- 3. 成本效益:M.2 SSD通常成本较低,适合消费者市场,推动了其普及。
- 4. 兼容性:M.2接口可以与多种协议(如NVMe、SATA)兼容,提供灵活性。
- 5. 简单的连接方式:M.2接口通过插槽直接连接,简化了安装和升级过程。
OCP SSD接口
Meta 在开放计算平台(OCP)持续贡献数据中心级 NVMe SSD硬盘接口规范。
过去几年该标准持续迭代,目前已更新到 V2.5,越来越多的软硬件厂商也在加入这一开源标准。
图主要阐述了遥测和调试技术的发展趋势,重点对比了传统方法和改进方法的差异。
- 1. 传统方法主要依赖SMART日志、供应商独有日志和加密遥测日志,但存在安全隐患。
- 2. 改进方法基于OCP数据中心NVMe规范,包括:
- • 健康信息日志:提供大规模SSD监控能力
- • 延迟监控:实现实时性能问题定位
- • 格式化遥测:提供易读性和灵活性
- 3. 改进方法带来的显著成果:
- • 加快了调试和认证过程
- • 实现了大规模环境下的高效调试
基于FDP 改善SSD的写放大效应。
图主要解释了写入放大(Write Amplification)在存储系统中的不利影响。
主要观点包括:
- 1. 性能影响:写入放大会导致额外的媒体读写操作,直接影响存储系统的性能和服务质量(QoS)。
- 2. 寿命减少:非主机引起的额外写入会加速存储媒体的磨损,缩短其使用寿命。
- 3. 随机写入效率低下:通过示例说明,当写入放大因子为5时,随机写入的性能仅为顺序写入的20%,凸显了写入放大对随机写入性能的严重影响。
- 4. 资源浪费:写入放大意味着实际写入的数据量大于用户请求的数据量,这种额外的写入操作会浪费存储资源和系统带宽。
图展示了固态存储设备(SSD)写入放大改进的历史演进。主要内容包括:
- 1. 时间线:从1991年的NAND基础SSD开始,经过2007/2008年的LBA提示,到2022年的灵活数据放置,显示了写入放大技术的三个主要阶段。
- 2. 技术演进:
- • 1991年:过度配置作为初始解决方案。
- • 2007/2008年:引入TRIM和解除分配技术。
- • 2022年:实现灵活数据放置。
- 3. 灵活数据放置(FDP)的发展:
- • 源于Google和Meta的独立研究。
- • 两家公司的研究都强调了数据在存储介质上的放置对性能的关键影响。
- • 最终合并为统一的灵活数据放置(FDP)解决方案,整合了各自提案的优点。
图介绍了灵活数据放置(Flexible Data Placement,FDP)技术的高级概述。FDP是一种存储优化技术,旨在提高数据存储的效率和性能。
主要特点包括:
- 1. 主机控制:允许主机系统通过虚拟句柄或指针来指示数据的存储位置。
- 2. 设备适应性:存储设备根据主机提供的提示来选择数据放置的超级块,而不是自行决定。设备还会公布超级块的大小,以便更好地管理存储空间。
- 3. 功能保持:FDP的引入不影响基本的存储功能,如读取、写入、释放空间(TRIM)和安全性。写入操作可能会添加可选的写入句柄。
- 4. 兼容性设计:FDP具有良好的向后兼容性。它可以在标准设备上灵活开启或关闭,且不要求应用程序必须理解FDP就能受益。不过,理解FDP的应用程序可以获得更多优化效果。
这种技术的意义在于:
- 1. 提高存储效率:通过允许主机指导数据放置,可以更好地利用存储资源。
- 2. 性能优化:合理的数据放置可以减少数据访问延迟,提高读写性能。
- 3. 灵活性:可以根据不同应用场景调整数据存储策略。
- 4. 平滑过渡:向后兼容性确保了现有系统和应用可以平稳过渡到使用FDP技术。
通过比较实际负载下SSD写放大效应与带宽数值,了解FDP技术的应用价值。
左图:
• 蓝色:64KB随机写入
• 黄色:日志结构8写入器64KB
• 红色:使用FDP的日志结构8写入器64KB
可见红色基于FDP增强的SSD,WAF维持在1,而未优化的随机读写随时间稳定在3左右,而基于日志结构优化后的SSD,写放大也在2以上;
右图:
• FDP减少磨损:约2-3倍
○ SSD寿命延长2-3倍
• FDP提高写入吞吐量:约2-3倍
○ 提升性能和服务质量(QOS)
FDP优化后的SSD在寿命、写带宽及QoS上都有明显改善。
FDP: 开源活动
当前支持:
- • Linux内核:通过I/O直通提供全面支持(自5.19版本起上游支持)
- • xNVMe®:全面支持(自v0.7版本起上游支持)
- • QEMU:FDP模拟(自v8.0版本起上游支持);主机堆栈验证。
- • Fio:对RU和RUH的基本支持(上游);正在改进io_uring中的通用trim功能(进行中)
- • nvme-cli:支持FDP命令和日志页面(上游)
- • Cachelib:正在努力通过FDP减少WAF(进行中)
FDP技术正在被广泛集成到存储生态系统中,从底层内核到上层应用都有相应的支持。
闪存行业的技术发展路线图,涵盖了2018年到2024年及以后的关键技术发展方向。主要内容包括:
- 1. 封装和散热优化:2018/2019年关注E1.S SSD的封装改进,提升多个性能指标。
- 2. 数据中心应用:2020/2021年重点是开放计算项目(OCP)数据中心NVMe SSD,满足大规模和企业客户需求。
- 3. 数据管理技术:2022/2023年引入灵活数据放置(FDP)技术,优化写入放大效应,全面提升SSD性能。
- 4. 可靠性和调试:2023/2024年改进SSD遥测和调试能力,加快产品上市速度,提高可靠性。
- 5. 未来发展方向:行业将面临开源SSD认证测试的挑战,通过合作缩短开发和认证周期。
FADU 主控创新
关于FADU
FADU[1]是一家韩国的SSD主控开发商,成立于2015年。
FADU是一家专注于开发和提供高端SSD(固态硬盘)控制器及存储解决方案的无晶圆厂公司。其主要产品包括先进的SSD主控芯片、参考设计、定制固件、物料清单、SSD组装、封装、测试以及技术支持。这些产品广泛应用于大型数据中心和企业级市场,以满足日益增长的数据需求。
2023年NAND市场回顾
自2021年市场持续下跌,预计2023年年增长率为-38%,
NAND价格也随市场行情,整体下行。
Note: 此次报告于23.8.9,自23年下半年,存储市场整体回暖,价格/需求连续3个季度维持20+%的增加率。
创新是复苏良药。
左图显示AI将成为拉动IT投资的新支点,众所周知人工智能场景除了核心算力的需求,数据传输带宽也限制场景的落地。
右图描述典型存储接口传输速率,基于先进PCIe接口的存储设备在将来有巨大需求。
图主要表达了PCIe Gen5 SSD在功率和热量管理方面面临的挑战和考虑因素:
- 1. 性能提升与功耗增加: 从Gen3到Gen5, SSD性能显著提升(3.5GB/s到14GB/s), 但功耗也相应增加。
- 2. 功率预算限制: 数据中心服务器对SSD的功率预算有严格限制(15-20W), 这对高性能Gen5 SSD构成挑战。
- 3. 功率分配: 图表详细展示了SSD各组件(NAND、杂项、控制器)的功耗分配,突出了控制器功耗管理的重要性。
- 4. 散热设计: 左侧图表说明了SSD接口宽度与最大功率的关系,暗示了散热设计的重要性(回答了接口升级趋势,为什么M.2正在逐渐取代U.2)。
- 5. NAND功耗保障: 强调需要保证NAND的功耗以充分利用PCIe带宽,这是性能优化的关键。
- 6. 控制器功耗挑战: 特别指出控制器功耗是主要挑战,随着性能提升,控制器功耗管理变得更加关键。
左图是 FADU 最新PCIe Gen5 主控参数,和国内鹏泰存储[2]相比,从参数上来看,鹏泰最新一代的主控还要更领先一点.
- • PCIe Gen5 X 4 (16通道)
- • OCP 2.0 / NVMe 2.0
- • FDP, SR-IOV, 64 PF, 双端口, TCG-Dice
- • 顺序读取: 14,000 MB/s
- • 顺序写入: 10,000 MB/s
- • 随机读取: 3,200 KIOPS
- • 随机写入 7% OP: 400 KIOPS
- • 28% OP: 800 KIOPS
- • 有效功耗(控制器): <7瓦
什么是过度配置(OP)?
过度配置(Over-Provisioning,简称OP)是SSD存储技术中的一个重要概念。它指的是为SSD预留一部分额外的存储空间,这部分空间对用户不可见,但对SSD的性能和寿命有重要影响。
- 1. 定义:OP是指SSD中预留的额外存储空间,通常以总物理容量的百分比表示。例如,7% OP意味着有7%的物理存储空间被预留。
- 2. 对SSD性能的影响:
- • 写入性能提升:如图所示,28% OP时的随机写入性能(800 KIOPS)明显高于7% OP时(400 KIOPS)。
- • 垃圾回收效率:更多的OP空间使得SSD控制器可以更有效地进行垃圾回收,减少写入放大。
- • 一致性:高OP有助于维持SSD在长期使用中的稳定性能,减少性能波动。
- 3. 寿命延长:OP空间允许更均匀的磨损平衡,延长SSD的使用寿命。
- 4. 性能权衡:增加OP会减少用户可用容量,但能显著提升性能和耐用性。
- 5. 动态调整:某些高级SSD允许动态调整OP,以在性能和容量之间取得平衡。
图主要阐述了热量管理对SSD性能的关键影响,并比较了FADU控制器与其他控制器在热量管理方面的优势:
- 1. 热量管理的重要性:图片强调热量是影响SSD性能发挥的最关键因素。
- 2. 控制器温度比较:图表展示了FADU控制器在各种环境温度下始终保持较低的工作温度,与其他控制器相比有超过20°C的温度优势。
- 3. 功耗差异:
- • 其他控制器:9~10W功耗,产生更多热量,容易触发性能限制,难以持续提供全面性能。
- • FADU控制器:<7W功耗,产生更少热量,无需限流,在任何情况下都能保证全面性能。
SSD主控支持FDP功能,测试数据。
图片介绍了FADU在SSD主控市场的新型商业模式。
新控制器模式:FADU专注于控制器开发,允许客户基于FADU的控制器开发自己的固件和硬件。
FADU 技术路线图
- 1. 2024年:
- • PCIe Gen5 8通道控制器(FC5082)
- • 另一个层级的能效提升
- 2. 2025-2026年:
- • PCIe Gen6/CXL内存控制器(FCX-6系列)
- • 基于NAND的内存(CXL 3.0)
- 3. 2024-2026年:
- • CXL 3.0交换机(FSX系列)
- • 释放CXL的全部潜力
总结
- 1. 数据中心SSD硬盘接口处于快速变革阶段,M.2及EDSFF 成为趋势.
- 2. 阐述FDP的概念及其如何通过减少写放大率(WAF)、延长设备寿命、提升性能和QoS来改善SSD的效率与可靠性。
- 3. FADU 在SSD主控领域的创新.
引用链接
[1] FADU: https://metaso.cn/s/8hb7caN
[2] 鹏泰存储: https://www.petaio.com/
---【本文完】---