阅读收获
- 掌握卸载演进路径:从数据无关(ZIA压缩/RAID)到数据感知(pNFS+DuckDB过滤),指导HPC存储优化实践。
- 理解分布式架构机制:pNFS布局元数据路由查询,gRPC+Arrow Flight传输IR,仅回结果,适用于证券分析师评估TCO。
- 洞察标准化价值:Parquet/Arrow等开源格式解耦引擎(如Presto/DuckDB),降低厂商锁定风险,便于研究生原型验证。
- 量化性能收益:99%数据移动减少+本地FS读取,助力教授设计下一代近存储实验。
全文概览
在高性能计算(HPC)领域,科学模拟如LANL的小行星撞击或野火蔓延项目,正面临极端数据爆炸:极短时间步长内产生PB级数据集。传统架构下,生成数据容易,但分析成瓶颈——查询仅需<1%有效数据,却须全量搬移至主机,耗尽I/O带宽和内存,阻碍科学洞察获取。你是否好奇:如何在不扩充网络的前提下,实现高效数据过滤?
计算型存储(Computational Storage)应运而生,将计算下沉至存储端,减少数据移动。LANL探索两条路线:从ZIA接口卸载ZFS底层操作(如压缩、RAID),到pNFS+Apache生态的数据感知下推,利用DuckDB在存储节点本地过滤Parquet文件,仅传高价值Arrow结果回主机。该架构拥抱开源标准(Parquet、Arrow、Substrait、gRPC),支持灵活计算放置(主机/DPU/SSD),并优化内核实现本地读取。Hammerspace案例显示,数据移动减99%;SK hynix则推对象级智能查询。这不仅是I/O优化,更是HPC存储现代化的关键路径——未来如何向可视化卸载和纠删码演进?
👉 划线高亮 观点批注
幻灯片传达了以下三个核心观点:
- 科学模拟正面临极端的数据爆炸:在高性能计算(HPC)场景下,复杂的科学模拟(如LANL运行的项目)在极短的时间步长内就能产生 PB 级别的超大规模数据,导致整体数据量呈指数级增长。
- 海量数据的分析成为系统瓶颈:仅仅生成模拟数据是不够的,核心价值在于数据分析。然而,传统架构在面对如此庞大的数据集时,其处理和分析能力已无法跟上,成为获取科学洞察的阻碍。
- 计算型存储(Computational Storage)被视为解决之道:为了打破上述由于海量数据移动和分析带来的 I/O 瓶颈,科研机构正在积极探索计算型存储(即将计算能力下沉到存储设备端,减少数据搬移),以此作为实现大规模存储架构现代化的关键策略。
幻灯片阐述了引入计算型存储(Computational Storage)的两大核心技术驱动力:
- 解决传统“计算找数据”模式下的 I/O 与内存瓶颈: 在传统的存储架构中,即便查询只涉及极少量(<1%)的有效数据,系统也必须将全部数据搬移至计算节点(Host),这不仅浪费了极大的 I/O 带宽,还导致主机内存严重过载,限制了分析任务的可扩展性。
- 实现存储端的“选择性数据访问”(数据下推/过滤): 计算型存储的核心价值之一在于能够在存储设备本地执行初步的数据过滤和预处理。通过只将那“<1%”的有用数据传输给主机,极大降低了数据移动带来的系统开销。
- 推动计算架构的分布式与异构化: 计算型存储打破了“计算只能在主机CPU发生”的传统观念。它倡导一种灵活的计算放置(Compute Placement)策略,允许开发者根据性能、成本和技术条件,将计算任务动态卸载(Offload)到主机、DPU/智能网卡(网络)或智能固态硬盘(存储设备)中,实现系统整体效能的最大化。
幻灯片展示了 LANL 在近存储计算(Compute-Near-Storage)架构演进上的两条核心技术路线:
- 从“数据无关”的底层硬件卸载起步(Data-agnostic Offload): 早期阶段(ABOF),技术焦点集中在传统的存储协议层。通过开发 ZIA 接口,LANL 成功将 ZFS 文件系统中高度消耗 CPU 资源的底层通用操作(如内联压缩、数据校验、RAID 奇偶计算)卸载到专门的硬件加速器(如 Intel QAT)上。这种加速不关心存储的具体业务数据内容,主要目的是提升基础存储 I/O 性能和降低主机 CPU 开销。
- 向“数据感知”的分析下推架构演进(Data-aware Pushdown): 近期的技术焦点向上层业务逻辑延伸。LANL 正在借助 pNFS 协议和 Apache 大数据生态,将高阶的数据分析过滤逻辑直接“下推”到存储端执行。这种“数据感知”模式意味着存储节点能够理解数据结构,(上周梳理的 SSD计算卸载:解锁线性扩展潜力 一文,解释了硬件如何通过多级缓存,建立数据语义)从而实现精准的“选择性读取”,避免将无用的海量数据通过网络传输回计算节点,从根本上解决了上一张图中提到的“只查询<1%数据却要加载全部数据集”的 I/O 瓶颈。
架构传达了以下三个核心技术观点:
- 高度拥抱开源大数据的“模块化与标准化”: 该系统完全基于开源标准协议(如 Parquet、Arrow、Substrait、gRPC)构建。这种设计的最大优势是“解耦”和“防锁定”,允许架构中的计算引擎(如 Presto 或 DuckDB)根据业务需求或技术演进被无缝替换为其他同类组件(如 Spark 或 Acero)。
- 实现“近存储计算(In-storage Execution)”的完整数据流: 架构图清晰地展示了计算下推的实现机制。通过 Arrow Flight 和 Substrait,复杂的 SQL 查询意图被转换为中间表示(IR)下发到存储节点(pNFS Data Node)。在存储节点本地利用轻量级分析数据库(DuckDB)直接对 Parquet 文件进行处理,仅将计算后的高价值结果(Arrow 格式)返回给客户端,大幅降低了网络带宽消耗。
- 巧妙利用 pNFS 元数据进行分布式调度: 架构并非盲目下发查询,而是通过 pNFS 的布局元数据(Layout Metadata)来感知数据块的具体物理分布,从而精确地将查询任务路由到存放目标数据的特定存储节点上,这是实现高效分布式近存储计算的关键通信基础。
幻灯片传达了关于近存储计算架构在数据访问层的两个关键技术优势:
- 兼顾标准与安全的访问机制:该架构在将计算下推到存储节点时,并未破坏原有的安全体系。它通过让 gRPC 服务降权以普通终端用户身份运行,以及对外暴露标准的 POSIX 文件名(隐藏了底层复杂的对象 ID 映射),实现了对现有应用程序透明且符合标准权限控制的数据访问。
- 通过内核优化实现极致的“本地读取”效率:这是架构图展示的核心技术突破。当存储节点上的执行引擎(DuckDB)尝试读取同一台机器上的 pNFS 文件时,得益于特定的 Linux 内核更新,系统能够识别出该节点本身就是数据的物理持有者。因此,原本需要走网络协议栈的 pNFS 读取请求,在内核层被直接拦截并转换为极高效的“本地文件系统读取(Local FS Read)”,从而最大化了近存储计算的 I/O 性能优势。
幻灯片通过具体的科学模拟案例,传达了计算型存储技术带来的两大核心技术价值:
- 极大地缓解了 I/O 与网络带宽瓶颈(Hammerspace 案例):在复杂的小行星撞击模拟中,通过将计算逻辑下推,系统成功减少了高达 99% 的底层数据移动。这在传统 HPC 架构中是难以想象的,它直接印证了在存储端进行数据预过滤,仅将极少量的高价值分析结果传输给计算节点,能够彻底打破“内存墙”和“I/O墙”。
- 基于对象的智能存储与复杂查询能力(SK hynix 案例):针对野火蔓延这种具有时间序列和空间特征的复杂数据集,底层硬件(SK海力士)正在演进为“基于对象的计算型存储”。这意味着存储设备不再仅仅处理简单的块(Block)或文件(File),而是能够理解对象语义,并具备“多层查询处理”能力,从而直接在硬件内部高效处理多维度的科学数据过滤。
幻灯片提炼了以下三个关于计算型存储发展的重要观点:
- 数据格式与协议的“开放标准化”是技术落地的绝对前提:幻灯片明确指出,近存储分析(In-storage analysis)的高效运行高度依赖于如 Parquet 和 Arrow 这种结构化、且专为分析优化的现代开源列式数据格式,以及可组合的 API。只有坚持开放和基于标准的技术栈,计算型存储才能摆脱“实验室原型”的标签,走向真正的生产级部署。
- 上层应用卸载将进一步深化:未来的工作不仅限于简单的 SQL 查询或数据过滤卸载,而是将向更复杂的科学应用层深入。例如“可视化轮廓卸载(viz contour offload)”,意味着将把图形渲染中极耗 CPU 和 I/O 资源的等值面提取/轮廓计算任务,直接下推到存储硬件中执行,这将极大提升 HPC 环境下的科学可视化效率。
- 底层存储协议层面(pNFS)的持续演进:在基础设施层面,未来将探索“客户端驱动的纠删码(Erasure Coding)”和“N-1 写入”。这意味着架构不仅在优化数据读取和分析,还在优化数据写入路径,通过让计算节点(客户端)承担 EC 计算,结合 pNFS 的并行特性,进一步优化存储集群的整体吞吐量和资源分配。
延伸思考
这次分享的内容就到这里了,或许以下几个问题,能够启发你更多的思考,欢迎留言,说说你的想法~
- 计算型存储下推复杂分析(如可视化轮廓)时,如何平衡存储节点功耗与主机卸载收益?
- pNFS在多租户HPC环境中,如何确保数据安全与POSIX兼容性?
- 开源生态(如Substrait)能否加速计算型存储从实验室向生产级落地的标准化进程?
原文标题:Bringing Analytics to the Data: In-Storage Computing for pNFS[1]
Notice:Human's prompt, Datasets by Gemini-3-Pro
#FMS25 #xPU卸载与计算型存储
---【本文完】---