NVIDIA 发布 DGX Spark 性能基准测试指南，赋能多节点 AI 高效部署

GPUS Lady

发布于 2026-03-02 21:04:21

9530

英伟达（NVIDIA）今日正式发布 DGX Spark 性能基准测试指南（），该指南不仅适用于 NVIDIA 原生 DGX Spark 设备，更全面适配所有搭载 NVIDIA Grace Blackwell GB10 超级芯片的 OEM 系统。指南依托开源仓库 dgx-spark-playbooks，构建了标准化、可落地的性能基准测试体系，覆盖多节点部署、GPU 通信优化、大模型推理 / 训练等核心 AI 工作负载，助力开发者与企业用户快速验证并释放 GB10 芯片架构的分布式计算潜能。

直击 AI 部署痛点，标准化基准测试体系

DGX Spark 及搭载 GB10 芯片的 OEM 系统，凭借 Grace Blackwell GB10 超级芯片与 128GB 统一内存架构（UMA），可支持多大型语言模型（LLM）、视觉语言模型（VLM）并行运行，但多节点部署、GPU 通信优化、性能指标验证等环节长期缺乏标准化指引。此次发布的基准测试指南填补了这一空白，聚焦 “多节点协同” 与 “全场景性能验证” 两大核心，为各类基于 GB10 芯片的硬件平台提供从硬件连接到软件调优的全流程参考。

指南核心覆盖四大关键维度：

多节点基础配置

详细规范两台设备（DGX Spark 或 GB10 芯片 OEM 系统）通过 QSFP 线缆实现 200GbE 高速直连的部署步骤，包括网络接口配置、免密 SSH 认证、节点间通信验证等，确保分布式计算的底层网络稳定性；

GPU 通信性能验证

基于 NVIDIA Collective Communication Library（NCCL）提供标准化配置流程，30 分钟内即可完成多节点 NCCL 环境搭建与网络性能验证，支持 Blackwell 架构的 NCCL 最新版本（v2.28.9-1），为分布式训练筑牢通信基础；

全场景 AI 工作负载基准测试

涵盖 vLLM/Llama3-8B 大模型推理、Unsloth LLM 微调、ComfyUI 生成式 AI、RAG 检索增强生成、多智能体聊天机器人等主流 AI 场景，提供可直接运行的基准测试脚本（如 vLLM 基准测试.sh、LLM 性能对比.py），支持响应时间、tokens / 秒、显存占用等核心指标的量化分析；

故障排查与性能优化

针对 GB10 芯片的 UMA 统一内存特性，提供显存缓存清理、CUDA 版本适配、Docker 容器 GPU 访问等高频问题的解决方案，例如通过sudo sh -c 'sync; echo 3 > /proc/sys/vm/drop_caches'手动释放缓存，解决内存占用异常问题。

降本增效，释放 Blackwell 架构极致性能

该指南的发布大幅降低了 GB10 芯片平台的性能验证门槛：开发者可通过标准化流程快速完成多节点集群搭建，验证 NCCL 通信带宽；借助预置的基准测试脚本，一键对比 vLLM 与 Ollama 的推理性能（如 tokens / 秒、响应延迟），优化大模型部署策略；针对 Unsloth 微调、FLUX.1 模型微调等训练场景，提供 CUDA 环境验证、Docker 容器配置等前置指引，确保 GPU 资源高效利用。

值得关注的是，指南充分适配 GB10 芯片的硬件特性：针对 128GB 统一内存，明确了多模型并行运行的资源分配策略（如默认多智能体聊天机器人场景占用约 120GB 显存，可切换轻量化模型适配资源）；针对 Blackwell 架构的 GPU，优化了 NCCL 编译、JAX 框架部署等环节，确保软硬件协同发挥极致性能，无论是 DGX Spark 还是 OEM 系统都能获得一致的高性能体验。

开源赋能，生态共建 AI 基础设施标准

DGX Spark 性能基准测试指南作为 NVIDIA 开源生态的重要组成部分，依托 GitHub 仓库向全球开发者开放，支持自定义扩展测试场景、贡献故障排查方案。NVIDIA 表示，该指南将持续迭代，适配更多基于 Blackwell 架构的 AI 工作负载，助力开发者从 “功能部署” 向 “性能最优” 进阶，同时为 GB10 芯片 OEM 生态的标准化发展提供支撑。

“DGX Spark 及搭载 GB10 芯片的 OEM 系统，核心价值在于让高性能 AI 计算触手可及，而标准化的基准测试是释放其潜能的关键。”NVIDIA DGX 产品负责人表示，“此次发布的指南将帮助开发者与企业用户快速验证多节点 AI 工作负载的性能表现，降低分布式部署的试错成本，让更多创新基于 GB10 芯片平台落地。”

关于 NVIDIA DGX Spark 与 GB10 芯片 OEM 生态

NVIDIA DGX Spark 基于 Grace Blackwell GB10 超级芯片打造，集成 128GB 统一内存架构，支持 200GbE 高速互联；搭载 GB10 芯片的 OEM 系统则延续这一核心硬件优势，为市场提供多样化的高性能 AI 计算选择，两者共同覆盖大模型推理、微调、生成式 AI 等全场景，简化本地与远程 AI 开发流程。