英伟达DGX Spark迷你AI超算深度解析

原创

用户11764306

发布于 2025-10-20 22:40:14

1.3K0

某机构将其期待已久的DGX Spark称为“世界上最小的AI超级计算机”。这款基于Arm架构的迷你PC售价在3000至4000美元之间（具体取决于配置和OEM厂商），但它的优势并非在于速度。

该设备远非某机构产品线中最快的GPU。在大语言模型推理、微调甚至图像生成方面，它都无法击败RTX 5090，更不用说游戏性能了。然而，DGX Spark以及基于GB10的一系列系统能够运行市场上5090或其他任何消费级显卡根本无法处理的模型。

Spark配备了128GB内存，这是某机构工作站GPU中容量最大的。某机构通过使用LPDDR5x实现了这一点，虽然与50系列使用的GDDR7相比速度较慢，但这个小盒子能够对高达2000亿参数的模型进行推理，或对高达700亿参数的模型进行微调（均为4位精度）。

通常情况下，这类工作负载需要多个高端GPU，成本达数万美元。通过用少量性能和大量带宽换取纯粹容量，某机构构建了一个系统，它可能在任何单一任务上都不是最快的，但能够运行所有任务。

Spark的核心是某机构的GB10系统芯片，本质上是该公司价值数百万美元机架系统中Grace Blackwell超级芯片的缩小版。

该芯片包含两个芯片：一个用于CPU，一个用于GPU——均基于某制造商的3nm工艺技术构建，并使用该制造商的高级封装技术粘合。

与更大的兄弟产品不同，GB10不使用Arm的Neoverse核心。该芯片是与某公司合作构建的，具有20个Arm核心——10个X925性能核心和10个Cortex A725效率核心。

GPU基于与某机构50系列其他产品相同的Blackwell架构。该AI硬件供应商声称，图形处理器能够提供1 petaFLOP的FP4计算能力。

Spark的内存容量对于微调特别有吸引力。即使是像Mistral 7B这样适中的LLM，完整的微调也可能需要超过100GB的内存。

在测试中，Spark以125 teraFLOPS的密集BF16性能，在刚好超过一分半钟的时间内完成了对某机构30亿参数Llama 3.2模型的微调任务。

相比之下，48GB的RTX 6000 Ada（一年前售价约为GB10系统的两倍）在不到30秒内完成了基准测试。

在图像生成测试中，DGX Spark在流行的ComfyUI网络GUI中以BF16精度运行某实验室的FLUX.1 Dev。在此精度下，120亿参数模型至少需要24GB显存才能在GPU上运行。

设置为50个生成步骤时，DGX Spark需要约97秒来生成图像，而RTX 6000 Ada只需37秒。

但凭借128GB显存，Spark不仅能运行模型。某机构的文档提供了使用自己的图像微调像FLUX.1 Dev这样的扩散模型的说明。该过程耗时约四小时，占用略超过90GB内存。

对于LLM推理测试，使用了三种最流行的某机构硬件模型运行器：Llama.cpp、vLLM和TensorRT LLM。

所有推理测试均使用4位量化运行，该过程将模型权重压缩到原始大小的约四分之一，同时将其吞吐量提高四倍。

在模型运行器中，Llama.cpp实现了最高的令牌生成性能，在几乎所有场景中都匹配甚至击败了vLLM和TensorRT LLM。

在提示处理方面，TensorRT实现的性能显著优于vLLM或Llama.cpp。

参数	某机构DGX Spark	某机构Jetson Thor	某中心M4 Max	某机构Ryzen AI Max+ 395
操作系统	DGX OS	?	MacOS	Windows/Linux
FP/BF16 TFLOPS	125	250	?	59估计值
FP4 TFLOPS	500	1000	?	?
最大内存容量	128GB	128GB	128GB	128GB
内存带宽	273GBps	273GBps	546GBps	256GBps
运行时	CUDA	CUDA	Metal	ROCm/HIP
价格	$3000-$3999	$3499	$3499-$5899	$1999+