首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >英伟达DGX Spark迷你AI超算深度解析

英伟达DGX Spark迷你AI超算深度解析

原创
作者头像
用户11764306
发布2025-10-20 22:40:14
发布2025-10-20 22:40:14
1.3K0
举报

产品概述

某机构将其期待已久的DGX Spark称为“世界上最小的AI超级计算机”。这款基于Arm架构的迷你PC售价在3000至4000美元之间(具体取决于配置和OEM厂商),但它的优势并非在于速度。

该设备远非某机构产品线中最快的GPU。在大语言模型推理、微调甚至图像生成方面,它都无法击败RTX 5090,更不用说游戏性能了。然而,DGX Spark以及基于GB10的一系列系统能够运行市场上5090或其他任何消费级显卡根本无法处理的模型。

核心技术特点

内存架构

Spark配备了128GB内存,这是某机构工作站GPU中容量最大的。某机构通过使用LPDDR5x实现了这一点,虽然与50系列使用的GDDR7相比速度较慢,但这个小盒子能够对高达2000亿参数的模型进行推理,或对高达700亿参数的模型进行微调(均为4位精度)。

通常情况下,这类工作负载需要多个高端GPU,成本达数万美元。通过用少量性能和大量带宽换取纯粹容量,某机构构建了一个系统,它可能在任何单一任务上都不是最快的,但能够运行所有任务。

芯片设计

Spark的核心是某机构的GB10系统芯片,本质上是该公司价值数百万美元机架系统中Grace Blackwell超级芯片的缩小版。

该芯片包含两个芯片:一个用于CPU,一个用于GPU——均基于某制造商的3nm工艺技术构建,并使用该制造商的高级封装技术粘合。

与更大的兄弟产品不同,GB10不使用Arm的Neoverse核心。该芯片是与某公司合作构建的,具有20个Arm核心——10个X925性能核心和10个Cortex A725效率核心。

GPU基于与某机构50系列其他产品相同的Blackwell架构。该AI硬件供应商声称,图形处理器能够提供1 petaFLOP的FP4计算能力。

硬件规格

规格类别

详细参数

架构

Grace Blackwell

GPU

Blackwell架构

CPU

20核Arm(10x X925 + 10x A725)

CUDA核心

6,144

张量核心

192个第五代

RT核心

48个第四代

张量性能

1 petaFLOP稀疏FP4

系统内存

128GB LPDDR5x 8533 MT/s

内存总线

256位

内存带宽

273 GBps

存储

4TB NVMe

网络

1个RJ-45(10GbE)

尺寸

150mm x 150mm x 50.5mm

性能测试

微调性能

Spark的内存容量对于微调特别有吸引力。即使是像Mistral 7B这样适中的LLM,完整的微调也可能需要超过100GB的内存。

在测试中,Spark以125 teraFLOPS的密集BF16性能,在刚好超过一分半钟的时间内完成了对某机构30亿参数Llama 3.2模型的微调任务。

相比之下,48GB的RTX 6000 Ada(一年前售价约为GB10系统的两倍)在不到30秒内完成了基准测试。

图像生成

在图像生成测试中,DGX Spark在流行的ComfyUI网络GUI中以BF16精度运行某实验室的FLUX.1 Dev。在此精度下,120亿参数模型至少需要24GB显存才能在GPU上运行。

设置为50个生成步骤时,DGX Spark需要约97秒来生成图像,而RTX 6000 Ada只需37秒。

但凭借128GB显存,Spark不仅能运行模型。某机构的文档提供了使用自己的图像微调像FLUX.1 Dev这样的扩散模型的说明。该过程耗时约四小时,占用略超过90GB内存。

LLM推理

对于LLM推理测试,使用了三种最流行的某机构硬件模型运行器:Llama.cpp、vLLM和TensorRT LLM。

所有推理测试均使用4位量化运行,该过程将模型权重压缩到原始大小的约四分之一,同时将其吞吐量提高四倍。

在模型运行器中,Llama.cpp实现了最高的令牌生成性能,在几乎所有场景中都匹配甚至击败了vLLM和TensorRT LLM。

在提示处理方面,TensorRT实现的性能显著优于vLLM或Llama.cpp。

竞争对比

参数

某机构DGX Spark

某机构Jetson Thor

某中心M4 Max

某机构Ryzen AI Max+ 395

操作系统

DGX OS

?

MacOS

Windows/Linux

FP/BF16 TFLOPS

125

250

?

59估计值

FP4 TFLOPS

500

1000

?

?

最大内存容量

128GB

128GB

128GB

128GB

内存带宽

273GBps

273GBps

546GBps

256GBps

运行时

CUDA

CUDA

Metal

ROCm/HIP

价格

$3000-$3999

$3499

$3499-$5899

$1999+

总结

DGX Spark是否适合您取决于几个因素。

如果您想要一个小型、低功耗的AI开发平台,同时能够兼任生产力、内容创作或游戏系统,那么DGX Spark可能不适合您。您最好投资于某机构的Strix Halo或某中心的Studio,或者等待几个月直到某机构的GB10超级芯片不可避免地出现在Windows设备中。

但是,如果您的主要重点是机器学习,并且正在市场上寻找相对实惠的AI工作站,那么很少有选项能像Spark一样满足如此多的需求。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 产品概述
  • 核心技术特点
    • 内存架构
    • 芯片设计
  • 硬件规格
  • 性能测试
    • 微调性能
    • 图像生成
    • LLM推理
  • 竞争对比
  • 总结
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档