
导语
近日,NVIDIA官方针对旗下轻量化AI设备DGX Spark的功耗参数发布重要更新,明确整机峰值总功率为240W,并详细拆解了GPU/CPU核心(GB10 SoC)与其他组件的功耗分配逻辑。同时特别提醒:通过nvidia-smi工具监测的功耗仅反映GPU部分,非整机能耗。这一声明对开发者、运维人员理解设备实际负载能力、合理规划能源配置具有重要指导意义。

NVIDIA在最新声明中明确指出:DGX Spark的整机峰值总系统功率为240W,具体由三大核心模块构成,每一部分的功率设计均经过精密权衡,以确保性能与稳定性的平衡。
作为设备的“大脑”,GB10系统级芯片(SoC)集成了GPU(图形处理器)与CPU(中央处理器),承担了AI推理、训练及数据处理等核心计算任务。其热设计功耗(TDP)为140W——这是芯片在长期稳定运行时允许的最大热功耗阈值,也是散热系统设计的关键依据。
简单来说,140W的TDP意味着GB10 SoC在满负载计算时,功耗不会超过这一数值(实际运行中可能更低),既能保障AI任务的高效处理,又避免了过热导致的性能降级或硬件损伤。
剩余的100W功耗分配给了除GB10外的必要硬件,包括:
•ConnectX-7网络适配器:高性能网络接口(支持高速以太网或InfiniBand),是设备与外部集群数据交互的“桥梁”,尤其对分布式训练或实时推理场景至关重要;
•SSD固态硬盘:提供高速本地存储,支撑模型参数、训练数据的快速读写;
•USB-C接口预留:支持外接显示器、传感器等扩展设备,增强设备的灵活性与场景适应性。
这些组件虽不直接参与核心计算,但却是保障设备功能完整性的基础,100W的分配体现了“轻量化不减功能”的设计理念。
三者相加的240W峰值总功耗,是DGX Spark在满负载运行时(GB10满血输出+其他组件全速工作)的理论功耗上限。这一数值直接影响电源适配器的规格选择、散热方案设计(如风扇转速、散热片尺寸)以及部署环境的电力承载能力。用户需确保供电系统能稳定提供至少240W的功率,避免因过载引发宕机或性能下降。
nvidia-smi只测GPU功耗!别忽略其他组件在日常使用中,开发者通常通过NVIDIA官方工具nvidia-smi监测GPU状态,其中显示的“功耗”数值(单位:W)仅对应GPU部分的实时消耗,而非DGX Spark的整机能耗。
举个例子:若nvidia-smi显示GPU功耗为120W,仅代表当前计算负载下GPU芯片的用电量;但如果此时CPU正在处理大量数据预处理任务、ConnectX-7正在进行高速数据传输,整机的实际功耗可能已接近甚至达到240W上限。
这一细节对以下场景尤为关键:
•电源选型:不能仅根据
nvidia-smi的GPU功耗估算总用电需求,必须以240W整机峰值为准;
•能效优化:若发现设备总功耗异常偏高,需排查非GPU组件(如后台进程占用CPU、网络持续高吞吐)是否成为“隐形耗电大户”;
•散热管理:即使GPU功耗未达140W,其他组件的发热叠加也可能影响整机温度,需综合评估散热能力。
对于DGX Spark的用户而言,理解“240W整机峰值=140W GB10 SoC+100W其他组件”的分配逻辑,以及nvidia-smi的监测范围限制,是高效使用设备的第一步。无论是部署在边缘机房、实验室还是移动工作站,只有精准掌握功耗特征,才能在性能、能耗与稳定性之间找到最佳平衡点。
未来,随着轻量化AI设备的普及,类似的“细节透明化”将成为行业趋势——NVIDIA此次主动澄清,正是为了让用户“知其然更知其所以然”,真正释放技术的实用价值。