2021年该如何选择深度学习工具？这款数据科学工作站了解一下

机器之心

发布于 2023-03-29 18:28:40

3150

发布于 2023-03-29 18:28:40

文章被收录于专栏：机器之心

机器之心发布

机器之心编辑部

6 月 12 日机器之心 CVPR 2021 论文分享会上，惠普将展示一款强大的数据科学工作站。

AI 研发者们想要找到一台能够稳定跑深度学习算法的电脑，其实是一件有点挑战性的事。

DIY 是一个常见的思路，不过对于那些选择自行搭建系统的人来说，从主板到电源一切细节都要慢慢学起，还经常会遇到这样那样的问题；同时，如何保证各硬件都能协调运行，达到所需的性能，也是一大难题；另一方面，在全球芯片短缺的当下，要获得一块能满足 AI 研发需求的显卡也并非易事。在此基础上，研发者还需要自己寻找或购买软件来搭建环境，可谓相当费时费力。

惠普最近升级的 HP Z8 G4 工作站，不论在开发环境的搭建还是到硬件的布局配置，都为我们带来了一套完整的解决方案。这是一款搭载英特尔 Xeon 可扩展处理器和英伟达 Quadro RTX 显卡的高端计算设备。

对于 AI 学习和研究者而言，训练深度学习模型需要耗费不少精力。除了软件环境和框架，硬件配置的很多方面都会影响到实验效率。在处理模型时，硬盘会影响数据读取的速度，CPU 会影响输入效率，GPU 影响训练速度，显存大小也与 Batch Size 强相关。

如果有一台算力强大、配置合理的工作站，可以帮助我们高效完成实验，对于工作来说是相当重要的。

近日，Kaggle AI 竞赛爱好者 Gary 体验了一把用 HP Z8 G4 工作站做 AI 的强大能力。在 Gary 看来，不论是从开发环境的搭建还是到硬件的布局配置，该工作站都已经提供了非常完整与合理的优化和调整。在 HP Z8 G4 工作站的帮助下，他也在一些比赛中获得好成绩。

下面，就让我们从 Gary 的测评结果中，了解下 HP Z8 G4 工作站以及它训练 AI 模型的能力。

惠普 Z8 G4 工作站的硬件配置

和所有台式机一样，HP Z8 G4 的关键硬件是可自由选配的，不过它最多可以搭载两个 CPU、六块硬盘和三张显卡。

机箱外观

HP Z8 G4 的机箱采用了黑色磨砂铝制外壳，其设计让人感觉非常沉稳。机箱内部布局十分清晰，采用模块化设计，每一个模块都可以进行卡扣式的拆卸操作，利于扩展或升级硬件配置。

工作站外观与内部布局

CPU 处理器

用于测试的 HP Z8 G4 搭配了双英特尔 Xeon Gold 6254 处理器，带有 18 个核心，36 个线程，标准频率 3.1GHz，睿频频率 4.0GHz。相比最多 10 核 20 线程的酷睿 i9，「至强」的功率更大，核心更多。在涉及到复杂的数据处理或需要在 CPU 下进行模型训练的情况下，多核的 CPU 带有天然的优势。

CPU 参数

GPU

这台 HP Z8 G4 搭配了两块英伟达 Quadro RTX 6000 GPU，其采用「图灵」架构的 NVIDIA RTX 平台，同时利用硬件加速光线追踪、深度学习和先进的着色技术大幅提升工作效率，每块 RTX 6000 都带有 24GB GDDR6 的显存和 4608 个 CUDA 核心，以及 576 个 Tensor Core，可以实现 16.3 TFLOPS 的 FP32 算力，轻松训练更深、更大的深度学习模型。

GPU 参数

内存和硬盘

这台 HP Z8 G4 搭配了 8×12 96GB 的内存和 2×1TB M.2 SSD 固态硬盘，按照惠普官方说明，它可最多扩展至 3TB 内存，同时机箱提供了 4 个 3.5/2.5 英寸的硬盘位，可自由扩展更大的硬盘空间。

以下是 Gary 使用 HP Z8 G4 工作站做出的测评结果。

不同 CNN 模型在 HP Z8 G4 的训练速度对比

在这里所使用的训练数据将会被 resize 到 256×256 像素，并进行一些不同的数据增强，然后进行训练。

训练数据

分类任务的训练

Gary 在 HP Z8 G4 上进行一些 CNN backbone 模型的训练，后续进行 float32/16 的速度对比，并且会尽可能把 GPU 利用率提供到 100%，使得每个模型都在接近相同的 GPU 利用率下计算速度。作者选了一些常规网络类型，如 ResNet，EfficientNet 来进行训练速度基准测试。

单 GPU 训练 / 测试速度对比

通过对比可以看出，得益于 RTX6000 强大的浮点运算能力，工作站的单卡训练速度也非常优秀。不论是在训练还是前向推理的模式上，由于 RTX 系列 GPU 对 Float16 推理加速已经进行了特别的优化，使得训练 / 推理速度，在大部分模型下都可以获得接近翻倍的速度提升。

双 GPU 训练速度对比

如果测试双卡并行训练的速度，对比单 GPU+float16 训练时，又可以获得接近一倍的速度提升，双卡并行可以充分发挥工作站强大 GPU 的性能。

数据增强处理

Gary 使用了 ResNet50 与大量复杂数据增强方式进行训练，大部分数据增强都是在 CPU 上进行处理的，需要消耗比较大 CPU 资源。如下图中的对比，在使用 32 线程与 0 线程时，速度可以差异到 10 倍以上，HP Z8 G4 带有 72 线程的 CPU，在处理数据的速度上有着较大的优势。