前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >2021年该如何选择深度学习工具?这款数据科学工作站了解一下

2021年该如何选择深度学习工具?这款数据科学工作站了解一下

作者头像
机器之心
发布2023-03-29 18:28:40
3150
发布2023-03-29 18:28:40
举报
文章被收录于专栏:机器之心

机器之心发布

机器之心编辑部

6 月 12 日机器之心 CVPR 2021 论文分享会上,惠普将展示一款强大的数据科学工作站。

AI 研发者们想要找到一台能够稳定跑深度学习算法的电脑,其实是一件有点挑战性的事。

DIY 是一个常见的思路,不过对于那些选择自行搭建系统的人来说,从主板到电源一切细节都要慢慢学起,还经常会遇到这样那样的问题;同时,如何保证各硬件都能协调运行,达到所需的性能,也是一大难题;另一方面,在全球芯片短缺的当下,要获得一块能满足 AI 研发需求的显卡也并非易事。在此基础上,研发者还需要自己寻找或购买软件来搭建环境,可谓相当费时费力。

惠普最近升级的 HP Z8 G4 工作站,不论在开发环境的搭建还是到硬件的布局配置,都为我们带来了一套完整的解决方案。这是一款搭载英特尔 Xeon 可扩展处理器和英伟达 Quadro RTX 显卡的高端计算设备。

对于 AI 学习和研究者而言,训练深度学习模型需要耗费不少精力。除了软件环境和框架,硬件配置的很多方面都会影响到实验效率。在处理模型时,硬盘会影响数据读取的速度,CPU 会影响输入效率,GPU 影响训练速度,显存大小也与 Batch Size 强相关。

如果有一台算力强大、配置合理的工作站,可以帮助我们高效完成实验,对于工作来说是相当重要的。

近日,Kaggle AI 竞赛爱好者 Gary 体验了一把用 HP Z8 G4 工作站做 AI 的强大能力。在 Gary 看来,不论是从开发环境的搭建还是到硬件的布局配置,该工作站都已经提供了非常完整与合理的优化和调整。在 HP Z8 G4 工作站的帮助下,他也在一些比赛中获得好成绩。

下面,就让我们从 Gary 的测评结果中,了解下 HP Z8 G4 工作站以及它训练 AI 模型的能力。

惠普 Z8 G4 工作站的硬件配置

和所有台式机一样,HP Z8 G4 的关键硬件是可自由选配的,不过它最多可以搭载两个 CPU、六块硬盘和三张显卡。

机箱外观

HP Z8 G4 的机箱采用了黑色磨砂铝制外壳,其设计让人感觉非常沉稳。机箱内部布局十分清晰,采用模块化设计,每一个模块都可以进行卡扣式的拆卸操作,利于扩展或升级硬件配置。

工作站外观与内部布局

CPU 处理器

用于测试的 HP Z8 G4 搭配了双英特尔 Xeon Gold 6254 处理器,带有 18 个核心,36 个线程,标准频率 3.1GHz,睿频频率 4.0GHz。相比最多 10 核 20 线程的酷睿 i9,「至强」的功率更大,核心更多。在涉及到复杂的数据处理或需要在 CPU 下进行模型训练的情况下,多核的 CPU 带有天然的优势。

CPU 参数

GPU

这台 HP Z8 G4 搭配了两块英伟达 Quadro RTX 6000 GPU,其采用「图灵」架构的 NVIDIA RTX 平台,同时利用硬件加速光线追踪、深度学习和先进的着色技术大幅提升工作效率,每块 RTX 6000 都带有 24GB GDDR6 的显存和 4608 个 CUDA 核心,以及 576 个 Tensor Core,可以实现 16.3 TFLOPS 的 FP32 算力,轻松训练更深、更大的深度学习模型。

GPU 参数

内存和硬盘

这台 HP Z8 G4 搭配了 8×12 96GB 的内存和 2×1TB M.2 SSD 固态硬盘,按照惠普官方说明,它可最多扩展至 3TB 内存,同时机箱提供了 4 个 3.5/2.5 英寸的硬盘位,可自由扩展更大的硬盘空间。

以下是 Gary 使用 HP Z8 G4 工作站做出的测评结果。

不同 CNN 模型在 HP Z8 G4 的训练速度对比

在这里所使用的训练数据将会被 resize 到 256×256 像素,并进行一些不同的数据增强,然后进行训练。

训练数据

分类任务的训练

Gary 在 HP Z8 G4 上进行一些 CNN backbone 模型的训练,后续进行 float32/16 的速度对比,并且会尽可能把 GPU 利用率提供到 100%,使得每个模型都在接近相同的 GPU 利用率下计算速度。作者选了一些常规网络类型,如 ResNet,EfficientNet 来进行训练速度基准测试。

单 GPU 训练 / 测试速度对比

通过对比可以看出,得益于 RTX6000 强大的浮点运算能力,工作站的单卡训练速度也非常优秀。不论是在训练还是前向推理的模式上,由于 RTX 系列 GPU 对 Float16 推理加速已经进行了特别的优化,使得训练 / 推理速度,在大部分模型下都可以获得接近翻倍的速度提升。

双 GPU 训练速度对比

如果测试双卡并行训练的速度,对比单 GPU+float16 训练时,又可以获得接近一倍的速度提升,双卡并行可以充分发挥工作站强大 GPU 的性能。

数据增强处理

Gary 使用了 ResNet50 与大量复杂数据增强方式进行训练,大部分数据增强都是在 CPU 上进行处理的,需要消耗比较大 CPU 资源。如下图中的对比,在使用 32 线程与 0 线程时,速度可以差异到 10 倍以上,HP Z8 G4 带有 72 线程的 CPU,在处理数据的速度上有着较大的优势。

多线程对训练速度的影响

散热表现

HP Z8 G4 工作站可以保证即使是在高负载的情况下,内部温度仍保持在合理范围内。可以观察到,即使在 100% 的 GPU 使用率情况下,HP Z8 G4 的 NVIDIA RTX 6000 GPU 也只保持在 60 摄氏度左右。需要注意的是,这是在没有引入水冷散热的情况下。

GPU 的散热表现

总结

HP Z8 G4 不仅易于扩展,从模型的训练使用体验来看,模型训练速度快,并且其提供了较大的显存,可以更好地提升模型的性能。

据惠普最新版本的说明,Z8 G4 还可以升级为 NVIDIA Quadro RTX 8000,单卡拥有 48GB 的显存,是 RTX 6000 的 2 倍,GPU 性能更为强大。对于 AI 开发者而言,HP Z8 G4 工作站是一个很好的选择。

参考原文:

AI战斗机——HP Z8 G4工作站,高强性能大秀Ready Go→

HP Z8 G4 工作站  配置清单 · 惠普 2021 年 5 月版

https://www8.hp.com/h20195/v2/GetPDF.aspx/c05527763.pdf

CVPR 2021 线下论文分享会惠普展台

6月12日,北京望京凯悦酒店。CVPR 2021 线下论文分享会将设置Keynote、论文分享Poster环节。

在此论文分享会上,惠普的展台将展示全新 Z8 G4 以及更多型号工作站的强大机器学习能力。

欢迎大家点击阅读原文报名参观。

© THE END 

转载请联系本公众号获得授权

投稿或寻求报道:content@jiqizhixin.com

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-06-03,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器之心 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档