支持NVIDIA GPU加速CML的模型开发

大数据杂货铺

发布于 2021-07-02 10:14:42

7290

在进行复杂或严格的企业机器学习项目时，数据科学家和机器学习工程师会大规模体验各种程度的处理滞后训练模型。虽然对小数据进行模型训练通常可能需要几分钟，但对大数据进行相同的训练可能要花费数小时甚至数周。为了克服这个问题，从业人员经常使用NVIDIA GPU来加速机器学习和深度学习工作负载。

CPU和GPU可以串联用于数据工程和数据科学工作负载。典型的机器学习工作流程涉及数据准备、模型训练、模型评分和模型拟合。从业人员可以使用现有的通用CPU，也可以使用GPU端到端地加速工作流程。尽管过去很难有效地利用GPU，但如今在Cloudera数据平台（CDP）上启用此功能已成为关键。数据科学家可以通过CDP私有云基础版，在任何云上和本地的CDP中本地利用NVIDIA一流的GPU计算框架。Cloudera与NVIDIA一起使优化数据科学工作流程和执行繁重的计算流程比以往任何时候都更加轻松。

在本博客系列文章中，我们将探索在CDP上的Cloudera Machine Learning（CML）中使用GPU进行访问、利用和受益的选项。

在本文中，我们将为CML Workspace设置和配置GPU资源。

在CML中使用GPU

首先，登录到CDP控制平面，然后单击“机器学习”。

通过单击Provision Workspace创建一个新的机器学习工作区。

命名工作空间，然后选择要使用的环境。单击底部的高级选项。在这里，您可以为工作区指定GPU。

选择您要使用的GPU实例类型。

选择GPU实例类型需要仔细考虑预期在工作区中运行的GPU工作负载的数量和类型。

________________________________________________________________________________

GPU选择

不同的实例类型将具有不同的GPU实例。通常，较新的GPU将具有更多功能并更快地运行代码，但是可能需要重新编译库以最好地利用这些功能。在撰写本文时，AWS EC2 P4实例中可用的A100是可用的最新一代GPU。不同的GPU也具有不同的RAM容量，因为GPU VRAM通常是数据处理的主要约束，因此确保您选择一个理想地适合其VRAM中的所有数据的GPU模型是另一个考虑因素。

一般的经验法则是，选择可以负担的最新一代GPU实例，并为其编程提供最大数量的GPU。对于机器学习应用程序，利用多个GPU有时需要进行复杂的代码更改，因此请考虑采用这种用例是否能证明额外的工程工作是合理的。您为机器学习应用程序选择的GPU通常还需要能够完全适应您正在其上训练的模型。使用NVIDIA RAPIDS和Spark 3 GPU应用程序，确保您有足够的VRAM来处理所有数据而不会浪费处理成本是主要考虑因素。

________________________________________________________________________________

选择GPU自动缩放范围。