
在进行复杂或严格的企业机器学习项目时,数据科学家和机器学习工程师会大规模体验各种程度的处理滞后训练模型。虽然对小数据进行模型训练通常可能需要几分钟,但对大数据进行相同的训练可能要花费数小时甚至数周。为了克服这个问题,从业人员经常使用NVIDIA GPU来加速机器学习和深度学习工作负载。
CPU和GPU可以串联用于数据工程和数据科学工作负载。典型的机器学习工作流程涉及数据准备、模型训练、模型评分和模型拟合。从业人员可以使用现有的通用CPU,也可以使用GPU端到端地加速工作流程。尽管过去很难有效地利用GPU,但如今在Cloudera数据平台(CDP)上启用此功能已成为关键。数据科学家可以通过CDP私有云基础版,在任何云上和本地的CDP中本地利用NVIDIA一流的GPU计算框架。Cloudera与NVIDIA一起使优化数据科学工作流程和执行繁重的计算流程比以往任何时候都更加轻松。
在本博客系列文章中,我们将探索在CDP上的Cloudera Machine Learning(CML)中使用GPU进行访问、利用和受益的选项。
在本文中,我们将为CML Workspace设置和配置GPU资源。
首先,登录到CDP控制平面,然后单击“机器学习”。

通过单击Provision Workspace创建一个新的机器学习工作区。

命名工作空间,然后选择要使用的环境。单击底部的高级选项。在这里,您可以为工作区指定GPU。

选择您要使用的GPU实例类型。

选择GPU实例类型需要仔细考虑预期在工作区中运行的GPU工作负载的数量和类型。
________________________________________________________________________________
GPU选择
不同的实例类型将具有不同的GPU实例。通常,较新的GPU将具有更多功能并更快地运行代码,但是可能需要重新编译库以最好地利用这些功能。在撰写本文时,AWS EC2 P4实例中可用的A100是可用的最新一代GPU。不同的GPU也具有不同的RAM容量,因为GPU VRAM通常是数据处理的主要约束,因此确保您选择一个理想地适合其VRAM中的所有数据的GPU模型是另一个考虑因素。
一般的经验法则是,选择可以负担的最新一代GPU实例,并为其编程提供最大数量的GPU。对于机器学习应用程序,利用多个GPU有时需要进行复杂的代码更改,因此请考虑采用这种用例是否能证明额外的工程工作是合理的。您为机器学习应用程序选择的GPU通常还需要能够完全适应您正在其上训练的模型。使用NVIDIA RAPIDS和Spark 3 GPU应用程序,确保您有足够的VRAM来处理所有数据而不会浪费处理成本是主要考虑因素。
________________________________________________________________________________
选择GPU自动缩放范围。

通过设置自动缩放范围,您可以配置可以在CML工作区中运行的最小实例数和最大实例数。运行实例的数量将根据GPU工作负载的数量和资源要求进行动态调整。
选择“自动缩放范围”时需要权衡取舍。当自动缩放范围从零开始时,第一个GPU工作负载将需要几分钟的时间来启动。如果您需要即时计算来进行实时项目,那么这是不理想的。在这段时间内,将提供一个新的GPU实例并将其附加到CML工作区。
设置更高的最小范围将在工作空间创建期间预配置GPU实例,并使工作负载在几秒钟内启动。无论实际资源使用情况如何,拥有可用的GPU实例都会带来额外的运营成本

创建一个新项目并启动GPU会话:

如果将工作空间的最小自动缩放范围设置为零,我们将需要等待几分钟,同时第一个GPU节点将被置备并添加到集群中:

设置好之后,我们可以看到有2个GPU可用:

同时,在CML仪表板上,我们可以看到计算资源的消耗和可用性:

工作空间消耗/可用资源:

在本文中,我们回顾了如何为CDP中的Cloudera Machine Learning Workspaces配置和配置GPU。接下来,我们将回顾不同的选项和构建块以端到端地利用GPU。
开始使用GPU加速的机器学习技术在现在CDP,你就可以开始在这里。
原文作者:Peter Ableda
原文链接:https://blog.cloudera.com/enabling-nvidia-gpus-to-accelerate-model-development-in-cloudera-machine-learning/