社区首页 >专栏 >为什么机器学习部署起来这么难？

为什么机器学习部署起来这么难？

石晓文

发布于 2019-11-12 13:01:49

6220

文章被收录于专栏：小小挖掘机小小挖掘机

作者：Alexandre Gonfalonieri 编译：ronghuaiyang

导读

根据我作为顾问的经验，只有非常少的机器学习项目能够投入生产。一个人工智能项目可能会因为多种原因而失败，其中之一就是部署。

在做了几个人工智能项目之后，我意识到，对于那些愿意通过人工智能创造价值的公司来说，大规模部署机器学习(ML)模型是最重要的挑战之一。

根据我作为顾问的经验，只有非常少的机器学习项目能够投入生产。一个人工智能项目可能会因为多种原因而失败，其中之一就是部署。对于每个决策者来说，完全理解部署是如何工作的，以及在达到这一关键步骤时如何降低失败的风险是非常关键的。

部署的模型可以定义为无缝集成到生产环境中的任何代码单元，并且可以接收输入并返回输出。

我曾经看到，为了将他们的工作投入生产，数据科学家通常必须将他或她的数据模型进行工程实现。在这一步中，出现了一些最常见的数据科学问题。

挑战

机器学习有一些独特的特性，使得大规模部署变得更加困难。这是我们正在处理的一些问题：

管理数据科学语言

你可能知道，机器学习应用程序通常由使用不同的编程语言编写组成。它们之间的相互作用并不是很好。我曾多次看到，机器学习pipeline从R开始，在Python中继续，并以另一种语言结束。

一般来说，Python和R是机器学习应用程序中最流行的语言，但我注意到，由于各种原因(包括速度)，很少使用这些语言部署生产模型。将Python或R模型移植到像c++或Java这样的生产语言中是很复杂的，并且通常会降低原始模型的性能(速度、准确性等)。

当软件的新版本发布时，R包可能会崩溃。此外，R速度慢，无法高效地处理大数据。

对于原型设计来说，它是一种很棒的语言，因为它允许简单的交互和解决问题，但是需要将它翻译成Python或c++或Java来进行生产。

诸如Docker之类的容器化技术可以解决由大量工具引入的不兼容性和可移植性挑战。然而，自动依赖项检查、错误检查、测试和构建工具将不能解决跨越语言障碍的问题。

可复现性也是一个挑战。实际上，数据科学家可以使用不同的编程语言、库或同一库的不同版本来构建模型的多个版本。手动跟踪这些依赖关系很困难。为了解决这些挑战，需要一个机器学习生命周期工具，它可以在训练阶段自动跟踪并记录这些依赖项，并将它们作为代码的配置，然后将它们与训练的模型一起打包到一个随时可以部署的工件中。

我建议你使用一种工具或平台，它可以立即将代码从一种语言转换为另一种语言，或者允许你的数据科学团队在API背后部署模型，以便在任何地方集成它们。

计算能力和GPU

神经网络通常会非常深，这意味着训练和使用它们进行推理需要大量的计算能力。通常，我们希望我们的算法运行得更快，对于很多用户来说，这可能是一个障碍。

此外，现在许多生产上的机器学习都依赖于GPU。然而，它们既稀缺又昂贵，这很容易给机器学习的扩展任务增加另一层复杂性。

可移植性

模型部署的另一个有趣的挑战是缺乏可移植性。我注意到这通常是遗留分析系统的问题。由于缺乏将软件组件轻松迁移到另一个主机环境并在那里运行的能力，组件可能会被锁定在特定的平台上。这可能为数据科学家在创建和部署模型时制造障碍。

可扩展性

对于许多AI项目来说，可扩展性是一个真正的问题。实际上，你需要确保你的模型能够扩展并满足生产中性能和应用程序需求的增长。在项目开始时，我们通常依赖于可管理范围内的相对静态数据。随着模型进入生产环境，它通常会接触到大量的数据和数据传输模式。你的团队将需要一些工具来监视和解决性能和可扩展性方面的问题，这些问题将随着时间的推移而出现。

我认为，可扩展性问题可以通过采用一致的、基于微服务的方法来进行生产分析来解决。团队应该能够通过简单的配置更改快速地将模型从批处理迁移到随需应变的流处理。类似地，团队应该有扩展计算和内存占用的选项，以支持更复杂的工作负载。

机器学习峰值计算

一旦你的算法被训练好了，它们并不是时时刻刻被使用——你的用户只会在需要的时候调用它们。

这可能意味着你只需要支持上午8:00时的100个API调用，而在8:30时需要支持10,000个API调用。

根据我的经验，我可以告诉你，使用动态扩大或缩小你的服务来确保不为你不需要的服务器付费是一个挑战

由于所有这些原因，只有少数数据科学项目最终真正进入生产系统。