AutoML是算法工程师的末日吗？

McGL

发布于 2020-09-03 14:55:20

1.3K0

发布于 2020-09-03 14:55:20

文章被收录于专栏：PyVision

AutoML 势如破竹，算法工程师/数据科学家最后的堡垒在哪里？

作者：Frederik Bussler 编译：McGL

背景

2012年，一份关于 Auto-WEKA 的 arXiv 报告发布，描述了一种自动选择机器学习算法、特征和超参数的方法，期望是它能够“帮助该领域的非专家用户”。

最近，随着所有大型科技公司进入这一领域，AutoML 的人气急剧上升。

“automl” 的新闻报道 by CBInsights

2016年4月，Facebook 宣布 AutoML 是其人工智能的“骨干”。2018年1月，谷歌发布了 Cloud AutoML。2018年8月，Salesforce 将其 Einstein AutoML 库开源。一个月后，微软将 AutoML 引入了 Azure AI 平台。今年早些时候，亚马逊推出了另一个开源的 AutoML 工具包 AutoGluon。

AutoML现状

CB Insights 列出了40多家 AutoML 公司，当然还有更多。以下只是其中的几家:

Accern, Aible, AIgatha, Aito, Amenity Analytics, Auger, BACC, beynd, causaLens, CybordIntell, DarwinAI, DeepBlue Technology, Determined AI, dotData, Edge, Evolv Technologies, Explorium, Feedzai, Figure Technologies, Flywheel, H2O.ai, henQ, Hiretual, Industrial Analytics, Inspur Group, Intento, MAANA, Marlabs, MindsDB, Monitor, Moorfields Eye Hospital, Node, Plataine, Qeexo, Redpepper, Risk Ledger, Servian, Sittercity, Stack Data, Stratifyd, and The SmartHUB.

如果我们看看 YCombinator 的Startup School forum, /r/startups，甚至只是 Twitter，我们会发现创始人们正在毫无节制的大量产生新的 AutoML 和无代码的AI项目。

无代码（No-Code） AI: AutoML 的一个子集

无代码AI是AutoML的一个子集

值得注意的是“无代码 AI”和 autoML 之间的区别。AutoML 通常是无代码或少代码的，但也有代码密集或技术复杂的 AutoML 解决方案，比如 Auto-WEKA。

无代码 AI 和分析性解决方案(如 Apteo)旨在尽可能简化 autoML，消除任何进入的技术障碍。

AutoML有什么好处

对 AutoML 的大肆炒作有一个很好的理由: AutoML 是许多组织的必备品。

让我们以 Salesforce 为例。他们解释说，“客户希望预测一系列结果，包括客户流失、销售预测、转化率、电子邮件营销点击率、网站购买、offer接受、设备故障、延迟付款等等。”

简而言之，机器学习无处不在。然而，为了使机器学习对每个独特的客户都有效，他们将“必须建立和部署成千上万个性化的机器学习模型，这些模型是针对每个单独的用例的每个客户的数据进行训练的” ，而且“不雇佣大量数据科学家的唯一方法是实现自动化。”

虽然很多人认为 AutoML 是一种为机器学习带来易用性和高效性的方法，但事实是，对于许多企业应用程序来说，没有其它方法可以做到这一点。像 Facebook、 Salesforce 或谷歌这样的公司不能雇佣数据科学家为他们数十亿用户中的每一个建立定制模型，所以他们使机器学习自动化，使大规模独特的模型成为可能。

自动化的机器学习组件的数量取决于平台，但是在 Salesforce 中，它包括特征推理、自动化特征工程、自动化特征验证、自动化模型选择和超参数优化。

这意味着数据科学家可以在生产中部署成千上万个型号，而不需要繁重的工作和手工调整，大大减少了周转时间。

通过将工作从数据处理转向更有意义的分析，AutoML 使数据科学的应用更具创造性，更专注于商业。

AutoML的缺点在哪里

考虑到廉价、高效和简单的 AutoML 工具的普及，我们可能期望 AutoML 将取代数据科学家。

然而，AutoML 有几个缺点。

前言

请注意这些缺陷与 AutoML 的准确率或可用性无关。

例如，有些人声称 AutoML 不能处理强化学习，这被 AlphaZero 的例子证明是错误的，AlphaZero 是一个没有领域知识的模型，却达到了超人的水平。

此外，有些人声称 AutoML 不能在非监督式学习上工作，这也是不对的。

最后，一些人声称 AutoML 不能做特性工程，这被我们之前的 Salesforce 的 AutoML 例子所否定，该例子在自动特性工程之后做了数十亿次的预测。

缺点

AutoML 最大的缺点是没有商业直觉。AutoML 会让你更快地得到一个可以部署生产的模型，但是它不会告诉你为什么要使用机器学习或者什么是商业合理性，更不用说选择一个合理的问题来尝试找到有用的机会。

现在，假设你使用直觉(而非数据科学家)来选择一个问题，并以某种方式将所有利益相关者(即使没有数据科学家参与)联合起来——你仍然需要找到正确的训练数据。

AutoML 首先不具备选择数据的能力——你需要弄清楚你所拥有的哪些数据可以代表你正在试图解决的问题。

假设我们选择了一个问题，利益一致，并找到了代表性数据。在建立模型之后，我们很容易就会遇到偏差问题。

人类天生就有偏见，这种偏见反映在我们输出的数据中。如果我们盲目地根据有偏差的数据训练模型，那么我们的模型可能会有偏差。亚马逊的性别歧视招聘算法和谷歌的种族主义图像分类算法都清楚地表明了这一点。

此外，一旦我们的模型被创建出来，它仍然需要被软件工程师集成到平台的其余部分。然而，软件工程师通常不了解人工智能的局限性，因为这不是他们的工作。你可能最终实现了一个错误的模型。

最后，假设你已经将模型投入生产。数据科学家最有可能看到模型的附加值，因为他们是人工智能实现的拥护者。如果没有任何数据科学家，你可能会错误的推销该特性，并且不理解它真正闪耀的用例是什么。

总结

AutoML是一个快速发展的领域，这是有充分理由的。它实现了定制的机器学习模型，不需要大量的数据科学家就能产生数十亿的预测。

然而，AutoML 并不意味着数据科学家的终结，因为它不会“自动选择”一个业务问题来解决，它不会自动选择代表性数据，它不会自动针对利益相关方进行调整，它不会在潜在的偏见面前提供自动伦理，它不会与你的产品的其余部分进行自动集成，它不会在事后自动营销。

这些都是数据科学家可以提供帮助的领域。

毕竟，如何在你的组织中有意义地实现人工智能这个大问题中，AutoML 只是总拼图中的一块。

原文：https://towardsdatascience.com/will-automl-be-the-end-of-data-scientists-9af3e63990e0

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2020-07-11，如有侵权请联系 cloudcommunity@tencent.com 删除

机器学习

自动化

神经网络

深度学习

本文分享自 PyVision 微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

登录后参与评论

0 条评论

热度