专栏首页量化投资与机器学习Quant值得拥有的AutoML框架

Quant值得拥有的AutoML框架

量化投资与机器学习微信公众号,是业内垂直于量化投资、对冲基金、Fintech、人工智能、大数据等领域的主流自媒体。公众号拥有来自公募、私募、券商、期货、银行、保险、高校等行业20W+关注者,连续2年被腾讯云+社区评选为“年度最佳作者”。

自动机器学习,也称为 AutoML,是将机器学习应用于实际问题的端到端过程自动化的过程。典型的机器学习过程包括几个步骤,包括数据的摄取和预处理、特征工程、模型训练和部署。在传统的机器学习中,Pipeline中的每一步都是由人来监控和执行的。自动机器学习工具(automatic machine learning)旨在自动化这些机器学习的一个或多个阶段,使非专家更容易建立机器学习模型,同时消除重复性任务,使经验丰富的机器学习工程师能够更快地建立更好的模型。

TPOT框架:AutoML自动化流水线示意图

AutoML 解决方案已经出现很长时间了。像 AutoWeka 这样的早期 AutoML 解决方案起源于2013年的学术界,紧随其后的是 Auto-sklearn 和 TPOT。这引发了机器学习的新浪潮,在接下来的几年里,许多其他的 AutoML 解决方案,包括 Auto-ml 和 Auto-Keras 进入了市场。与此同时,像 H2O.ai和 DataRobot 这样的初创公司也推出了自动化解决方案。最近,像亚马逊、谷歌和微软这样的公司也加入了这股潮流。

一些解决方案,如 AutoWeka,Auto-Sklearn,TPOT,H2OAutoML 是完全开源的,而 DataRobot,Amazon Sagemaker,Google 的 AutoML 和 DriverlessAI 则是面向企业的应用。

AutoML的使用情况

以下是根据 Kaggle’s State of Data Science and Machine Learning 2020 调查结果得出的最著名和最常用的 AutoML 工具:

AutoML工具的使用情况:

与Kaggle’s State of Data Science and Machine Learning 2019的调查相比如下:

可以看出:

  • 与2019年相比,2020年的 AutoML 工具得到了更好的应用;
  • 开源 AutoML 工具的采用率高于企业 AutoML 工具。AutoSklearn 显示了最大的用户增长。在企业领域,Google Cloud 获得了11% 的用户增长,而 H2O 无人驾驶 AI 获得了4% 的用户增长。

社交媒体分析: Twitter 和 Google Trends

此外,我们还分析了 Twitter 和 Google 的趋势,以便更清楚地了解大家对 AutoML 的普遍看法。

AutoML市场规模

AutoML在2019年产生了2.7亿美元的收入,预计到2030年将达到145.12亿美元,在预测期间(2020-2030年)的复合年增长率为43.7% 。考虑到这一点,我们相信 AutoML 还没有达到顶峰,对 AutoML 的兴趣将继续增长。

AutoML给我们带来了什么?

AutoML 解决方案可以针对机器学习过程的不同阶段。并不是所有的方法都适用于同一范围。以下是可以自动化的步骤:

  • 数据准备
  • 数据列的类型识别,例如,布尔,离散数字,连续数字,或文本
  • 任务检测; 例如二元分类, 回归, 或聚类
  • 特性化处理
  • 特性工程、特征提取、特征选择
  • 元学习 、迁移学习
  • 有偏数据处理、缺失值的检测和处理;不平衡数据的处理
  • 模型选择、超参数优化
  • 时间、内存和复杂性约束下的处理流程(Pipeline)的选择
  • 评价指标和验证流程的选择
  • 数据泄漏检测、错误配置检测
  • 可解释性、对所得结果的分析
  • 部署

AutoML解决方案的比较

开源 vs 企业

AutoML 的开源和企业解决方案非常不同: 大部分开源解决方案只能自动化算法选择和超参数调整,而企业解决方案可以做得更多(参见“我们能从 AutoML 工具中期待什么”一节)。

H2O Driverless AI

  • 它可以从任何数据源中摄取数据,包括 Hadoop,Snowflake,S3 object storage,Google BigQuery 等。
  • 自动可视化绘图、图形和图表,以帮助理解数据形状、异常值、缺失值等。数据科学家能够快速发现数据中的偏差之类的东西的地方。在某种程度上,自动可视化有助于启动 EDA 过程。
  • 机器学习的可解释性使我们了解什么样的模型被生成,以及哪些特征被用来建立模型。Driverless AI的模型的每一个预测都可以向企业用户解释,因此该系统甚至对于受监管的行业也是可行的。
  • 可以为表格数据、文本、图像、视频和时间序列数据创建世界级的模型。
  • 自动化文档为整个特性工程过程提供了深入的解释。
  • 整个过程是通过一个图形用户界面数据库来完成的,这使得即使是一个数据科学家新手也很容易立即就能有所作为。
  • 高度可定制: 可以上传自己的模型,Transformers和Scorers。
  • 能够在不丧失影响优化的能力的情况下充分利用自动化的好处。

Google Cloud AutoML

  • Google AutoML 由几个产品组成: AutoML Natural Language, AutoML Tables, AutoML Video Intelligence, and AutoML Vision。最近,谷歌发布了Vertex AI 它将所有的 AutoML 产品和 Google 的其他 AI 产品统一在一个统一的 API、客户端库和用户界面中。
  • 可配置性不如H2O Driverless AI
  • 模型可视化的缺失导致很难进行模型的迭代

H2O-3

  • 开源版本的 H2O。
  • 内存中,分布式,快速,可扩展的机器学习和预测分析平台,允许您在企业环境中建立基于大数据的机器学习模型并快速生产化。
  • 它使开发变得更容易和更快,即使对于新手也是如此。
  • 支持最广泛使用的统计和机器学习算法,包括梯度增强机器,广义线性模型,深度学习等。
  • 行业领先的AutoML功能,可以自动运行所有的算法和它们的超参数,生成最佳模型的排行榜。与其他开源 AutoML 解决方案相比,它具有高度的可配置性。
  • 包含模型可解释性接口,使用一个函数就可以生成了多个可解释性的方法并进行可视化。
  • H2O Flow是 H2O-3中的一个附加用户界面,您可以随意使用。它是一个基于 web 的交互式环境,允许您将代码执行、文本、数学、图表和富媒体组合到一个文档中,类似于 iPython Notebooks。这个直观的界面允许你建立你的机器学习模型,而不需要一行代码。这消除了熟悉 H2O SDK 的需求,并允许任何人构建机器学习模型。

H2O-3是目前使机器学习AutoML最好的开源平台。其完整的范围和基于 H2O 流的网络界面使其成为开源解决方案的首选。我们能够在没有一行代码的情况下从头到尾构建一个机器学习项目。

长期来看,AutoML并不能取代数据科学家,但AutoML的出现在很多时候可以极大的提高模型生产的效率,尤其在初期探索的阶段。

本文分享自微信公众号 - 量化投资与机器学习(Lhtz_Jqxx),作者:QIML编辑部

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2021-09-03

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • GreenDao:你一定值得拥有的轻量数据库框架

    本文介绍了什么是ORM,ORMLite和GreenDao框架优劣分析,GreenDao实战分享,并给出源码demo。

    open
  • 快速入门系列--WebAPI--03框架你值得拥有

        接下来进入的是俺在ASP.NET学习中最重要的WebAPI部分,在现在流行的互联网场景下,WebAPI可以和HTML5、单页应用程序SPA等技术和理念很...

    用户1216676
  • 2019Kaggle最新DS&ML报告:你大爷还是你大爷!

    近日,Kaggle发布了名为《2019Kaggle数据科学和机器学习概要》的报告。此报告为Kaggle对其社区的第三次年度调查,调查内容来自19717个Kagg...

    量化投资与机器学习微信公众号
  • 【金猿案例展】某基金管理公司:智能量化投资平台建设

    本案例由九章云极投递并参与评选,数据猿独家全网首发;更多关于【金猿榜/奖·2019征集评选】的相关信息,请点击这里了解详情丨征案例、征文章、征产品=评企业、评人...

    数据猿
  • Python|NumPy中的argmin(),你值得拥有!

    NumPy(Numeric Python)作为Python的一个很重要的扩展程序库,在用来储存和处理大型矩阵的时候显得尤为出色,可以说专为进行严格的数字处理而生...

    算法与编程之美
  • AutoML:机器学习的下一波浪潮

    AI 前线导读: 人工智能和机器学习仍然是一个进入门槛较高的领域,需要专业的知识和资源,很少有公司可以自己承担。—— 李飞飞自动机器学习(AutoML)是将机器...

    用户7886150
  • 【开发者的2018】GAN、AutoML、统一框架、语音等十大趋势

    来源:medium 作者:Alex Honchar 翻译:刘小芹 【新智元导读】本文从开发者的角度,总结了GAN、AutoML、语音识别、NLP等已经可以用...

    新智元
  • 你值得拥有的上古神器:vim

    笔者并不是 vim 高手,也只是最近在 github 发现的一个开箱即用的 vim 配置,所以在这里分享出来,所以本文并不会讲解如何去配置一个专属的 vim,对...

    wenzid
  • Google Cloud 通过首都在线进中国?AutoML 能用了?

    没等回 Google Search,先收到了 Google Cloud 要进入中国的消息。

    HyperAI超神经
  • 【完结】如何学习AutoML在模型优化中的应用,这12篇文章可以作为一个参考

    自动化机器学习技术是非常重要的基础研究,也是如今深度学习模型优化中的热点方向,我们开辟了一个专栏,专门讲解AutoML在深度学习模型优化中的一些重要思路,本次来...

    用户1508658
  • 掌握哪些机器学习工具更受企业青睐?

    根据 GitHub 活跃数、开发人员使用人数、在招聘描述中出现的频率等综合数据分析,Google的 TensorFlow 仍稳居第一,被广大网友一致认为非常适合...

    AI科技大本营
  • 惊呆!谷歌AI自动编程效率超研发工程师,作为AI工程师的我感到了森森的压力

    今天,TNW一则热门新闻炸开了锅:google AutoML 系统近日居然自己写了一串机器学习代码,其效率竟然超过了专业的研发工程师。这让我们人类的优越感何存?...

    AI科技大本营
  • 谷歌 AI 自动编程效率超研发工程师,作为工程师的我感到了森森的压力

    用户1737318
  • AI当自强:独家揭秘旷视自研人工智能算法平台Brain++

    如果说算法模型是果实,那么开发它的环境和框架就是培育果树的土壤。尽管平时在开发中,框架和底层环境没有那么引人瞩目,但没有这些底层技术的支持,优秀的思路和创意也就...

    机器之心
  • shiro源码篇 - shiro的filter,你值得拥有

        已经报废了一年多的电脑,今天特么突然开机了,吓老子一跳,只见电脑管家缓缓地出来了,本次开机一共用时一年零六个月,打败了全国0%的电脑,电脑管家已经对您的...

    青石路
  • 前端攻城狮值得拥有的 Cheat Sheets

    我们在开发过程中,有时需要查阅一些API文档。查阅API 主要是由于以下两种理由:

    前端GoGoGo
  • 跳表的设计思路,值得你拥有

    学习《数据结构与算法之美》中的第 17 节 [为什么redis一定要用跳表来实现有序集合]后,觉得很有价值,以自己的理解整理出下文,分享给爱学习的你,希望你可以...

    somenzz
  • 惊呆!谷歌 AI 自动编程效率超研发工程师,作为 AI 工程师的我感到了森森的压力

    5 个月前,谷歌开发出的 AI 自主设计的深度学习模型已经比创造它的工程师还要好了,如今这个 AI 系统又更进一步,在某些复杂任务上的表现也超越了人类工程师。对...

    AI科技大本营
  • AI创造的AI,比他们的发明者更强大!

    源小象文水木华章 小象于日前转载发布的一篇文章《程序员要下架?专家预言2040 年机器将代替人类编写代码!》在众多码农中引发争议,有人对此表示担忧,也有人指出这...

    企鹅号小编

扫码关注云+社区

领取腾讯云代金券