翻译:王雨桐
校对:王威力
本文长度约为1300字,建议阅读5分钟
本文是Masashi Shibata针对AutoML演讲中的摘要。
Jeff Dean在ICML 2019上进行了有关AutoML的演讲,并将自动化分为4个级别:
广泛使用的优化方法有两种,一种是贝叶斯优化方法,它基于过去的结果搜索未知参数范围。典型的算法有TPE,SMAC,GP-EL等。
另一种方法是在训练时终止学习,从而高效地搜索参数,例如逐层减半(Successive Halving),超带宽(Hyperband)等。
蓝色点表示训练将继续,红色点表示训练将停止。
我们可以将这些库分为贝叶斯优化算法和早停法算法。
综合考虑到质量和速度,我们推荐使用的两个库是Optuna和scikit-optimize。
TPOT和Auto-sklear在使用上仍然有局限性。因此,我们将特征工程分为两类,特征生成和特征选择。
Optuna也可以解决CASH问题,如下图。
自动算法选择的比较如下:
图七表示的是不同框架算法下,在分类数据集问题上的F1值。图八表示的不同框架算法下,在回归数据集上的均方误差(MSE)。其中箱型图分别表示上限、下四分位、中位、下四分位、下限,灰色圆圈表示异常值。
针对不同的任务推荐使用不同方法。
自动神经体系结构搜索在学术界也是一个非常热门的话题,但在工业界并未得到广泛使用。
以下是日语幻灯片的链接:
https://www.slideshare.net/c-bata/pythonautoml-at-pyconjp-2019
原文标题:
An Overview of AutoML Libraries Used in Industry
原文链接:
https://towardsdatascience.com/overview-of-automl-from-pycon-jp-2019-c8996954692f
编辑:王菁
校对:林亦霖
译者简介
王雨桐,UIUC统计学在读硕士,本科统计专业,目前专注于Coding技能的提升。理论到应用的转换中,敬畏数据,持续进化。