自动建模(AutoML)

最近更新时间:2020-07-28 10:38:03

半自动建模

  1. 登录 智能钛机器学习平台控制台,新建工程和任务流,进入画布,拖拽所选组件置于画布中。
  2. 单击组件,单击画布右侧参数配置区上方工具栏的【自动调参】,启动算法自动调参模式。
  3. 配置算法参数,确定模型评估方法。
    3.1 调参算法目前 TI 支持贝叶斯调参、网格调参、随机调参三种调参方式:
    • 贝叶斯调参:
      • 给定可调参数的所在范围和初始值。
      • 确定代理函数(Gaussian Process)和采集函数(Expected Improvement)。
      • 根据采集函数获得在代理函数上表现最佳的超参数组,作为下一个采样点。
      • 将上个步骤得到的采样点用于模型训练并更新代理函数。
      • 重复以上步骤,直到达到最大迭代次数或时间,根据评估方法对模型进行排序,保存所需模型。
    • 网格调参:
      • 给定可调参数的所在范围和初始值。
      • 循环遍历每个可调参数的候选值,获得对应参数组进行模型训练。
      • 根据评估方法进行排序,保存所需模型。
    • 随机调参:
      • 给定可调参数的所在范围和初始值。
      • 从每个参数的范围内随机选取一个值。
      • 将随机选取的参数值组成一组参数进行模型训练。
      • 将2、3步重复 m 次,得到 m 个模型,根据评估方法进行排序,保存所需模型。

对于某个算法的可调参数,目前支持离散和连续两种类型,离散参数以集合的形式完整给出该参数的所有候选值,连续参数给出取值范围。以决策树算法为例,这里的 maxDepth、maxBins 和 minInstancesPerNode 为离散参数,minInfoGain 则为连续参数。

3.2 评估方法和评估指标
评估方法和指标为多次迭代获得的模型提供排序和选择标准。分类、回归和聚类算法有各自的评估方法和指标,具体请依据训练数据和算法类型进行选择。以决策树分类算法为例,评估方法有二分类和多分类两种,评估指标有 AUC 和 Accuracy 等。如果选择Accuracy作为评估指标,则在多个生成的模型中,选择 Accuracy 最高的模型作为最后的输出模型。

配置完所有的算法参数后,单击工具栏【运行】,启动任务运行。

  1. 对于运行效果良好的迭代,可将其作为节点导出至当前画布,单击【参数】,为节点命名并单击【节点导出】即可。

    导出后的节点默认直接与数据源进行连接,节点参数将默认填充迭代的具体值。

全自动建模

在不通过人为来设定参数的情况,通过某些学习机制,让系统智能地去调节这些超参数,让整个机器学习流程做到全自动化。

  1. 登录【智能钛机器学习平台】,建立一个全自动调参的任务。
    此步骤中需要先设置好数据源,将左侧自动建模(全自动AutoML)节点拖入至画布产生连接,便可启动一个 AutoML的任务。
  2. AutoML 节点的参数栏中,只需指定输入路径,进行简单的参数设置(迭代次数/迭代时间等)和资源参数设置,便可完成建模流程。

查看自动建模参数详情

用户可进行半自动与全自动建模参数的查看,方法如下:

  1. 单击组件,通过右键算法节点中的【自动调参详情】入口进行查看。
  2. 自动调参详情页面:
    • 上方展示的是算法的基本运行信息,如训练/验证数据量、开始运行时间、目标列和特征列等。
    • 下方分两个模块,模型指标参数详情。用户可以选择不同的评估指标来查看,模型指标模块主要以曲线呈现每一迭代的 AUC 效果。
    • 参数详情模块展示的是每一轮迭代的信息、AUC 值、运行状态及对应迭代的参数,单击参数展示被调的参数这一轮的具体值。