前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >如何实现AutoML--让机器先做出Baseline

如何实现AutoML--让机器先做出Baseline

作者头像
用户2936994
发布2018-09-29 15:09:09
4950
发布2018-09-29 15:09:09
举报
文章被收录于专栏:祝威廉祝威廉

前言

我之前写过一篇如何实现AutoML -- 先Auto每个环节,大致思路是让机器先自动化每一个小环节,每个环节输出唯一一个结果,这样可以极大的简化搜索空间。比如我们有三个环节,A,B,C,分别产出10,10,10种可能,为了得到全局最优,我们需要10*10*10尝试1000次完整计算。而如果每个只取一个局部最优,那么只需要计算30次,虽然最终结果可能不是最优的,但在现实中,这也是一个比较可行的方案。

让机器先做出Baseline

受TransmogrifAI 启发,我觉得可从另外一个维度去减轻算法工程师的负担,基本思路就是,机器先做出前面的工作,找出最好的特征组合和算法,然后给出详细的结果细节,这包括:

  1. 机器得到的特征工程结果
  2. 机器选取的最优算法衡量指标值,比如F1,AUC等等
  3. 机器得到的最优算法使用的使用的参数详情

这可以给工程师很大的指导,让他们一下子就知道,通过当前的数据,使用一些常见的算法,能达到一个什么样的Baseline。如果数据足够好,机器的结果可能已经让人满意,算法工程师可以直接交付出去。如果机器的结果不好,算法工程师干预下,是不是可以增加新的数据或者新的维度?另外,再次重跑的时候,是不是可以让机器去掉一些特征组合和跳过某些算法的测试。

额外:对于特征工程

以前我一直想着如何从表中获取数据,从表中抽象数据,比如这篇文章从DataFrame自动化特征抽取的尝试。但其实从表中能抽取的信息是非常有限的,无非就是类型,规则,统计,以及人的先验知识。TransmogrifAI给了我一个极大的启发,就是我们需要知道我们数据的本源是什么,我们应该往数据的源头再前进一步,比如到网页端去,用户选择了下拉列表,提交了文本款,点击了一个checkbox,在特定时间做了一次点击,这些才是是用户的选择,数据的本源,这些才是影响最后的结果东西,我们可以把同样的思维,迁移到App里,小程序里。

通过上面的分析,我们对特征的抽象就比较简单了,我们抽象出来的是checkbox,textarea,textinput ,datatime,email,phone number,这些可以给我们带来额外的信息,比如checkbox,一般就是枚举类型,在机器学习里该怎么处理枚举类型呢,这个就变得更自动化了。源头可以带来很多新的信息,帮助机器更好的做自动化。

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2018.09.12 ,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 前言
  • 让机器先做出Baseline
  • 额外:对于特征工程
相关产品与服务
云开发 CloudBase
云开发(Tencent CloudBase,TCB)是腾讯云提供的云原生一体化开发环境和工具平台,为200万+企业和开发者提供高可用、自动弹性扩缩的后端云服务,可用于云端一体化开发多种端应用(小程序、公众号、Web 应用等),避免了应用开发过程中繁琐的服务器搭建及运维,开发者可以专注于业务逻辑的实现,开发门槛更低,效率更高。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档