专栏首页AI2ML人工智能to机器学习机器学习模型常见对比

机器学习模型常见对比

在“R语言和表数据分析”, 我们对常见的数据预处理流程给出一个大致的解决方案, 在这个基础上, 才能很好的谈数据质量data quality, 否则只是Garbage in garbage out 。

大概有70%到80%的时间都会花在数据预处理Data Preprocess上, 然后20%的时间要花在对数据结果的可视化和解释(visualization & interpretation)。 真正在机器学习模型的选择和应用上的时间可能也就10%左右。当然, 这里是指应用, 如果是原创模型肯定不一样了。

但是花的时间少,不代表要求低, 只是要求能够熟练高效的应用。 这里给出部分模型对比的思考, 抛砖引玉, 帮助大家熟练高效, 祝各位能在10%的时间显示出90%的实力。

常见学习模型对比和选择

有监督还是无监督 Supervised VS Unsupervised

这个对比很明显, 但是目前强化学习(reinforcement learning)的横空出世, 或许有一天这些都不对了。

线性还是非线性 Linear VS Non-Linear

如何把未知问题转化成已知问题, 如何把非线性转化成线性, 永远是很很需要的。

有没有先验 With VS Without Prior

对于先验到底有没有决定性作用, 贝叶斯派和非贝叶斯派还没有完全说服对方, 譬如深度学习的Hinton就说自己扬弃了先验(参考 攒说 Geoff Hinton )。

是不是非参模型 Parametric VS Non-Parametric

人都是很贱的, 很难统一的, 有些人要傻傻的不知道背后搞什么的编辑器(Word),有些人要可以控制一切的编辑器(Latex), 所以参不参看需求了, 或许跟视窗系统(Windows)横行一样, 非专业人士更喜欢非参吧。

有没有集成学习 Single VS Ensemble

引领一个10年的机器学习的突破,依然宝刀未老的集成学习,尤其对于表数据分析。

深浅学习 Shallow VS Deep

有个文章叫“THE NEURAL NETWORK ZOO” (http://www.asimovinstitute.org/neural-network-zoo/?_utm_source=1-2-2), 去动物园看看,蚯蚓和蛇一样很重要, 但是蛇更吓人。

在不在线 Online VS Offline

分工越来越细, 在线学习的发展, 离不开 H. Brendan McMahan 博士(CMU毕业,Google工作, 户外运动达人)在这个领域的坚持。

大数据还是大计算 Huge Quantity VS Heavy Computation

求各种大数据小计算, 小数据大计算的经典案例。

并行,分布和异步 Parallel VS Distributed VS Asynchronous

学分布式的都发达了, 可惜我去学Service了, 哭的一塌糊涂。

如何选择一个学习模型?

在这些模型认识的基础上, 然后就要思考如何选择了,做好一个选择, 需要对数据有认识(Data), 但这还是不够的, 还需要对需求有把握(Quality of service, QoS), 但这也是不够的, 还需要对应用人员的知识有掌握(Knowledge)。

如果所有问题都能很清晰的回答, 再回到前面模型的对比中进行选择, 或许会有所收获。

当然这里所有的说法, 都是技术出发, 但是我们知道好的业务数据分析是要从业务本身需求出发, 别忘记了服务于业务本身!

小结, 这里抛开数据预处理, 给定了模型选择的思考引子。

本文分享自微信公众号 - AI2ML人工智能to机器学习(mloptimization),作者:史春奇

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2017-01-16

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 易图秒懂の机器学习诞生 奠基篇

    在“易图秒懂の人工智能诞生”、 “易图秒懂の符号主义诞生” 和 “易图秒懂の连接主义诞生”,我们看到人工智能的发展经历了符号主义和连接主义的壮大的洗礼。 其实它...

    史博
  • 机器学习经典人物关系[全]

    教师节到了,首先感激我的所有老师们, 对我的成长,这些老师们都是贵人。 部分老师更是恩人, 尤其小学数学老师, 中学英语老师, 高中数学老师,物理老师、历史老师...

    史博
  • 机器学习背后的男人们

    在人工智能的大地上, 模式识别和计算统计碰撞出了新的火花, 机器学习。 以数据驱动为出发点的各种学习理论层出不穷: 监督学习、无监督学习、强化学习、深度学习。 ...

    史博
  • 企业如何把“想法”变成“算法”自动执行业务流程?

    普兰数据智能——业务流程自动执行“企业大脑” 机器人系统整体方案提供商 企业营销生产管理过程受制于人员的专业水平、理念心态诸多你不能控制的因素,导致大量人员低效...

    小莹莹
  • 简单聊聊不可或缺的Nginx反向代理服务器--实现负载均衡【上篇】

           今天又是新的一周,我养足了精神去对待新一周的工作,但是今天到公司发现还是有一点空闲时间的,所以就想与之前接触过的Nginx再交往得更深一点儿。 什...

    赵小忠
  • 碎片化 | 第四阶段-52-Hibernate特性-视频

    如清晰度低,可转PC网页观看高清版本: http://v.qq.com/x/page/r056899qkz7.html Hibernate特性 延迟加载 做一...

    码神联盟
  • 碎片化 | 第四阶段-53-hibernate持久化session问题解决-视频

    如清晰度低,可转PC网页观看高清版本: http://v.qq.com/x/page/h0568t95mz4.html Hibernate特性 延迟加载 做一...

    码神联盟
  • 高性能网络编程7--tcp连接的内存使用

    当服务器的并发TCP连接数以十万计时,我们就会对一个TCP连接在操作系统内核上消耗的内存多少感兴趣。socket编程方法提供了SO_SNDBUF、SO_RCVB...

    李海彬
  • 深度学习 vs 概率图模型 vs 逻辑学

    用户1737318
  • 高性能网络编程7--tcp连接的内存使用

    当服务器的并发TCP连接数以十万计时,我们就会对一个TCP连接在操作系统内核上消耗的内存多少感兴趣。socket编程方法提供了SO_SNDBUF、SO_RCVB...

    bear_fish

扫码关注云+社区

领取腾讯云代金券