机器学习模型常见对比

在“R语言和表数据分析”, 我们对常见的数据预处理流程给出一个大致的解决方案, 在这个基础上, 才能很好的谈数据质量data quality, 否则只是Garbage in garbage out 。

大概有70%到80%的时间都会花在数据预处理Data Preprocess上, 然后20%的时间要花在对数据结果的可视化和解释(visualization & interpretation)。 真正在机器学习模型的选择和应用上的时间可能也就10%左右。当然, 这里是指应用, 如果是原创模型肯定不一样了。

但是花的时间少,不代表要求低, 只是要求能够熟练高效的应用。 这里给出部分模型对比的思考, 抛砖引玉, 帮助大家熟练高效, 祝各位能在10%的时间显示出90%的实力。

常见学习模型对比和选择

有监督还是无监督 Supervised VS Unsupervised

这个对比很明显, 但是目前强化学习(reinforcement learning)的横空出世, 或许有一天这些都不对了。

线性还是非线性 Linear VS Non-Linear

如何把未知问题转化成已知问题, 如何把非线性转化成线性, 永远是很很需要的。

有没有先验 With VS Without Prior

对于先验到底有没有决定性作用, 贝叶斯派和非贝叶斯派还没有完全说服对方, 譬如深度学习的Hinton就说自己扬弃了先验(参考 攒说 Geoff Hinton )。

是不是非参模型 Parametric VS Non-Parametric

人都是很贱的, 很难统一的, 有些人要傻傻的不知道背后搞什么的编辑器(Word),有些人要可以控制一切的编辑器(Latex), 所以参不参看需求了, 或许跟视窗系统(Windows)横行一样, 非专业人士更喜欢非参吧。

有没有集成学习 Single VS Ensemble

引领一个10年的机器学习的突破,依然宝刀未老的集成学习,尤其对于表数据分析。

深浅学习 Shallow VS Deep

有个文章叫“THE NEURAL NETWORK ZOO” (http://www.asimovinstitute.org/neural-network-zoo/?_utm_source=1-2-2), 去动物园看看,蚯蚓和蛇一样很重要, 但是蛇更吓人。

在不在线 Online VS Offline

分工越来越细, 在线学习的发展, 离不开 H. Brendan McMahan 博士(CMU毕业,Google工作, 户外运动达人)在这个领域的坚持。

大数据还是大计算 Huge Quantity VS Heavy Computation

求各种大数据小计算, 小数据大计算的经典案例。

并行,分布和异步 Parallel VS Distributed VS Asynchronous

学分布式的都发达了, 可惜我去学Service了, 哭的一塌糊涂。

如何选择一个学习模型?

在这些模型认识的基础上, 然后就要思考如何选择了,做好一个选择, 需要对数据有认识(Data), 但这还是不够的, 还需要对需求有把握(Quality of service, QoS), 但这也是不够的, 还需要对应用人员的知识有掌握(Knowledge)。

如果所有问题都能很清晰的回答, 再回到前面模型的对比中进行选择, 或许会有所收获。

当然这里所有的说法, 都是技术出发, 但是我们知道好的业务数据分析是要从业务本身需求出发, 别忘记了服务于业务本身!

小结, 这里抛开数据预处理, 给定了模型选择的思考引子。

原文发布于微信公众号 - AI2ML人工智能to机器学习(mloptimization)

原文发表时间:2017-01-16

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏大数据文摘

揭穿机器学习“皇帝的新装”

我们常把机器学习描述为一种使用数据模式标记事物的神奇技术。听起来艰涩,但事实上,拨开层层概念,机器学习的核心简单到令人尴尬。

1184
来自专栏网络

Arxiv网络科学论文摘要14篇

祝大家新年快乐! 意见动态中的交叉问题团结与真相收敛; 普查与第二定律:美国众议院最优分摊的熵权法; 基于主体的模型的特征; Power Plexus:基于网络...

2088
来自专栏AI科技评论

资源 | AI Challenger 2018 即将进入决赛,八大数据集抢先看

AI 研习社消息,由创新工场、搜狗、美团点评、美图联合主办的 AI Challenger 2018 即将进入第二阶段比赛。今年的大赛主题是「用 AI 挑战真实...

2112
来自专栏大数据文摘

为什么说GANs是一个绝妙的艺术创作工具?

我是一个艺术家,同时也是一位开发者。艺术和软件在我的生活中曾经是两个平行的轨道,直到我发现了GANs(Generative Adversarial Networ...

1162
来自专栏大数据挖掘DT机器学习

深度学习的GPU:深度学习中使用GPU的经验和建议

深度学习是一个计算需求强烈的领域,您的GPU的选择将从根本上决定您的深度学习体验。在没有GPU的情况下,这可能看起来像是等待实验结束的几个月,或者运行一天或更长...

55211
来自专栏新智元

运用谷歌 BigQuery 与 TensorFlow 做公共大数据预测

【新智元导读】谷歌BigQuery的公共大数据集可提供训练数据和测试数据,TensorFlow开源软件库可提供机器学习模型。运用这两大谷歌开放资源,可以建立针对...

7196
来自专栏MixLab科技+设计实验室

Pix2Pix与人工智能做设计

设计是一个创造的过程,目前大部分的设计类产品大多是基于模版的,外加一些图像匹配的处理,做出来的设计,缺少创造的成分,更多的是预设的结果。 基于深度学习算法,是否...

4879
来自专栏新智元

【干货】如何成为深度学习专家的七大步骤

首先为用Buzz做为点击标题的诱饵道歉,但是它确实是起到了一定的作用,并且吸引了大批读者来阅读此文章。 在我们的工作中,经常被问及的问题之一就是“从哪里开始学习...

3758
来自专栏大数据文摘

哥伦比亚大学数据科学课程笔记(2)

2159
来自专栏大数据文摘

资源 | 从医疗语音到灾难响应,这八大优质数据集快抱走

1853

扫码关注云+社区

领取腾讯云代金券