统计建模和机器学习的区别之我见

最近我多次被问到统计(尤其是统计建模)、机器学习和人工智能之间有何区别。其实这三者之间在目标、技术和算法方面有很多重叠的部分。引起困惑的原因不仅仅是因为这些重叠部分,也是因为我们被很多非科普文中的时髦词儿给迷惑了。

统计建模

统计建模最基本的目标是回答一个问题:哪一种概率模型可以产生我所观察到的数据?因此你必须: 从一个合理的模型群里挑出候选模型 预估未知变量(参数,Aka拟合模型到数据中) 比较拟合模型与其他备选模型 举个例子,如果你的数据需要计算,例如流失客户数或者细胞分裂数,那么泊松模型(Poisson)、负二项模型或者零膨胀模型(zero-inflated model)都可能适用。

一旦某统计模型被选定,那预估模型将用于测试假设、创建预测值以及置信测量。预估模型将成为我们解析数据的透镜。我们从未宣称选定模型就能产生数据,但是我们能观察它基于某验证推理在随机过程所获取的合理近似值。

验证推理是统计建模的一个重要部分。举例而言,要决策到底是哪一种或者哪三种医疗设备可以让病患获得最好的治疗,你也许会感兴趣使用一个模型,该模型能捕获某种数据机制来判断该病患在接受不同治疗所获得的不同结果。如果某个模型可以很好地捕获数据产生机制,那么其也可以在那些被观察数据区间内做出很好的预测,甚至可能预测出新的观察结果。 现在我们可以通过数据所承担的角色来区分统计建模、经典机器学习和现代机器学习。

经典机器学习

经典机器学习是一种数据驱动型技术,受模式识别启动,专注于回归算法和分类算法。其潜在的随机机制通常并没有作为最首要一项关注点。当然很多机器学习技术也能通过随机模型和回归计算来定义,但是数据并不被认为是由其模型直接生成的。因此,最重要的关注点是识别到底是执行哪项特定任务的算法还是技术鉴定(或者集成方法):也就是说客户到底最好被分段于K(数据集群或聚类),还是DBSCAN,或者是决策树,或者是随机森林,又或者是SVM?

简而言之,对统计人员来说模型是第一位的,对机器学习者而言,数据是第一位的。因为机器学习的终点是数据,而不是模型。将数据分离出来去做训练集和测试集的验证技术(鉴定方法)是很重要的。一个解决方案的质量高低并不仅仅依赖p-值,而是需要证明这个解决方案在以前不可见数据中是否表现良好。将一个统计模型拟合到一个数据集,或者将一个决策树训练成一个数据集,将会需要融合一些未知值的预估值。该决策树的最佳分割点取决于从属变量的条件分布参数的预估值。

对我而言,没有什么技术被证明可以自我学习。训练才是成型某种学习的必要过程,换句话说,这意味着要获取一项新的技能技术,训练就是学习的一部分。训练深度神经网络取决于输入数据的权重和偏差,如果它学习分类,而该网络就变形成为一个分类器。

现代机器学习

机器学习系统如果不是编程去执行一个任务,而是编程去学习执行一项任务,那么这就是一个真正的学习系统,我把这叫做现代机器学习。就像经典机器学习的变体,这也是一个数据驱动型的实践。但不一样的地方是,现代机器学习不仅仅是依赖于丰富的算法技术,几乎所有的这类机器学习的应用都基于深度神经网络技术。

这个领域我们现在倾向于称它为深度学习,一种机器学习的细分,经常应用于人工智能,也就是说让机器去执行人类的任务。

数据扮演什么角色?

现在我们可以通过数据所承担的角色来区分统计建模、经典机器学习和现代机器学习。

在统计建模里面,数据引导我们去选择随机模型,来形成对不同问题概率的抽象表达,例如假设、预测和预报。

在经典机器学习里,数据驱动的是对分析技术的选择,如何最佳地执行即将任务,这是数据训练算法。

在现代机器学习里,数据驱动基于神经网络算法的系统,去学习具体任务,系统可以自动判定数据常量规则。在训练神经网络数据的过程中,系统逐渐学习到执行任务,就像某人所说:“是数据在做编程。” 原文来源:https://www.linkedin.com/pulse/difference-between-statistical-modeling-machine-i-see-schabenberger?trk=prof-post

原文发布于微信公众号 - 数据科学与人工智能(DS_AI_shujuren)

原文发表时间:2017-10-21

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏技术翻译

5分钟理解人工智能与机器学习的区别

人工智能不是一个新名词,它已有数十年历史。从80年代初开始,计算机科学家设计了能够学习和模仿人类行为的算法。

14200
来自专栏计算机视觉战队

深度学习入门误区

定位:深层学习在哪 1、深层学习需要什么? 数学 线性代数:是有关任意维度空间下事物状态和状态变化的规则。 概 率:是用来衡量我们对事物在跨时间后不...

37140
来自专栏钱塘大数据

IBM长文解读人工智能、机器学习和认知计算

人工智能的发展曾经经历过几次起起伏伏,近来在深度学习技术的推动下又迎来了一波新的前所未有的高潮。近日,IBM 官网发表了一篇概述文章,对人工智能技术的发展过程进...

375130
来自专栏CSDN技术头条

一文带你理解深度学习的局限性

深度学习:几何视图 深度学习最令人惊讶的特点便是极易上手。十年以前,没有人可以猜得到经过梯度下降法训练过的简单参数模型可以在机器感知问题上实现如此惊人的结果。现...

22580
来自专栏人工智能头条

一文读懂深度学习与机器学习的差异

14730
来自专栏ATYUN订阅号

新的AI工具可帮助设计人员扩展虚拟纹理,保持高度逼真

深圳大学和华中科技大学研究人员创造了一种新的AI工具,可以帮助设计人员为视频游戏,虚拟现实和动画制作更逼真的虚拟纹理。

14940
来自专栏机器之心

学界 | 腾讯提出并行贝叶斯在线深度学习框架PBODL:预测广告系统的点击率

选自arXiv 机器之心编译 参与:蒋思源 近日,腾讯发表了一篇介绍并行贝叶斯在线深度学习(PBODL)框架的论文,该论文表示这一框架已经用于腾讯广告系统的点击...

36840
来自专栏用户画像

数据科学

版权声明:本文为博主-姜兴琪原创文章,未经博主允许不得转载。 https://blog.csdn.net/jxq0816/article/details...

13720
来自专栏AI科技评论

视频 | 10分钟带你认识强化学习

AI 科技评论按:喜欢机器学习和人工智能,却发现埋头苦练枯燥乏味还杀时间?油管频道 Arxiv Insights 每周精选,从技术视角出发,带你轻松深度学习。

13950
来自专栏AI科技评论

动态 | 谷歌大脑用强化学习为移动设备量身定做最好最快的CNN模型

AI 科技评论按:卷积神经网络(CNN)被广泛用于图像分类、人脸识别、物体检测以及其他许多任务中。然而,为移动设备设计 CNN 模型是一个有挑战性的问题,因为移...

5810

扫码关注云+社区

领取腾讯云代金券