十个例子,教你用统计学方法高效完成机器学习项目

本文为 AI 研习社编译的技术博客,原标题 10 Examples of How to Use Statistical Methods in a Machine Learning Project ,作者为 Jason Brownlee 。 翻译 | 赵若伽 校对 | 陈涛 整理 | MY

统计学和机器学习是两个联系特别紧密的领域。

事实上,这两者的界限有时候非常模糊。然而有一些明显属于统计学领域的方法,不仅可用于机器学习的项目,并且极具价值。

公平地说,需要统计学方法来有效地完成机器学习预测建模项目。

在这篇博客中,你会了解到一些能在预测模型问题的关键步骤中发挥作用的统计学方法的具体例子。

在阅读完这篇博客后,你会了解:

  • 探索性的数据分析、数据归纳和数据可视化有助于构建预测模型以及更好地理解数据。
  • 统计学方法可以用来清洗和准备建模要用的数据。
  • 统计假设检验和估计统计可以帮助进行模型选择,并展示最终模型的技能和预测结果。

让我们开始吧。

(在应用机器学习项目中使用统计学方法的十个例子。图片来自于 chenutis,版权归其所有。)

概述

在这篇博客中,我们将会着重讲一下如何在应用机器学习项目中使用统计学方法的十个例子。

这将证明统计学知识对于成功解决预测建模问题至关重要。

  1. 问题架构
  2. 数据理解
  3. 数据清洗
  4. 数据选择
  5. 数据准备
  6. 模型评估
  7. 模型配置
  8. 模型选择
  9. 模型表达
  10. 模型预测

1. 问题架构

也许预测模型问题中最困难的一点就是问题的架构。

这包括了问题类型的选择,例如是回归还是分类,也许还有这个问题的输入和输出的结构及类型。

问题的架构并不是一直都很清晰,对于某个领域的新手,可能需要对这个领域中的观察值进行一些深入探索。

而对于这个领域的专家,他们可能会以墨守成规的角度去看问题,从而受困其中,他们也需要从多角度去思考数据,才能有所收获。

统计方法在问题的架构阶段有助于对数据的探索,其中包括:

  • 探索性的数据分析。为了从数据中探索到特别的观点,从而进行的汇总和可视化。
  • 数据挖掘。自动探索数据间的结构关系和模式。

2. 数据理解

数据理解意思是对变量的分布和变量之间的关系有一个更详细的理解。

这些知识其中一部分来自于这个领域的专业知识,或者需要专业知识去解释。然而,专家和新手都会从处理领域内的真实观察值中获益。

用在理解数据的统计学模型的两类主流分支是:

  • 汇总统计。使用统计数值来汇总变量间的分布和关系的方法。
  • 数据可视化。总结变量间的分布和关系的方法需要用到可视化的方法,例如:图表,绘图和图形。

3. 数据清洗

一个领域中的观察值往往存在些瑕疵。

虽然数据是数字化的,但存在一些过程会降低数据的精确性,反过来,后续用到数据的过程及模型也会受其影响。

例如:

  • 数据破坏。
  • 数据错误。
  • 数据损失。

识别和修复这些问题数据的过程也叫做数据清洗。

统计方法应用于数据清洗中例子有:

  • 异常点检测。在数据分布中识别出离期望值很远的观察值的方法。
  • 数据填补。修复或填补观察值中损坏或缺失数据的方法。

4. 数据选择

在建模时,不是所有观察值或所有变量都是相关的。

减小这些元素的数据范围的操作对于做出预测值是很有用的,这个过程叫做数据选择。

应用在数据选择的两种统计学方法:

  • 数据采样。从较大的数据集中系统化创建较小的代表性样本的方法。
  • 特征选择。自动识别与结果变量更有相关性的变量的方法。

5. 数据准备

数据一般不会直接拿来建模。

为了改变数据的形状或结构,使它更适用于选定的问题架构或学习算法,需要对数据进行必要的转化。

数据准备也会用到统计模型,例如:

  • 缩放。例如标准化和规范化。
  • 编码。例如整数编码和独热编码。
  • 变换。例如 Box-Cox 变换那样的次方转换。

6. 模型评估

预测模型问题的一个重要部分是对学习方法进行评估。

对模型的能力的评估主要是对未经过训练的数据进行预测。

通常,训练过程和评估预测模型的规划过程叫作实验设计,这是统计方法的一个子领域。

  • 实验设计。设计系统化的实验来比较独立的变量对结果影响的方法,比如对比预测的精度来选择机器学习算法。

作为实现实验设计的一部分,为了对可利用的数据做最合理的利用同时也为了评估模型的能力,统计学方法被用来重采样一个数据集。这两个目的代表了统计模型的子领域。

  • 重采样方法。为了训练和评估预测模型而将数据集系统化分出子集的方法。

7. 模型配置

给定的机器学习算法通常有一套使学习方法能够适应特定问题的超参数。

超参数的配置通常是经验性的,而不是由分析得出的。这需要大量的实验,以评估不同超参数值对模型性能的影响。

两种统计学的子领域的方法可以用于对不同超参数配置产生的结果进行解释和比较,它们是:

  • 统计假设检验。根据对结果的假设或期望值,对观察到的结果出现概率进行量化的方法。(提出使用临界值和 p 值)
  • 估计统计。使用置信区间去量化一个结果的不确定性的方法。

8. 模型选择

给定一个预测建模问题,在众多机器学习算法中可能有一个算法最适合该问题。

选择一种方法作为解决方案的过程称为模型选择。

这可能涉及到项目参与者的自身条件以及用于评估问题的方法的估计技能能否对其给出详细解释。

与模型配置一样,可以使用两类统计方法来解释不同模型的估计技能,并用于模型选择。他们是:

  • 统计假设检验。根据对结果的假设或期望值,对观察到的结果出现概率进行量化的方法。(提出使用临界值和 p 值)
  • 估计统计。使用置信区间去量化一个结果的不确定性的方法。

9. 模型表示

一旦最终模型训练完成,可以在部署其对真实数据进行预测前先展示给相关人员查看。

展示最终模型的一个环节包括展示模型的估计技能。

估计统计领域中的方法可以通过容忍区间和置信区间对机器学习模型的评估能力的不确定性进行量化。

  • 估计统计。使用置信区间去量化一个结果的不确定性的方法。

10. 模型预测

最后,我们可以使用最终的模型来对我们不知道其输出的新数据进行预测。

作为预测的一部分,量化预测的置信度非常重要。

就像模型表示的过程一样,我们可以使用估计统计领域的方法来量化这种不确定性,例如置信区间和预测区间。

  • 估计统计。使用置信区间去量化一个结果的不确定性的方法。

总结

在本教程中,你已经了解了统计方法在整个预测建模项目过程中的重要性。

具体来讲你学到了:

  • 探索性的数据分析、数据归纳和数据可视化有助于构建预测模型以及更好地理解数据。
  • 统计学方法可以用来清洗和准备建模要用的数据。
  • 统计假设检验和估计统计可以帮助进行模型选择,并展示最终模型的技能和预测结果。

原文链接:

https://machinelearningmastery.com/statistical-methods-in-an-applied-machine-learning-project/

原文发布于微信公众号 - AI研习社(okweiwu)

原文发表时间:2018-07-26

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏机器学习从入门到成神

交叉熵代价函数定义及其求导推导(读书笔记)

神经元的输出就是 a = σ(z),其中z=\sum w_{j}i_{j}+b是输⼊的带权和。

519180
来自专栏AI科技评论

学界丨Facebook Yann LeCun最新演讲: AI 研究的下一站是无监督学习(附完整视频加37页PPT)

作为 Facebook 人工智能部门主管, Yann LeCun 是 AI 领域成绩斐然的大牛,也是行业内最有影响力的专家之一。 近日,LeCun在卡内基梅隆大...

38060
来自专栏AI科技评论

大会 | 腾讯AI Lab 21篇CVPR 18录用论文详解

AI 科技评论按:CVPR 2018 日前已公布录用名单,腾讯 AI Lab 共有 21 篇论文入选。本文转载于「腾讯 AI 实验室」, AI 科技评论经授权转...

43850
来自专栏AI科技评论

论文 | Twitter在超分辨率技术上取得新进展,能还原打码图片

AI科技评论按:受到万众瞩目的ICLR已经于今天在法国土伦召开。该大会由Yann LeCun 、 Yoshua Bengio 等几位行业顶级专家于2013年发起...

38340
来自专栏计算机视觉战队

CVPR 2018 论文简单笔记(部分,待更新)

计算机视觉最具影响力的学术会议之一的 CVPR 将于 2018 年 6 月 18 日 - 22 日在美国盐湖城召开举行。据 CVPR 官网显示,今年大会有超过 ...

19420
来自专栏SIGAI学习与实践平台

化秋毫为波澜:运动放大算法(深度学习版)

运动放大(Motion Magnification),将视频中对应位置的运动进行放大,简单理解的话,就是找到时间段内的运动矢量,进行放大,然后权值叠加回去。

32820
来自专栏技术翻译

最受欢迎的十大AI模型

虽然人工智能和机器学习为企业提供了充分的可能性来改善其运营并最大化其收入,但却没有“免费午餐”这样的东西。

1.3K40
来自专栏AI2ML人工智能to机器学习

一个奇异值的江湖 -- 机器学习观

前面我们熟悉了经典统计处理outlier的方法。 这里会说明常见的机器学习的方法。

9320
来自专栏计算机视觉战队

从零基础成为深度学习高手——III

今天开始学习进阶的知识,有兴趣的您请继续阅读和学习: 深度学习之高手进阶 我们在进行深度学习的时候一般会按照这4个步骤进行。 ? 获取数据 很大程度上...

33060
来自专栏程序你好

十大最受欢迎的人工智能模型

企业面临的问题种类繁多,用于解决这些问题的ML模型种类繁多,因为有些算法比其他算法更擅长处理特定类型的问题。因此,我们需要清楚地了解每种ML模型的优点,今天我们...

28730

扫码关注云+社区

领取腾讯云代金券