统计学习导论 Chapter2--What Is Statistical Learning?

Book: An Introduction to Statistical Learning with Applications in R http://www-bcf.usc.edu/~gareth/ISL/

这是第二章,简要介绍统计学习中的一些基本概念

2.1 What Is Statistical Learning?

假定我们观察到一个定量响应变量 Y 和 p个不同的 predictors, X_1, X_2 ,…, X_p, X 和Y 存在一定的关系,这里我们用一个公式表示,其中 f 是 关于 X_1, X_2 ,…, X_p 的固定但未知的函数,公式后面一项是一个 随机误差项,独立于 X,均值为 0

In essence, statistical learning refers to a set of approaches for estimating f 本质上来说,统计学习就是关于估计 f 的一些方法介绍

2.1.1 Why Estimate f ? 为什么需要估计函数 f 主要有两个原因使我们希望估计 f: prediction 和 inference, 下面分别予以介绍

Prediction 在很多场合,通常一组输入 X 已经得到,但是输出 Y 不是很容易得到。因为误差均值是 0,所以我们可以预测 Y 使用下面的公式

其中 f^ 是我们对 f 的估计, Y^ 表示对 Y 的预测结果。 这里的 f^ 通常被看作一个 黑盒子,因为我们不关系 f^ 的具体形式是什么样的,我们只要求 f^ 可以对 Y 进行准确的预测。

Y^ 的预测精度依赖于两个量,我们这里称之为 reducible error and the irreducible error,通常 f^ 不是 f 的一个完美估计,f^ 引入的误差是 reducible ,因为我们可以通过使用更合适的统计学习算法来对 f 进行更准确的估计。 即使 f^ 是对 f 的完美估计,我们的 Y 还有一个误差项,这个误差项是 irreducible error,因为它和 f 无关。 为什么 irreducible error 大于0 了?

两个误差项的公式表示

The focus of this book is on techniques for estimating f with the aim of minimizing the reducible error. It is important to keep in mind that the irreducible error will always provide an upper bound on the accuracy of our prediction for Y . This bound is almost always unknown in practice.

Inference 在推理中,我们感兴趣的是 X 和 Y 之间具体的影响关系,我们想知道Y具体是怎么改变的, we need to know its exact form 我们可能需要回答下面的问题: 1)Which predictors are associated with the response? 可能有很多变量影响输出,但是找出少数的主要影响变量在实际中及其重要 Identifying the few important predictors among a large set of possible variables can be extremely useful, depending on the application. 2) What is the relationship between the response and each predictor? 具体每个因素是如何影响输出的 3) Can the relationship between Y and each predictor be adequately summarized using a linear equation, or is the relationship more complicated? 输入和输出的关系使用一个线性方程建模足够吗?还是需要使用更复杂的模型来建模

2.1.2 How Do We Estimate f? 我们如何估计 f 了? 总的来说我们估计 f 的方法可以分为两类:parametric or non-parametric

Parametric methods 参数方法通常涉及两个步骤: 1)我们需要先对 f 的函数形式或形状做出一个假设,例如 f 的一个很简单假设是输入的 线性关系

2) 模型定下来之后,我们需要一个 procedure 来将训练数据对模型进行拟合或训练。对于线性模型,我们可以使用 (ordinary) least squares 来估计参数。

上面描述的基于模型的方法我们称之为 parametric 参数方法,它将 f 的估计问题 降低为估计一组参数。当这个模型是符合数据的分布,那么参数方法是简单有效的。当选择的模型不符合训练数据的分布,参数方法的效果就不是很好

Non-parametric methods 非参数方法没有对 f 的函数形式作出具体的假设。它尝试估计f 尽可能的符合数据,Instead they seek an estimate of f that gets as close to the data points as possible without being too rough or wiggly。 它相对于参数方法的一大优势是不需要对 f 的具体函数形式作出假设, they have the potential to accurately fit a wider range of possible shapes for f。

But non-parametric approaches do suffer from a major disadvantage: since they do not reduce the problem of estimating f to a small number of parameters, a very large number of observations (far more than is typically needed for a parametric approach) is required in order to obtain an accurate estimate for f 非参数方法的问题 主要是:它需要的训练数据比参数方法需要的要多很多。只有足够的数据才能得到 f 的准确的估计 一个 非参数方法的例子如下图所示

2.1.3 The Trade-off Between Prediction Accuracy and Model Interpretability 模型的可解释性和预测的精度存在一定的负相关性。

2.1.4 Supervised versus Unsupervised Learning supervised 对应的是 输入和输出训练数据是一一对应的,unsupervised 只有输入数据,没有对应的输出数据。我们对输入数据做一些分析,例如 cluster analysis 聚类

2.1.5 Regression versus Classification Problems 响应变量的取值范围是连续的 Quantitative variables take on numerical values problems with a quantitative response as regression problems

响应变量的取值范围 qualitative variables take on values in one of K different classes , or categories those involving a qualitative response are often referred to as classification problems

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏用户2442861的专栏

CNN神经网络的直观解释

卷积神经网络(ConvNets 或者 CNNs)属于神经网络的范畴,已经在诸如图像识别和分类的领域证明了其高效的能力。卷积神经网络可以成功识别人脸、物体和交通信...

1152
来自专栏人工智能

BP神经网络

BP(Back Propagation)神经网络是1986年由以Rumelhart和McCelland为首的科学家小组提出的,是一种按误差逆传播算法训练的多层前...

2419
来自专栏大数据挖掘DT机器学习

机器学习——感知器学习算法

这里开始介绍神经网络方面的知识(Neural Networks)。首先我们会介绍几个监督式学习的算法,随后便是非监督式的学习。 一、感知器学习算法基本介绍 1...

3948
来自专栏机器之心

资源 | 从全连接层到大型卷积核:深度学习语义分割全指南

选自qure.ai 机器之心编译 参与:路雪、蒋思源 语义分割一直是计算机视觉中十分重要的领域,随着深度学习的流行,语义分割任务也得到了大量的进步。本文首先阐...

4266
来自专栏技术随笔

[ILSVRC] 基于OverFeat的图像分类、定位、检测引言相关理论计算机视觉三大任务Alexnet图片分类回顾基础学习OverFeat图片分类定位任务检测总结Reference

5145
来自专栏文武兼修ing——机器学习与IC设计

RCNN学习笔记系统结构模型训练

RCNN使用Selective search算法代替滑动框,该算法可以提取类别无关的物品候选区域。该算法分为以下步骤:

792
来自专栏计算机视觉战队

卷积神经网络就是这么简单就能学会

卷积神经网络和前几次介绍的神经网络非常相似:它们都是由神经元组成,神经元中有具有学习能力的权重和偏差。每个神经元都得到一些输入数据,进行内积运算后再进行激活函数...

1062
来自专栏专知

Pre-training到底有没有用?何恺明等人新作:Rethinking ImageNet Pre-training

【导读】使用基于ImageNet预训练(Pre-training)的网络已成为计算机视觉任务中一种常规的操作。何恺明等人在新作Rethinking ImageN...

1524
来自专栏marsggbo

Andrew Ng机器学习课程笔记--week3(逻辑回归&正则化参数)

Logistic Regression 一、内容概要 Classification and Representation Classification Hyp...

2005
来自专栏jeremy的技术点滴

机器学习课程_笔记07

3457

扫码关注云+社区