统计学习导论 Chapter2--What Is Statistical Learning?

Book: An Introduction to Statistical Learning with Applications in R http://www-bcf.usc.edu/~gareth/ISL/

这是第二章,简要介绍统计学习中的一些基本概念

2.1 What Is Statistical Learning?

假定我们观察到一个定量响应变量 Y 和 p个不同的 predictors, X_1, X_2 ,…, X_p, X 和Y 存在一定的关系,这里我们用一个公式表示,其中 f 是 关于 X_1, X_2 ,…, X_p 的固定但未知的函数,公式后面一项是一个 随机误差项,独立于 X,均值为 0

In essence, statistical learning refers to a set of approaches for estimating f 本质上来说,统计学习就是关于估计 f 的一些方法介绍

2.1.1 Why Estimate f ? 为什么需要估计函数 f 主要有两个原因使我们希望估计 f: prediction 和 inference, 下面分别予以介绍

Prediction 在很多场合,通常一组输入 X 已经得到,但是输出 Y 不是很容易得到。因为误差均值是 0,所以我们可以预测 Y 使用下面的公式

其中 f^ 是我们对 f 的估计, Y^ 表示对 Y 的预测结果。 这里的 f^ 通常被看作一个 黑盒子,因为我们不关系 f^ 的具体形式是什么样的,我们只要求 f^ 可以对 Y 进行准确的预测。

Y^ 的预测精度依赖于两个量,我们这里称之为 reducible error and the irreducible error,通常 f^ 不是 f 的一个完美估计,f^ 引入的误差是 reducible ,因为我们可以通过使用更合适的统计学习算法来对 f 进行更准确的估计。 即使 f^ 是对 f 的完美估计,我们的 Y 还有一个误差项,这个误差项是 irreducible error,因为它和 f 无关。 为什么 irreducible error 大于0 了?

两个误差项的公式表示

The focus of this book is on techniques for estimating f with the aim of minimizing the reducible error. It is important to keep in mind that the irreducible error will always provide an upper bound on the accuracy of our prediction for Y . This bound is almost always unknown in practice.

Inference 在推理中,我们感兴趣的是 X 和 Y 之间具体的影响关系,我们想知道Y具体是怎么改变的, we need to know its exact form 我们可能需要回答下面的问题: 1)Which predictors are associated with the response? 可能有很多变量影响输出,但是找出少数的主要影响变量在实际中及其重要 Identifying the few important predictors among a large set of possible variables can be extremely useful, depending on the application. 2) What is the relationship between the response and each predictor? 具体每个因素是如何影响输出的 3) Can the relationship between Y and each predictor be adequately summarized using a linear equation, or is the relationship more complicated? 输入和输出的关系使用一个线性方程建模足够吗?还是需要使用更复杂的模型来建模

2.1.2 How Do We Estimate f? 我们如何估计 f 了? 总的来说我们估计 f 的方法可以分为两类:parametric or non-parametric

Parametric methods 参数方法通常涉及两个步骤: 1)我们需要先对 f 的函数形式或形状做出一个假设,例如 f 的一个很简单假设是输入的 线性关系

2) 模型定下来之后,我们需要一个 procedure 来将训练数据对模型进行拟合或训练。对于线性模型,我们可以使用 (ordinary) least squares 来估计参数。

上面描述的基于模型的方法我们称之为 parametric 参数方法,它将 f 的估计问题 降低为估计一组参数。当这个模型是符合数据的分布,那么参数方法是简单有效的。当选择的模型不符合训练数据的分布,参数方法的效果就不是很好

Non-parametric methods 非参数方法没有对 f 的函数形式作出具体的假设。它尝试估计f 尽可能的符合数据,Instead they seek an estimate of f that gets as close to the data points as possible without being too rough or wiggly。 它相对于参数方法的一大优势是不需要对 f 的具体函数形式作出假设, they have the potential to accurately fit a wider range of possible shapes for f。

But non-parametric approaches do suffer from a major disadvantage: since they do not reduce the problem of estimating f to a small number of parameters, a very large number of observations (far more than is typically needed for a parametric approach) is required in order to obtain an accurate estimate for f 非参数方法的问题 主要是:它需要的训练数据比参数方法需要的要多很多。只有足够的数据才能得到 f 的准确的估计 一个 非参数方法的例子如下图所示

2.1.3 The Trade-off Between Prediction Accuracy and Model Interpretability 模型的可解释性和预测的精度存在一定的负相关性。

2.1.4 Supervised versus Unsupervised Learning supervised 对应的是 输入和输出训练数据是一一对应的,unsupervised 只有输入数据,没有对应的输出数据。我们对输入数据做一些分析,例如 cluster analysis 聚类

2.1.5 Regression versus Classification Problems 响应变量的取值范围是连续的 Quantitative variables take on numerical values problems with a quantitative response as regression problems

响应变量的取值范围 qualitative variables take on values in one of K different classes , or categories those involving a qualitative response are often referred to as classification problems

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏Brian

机器学习常用算法-线性回归算法

1834
来自专栏wOw的Android小站

[深度学习]Charpter 9:卷积网络

卷积网络convolutional network,也叫做卷积神经网络convolutional neural network CNN 专门用来处理类似网格结构...

811
来自专栏MyBlog

关于强化学习(2)

根据 Simple statistical gradient-following algorithms for connectionist reinforcem...

953
来自专栏程序生活

机器学习(三)使用Python和R语言从头开始理解和编写神经网络介绍目录神经网络背后的直观知识多层感知器及其基础知识什么是激活函数?前向传播,反向传播和训练次数(epochs)多层感知器全批量梯度下降

本篇文章是原文的翻译过来的,自己在学习和阅读之后觉得文章非常不错,文章结构清晰,由浅入深、从理论到代码实现,最终将神经网络的概念和工作流程呈现出来。自己将其翻译...

4217
来自专栏机器之心

学界 | 在有池化层、1步幅的CNN上减少冗余计算,一种广泛适用的架构转换方法

2205
来自专栏机器学习之旅

R开发:常用R语言包介绍

r与python差异比较大的一个地方就是,python的机器学习算法集中程度比较高,比如sklearn,就集成了很多的算法,而R语言更多时候需要一个包一个包去了...

745
来自专栏贾志刚-OpenCV学堂

深度学习训练-详解图像数据标准化与归一化

使用深度学习在进行图像分类或者对象检测时候,首先需要对图像做数据预处理,最常见的对图像预处理方法有两种,正常白化处理又叫图像标准化处理,另外一种方法叫做归一化处...

2692
来自专栏Brian

深度学习笔记-浅层神经网络

---- 浅层神经网络 什么是浅层神经网络,我们看一下下面这个图: ? 分为如下: 1.Input Layer 2.Hidden Layer 3.Outpu...

3885
来自专栏和蔼的张星的图像处理专栏

2. 神经网络之BN层背景BN使用BN在CNN上的使用。

BN,全称Batch Normalization,是2015年提出的一种方法,在进行深度网络训练时,大都会采取这种算法。 原文链接:Batch Normali...

4324
来自专栏https://www.cnblogs.com/L

【深度学习篇】--神经网络中的池化层和CNN架构模型

降采样subsample,shrink(浓缩),减少计算负荷,减少内存使用,参数数量减少(也可防止过拟合) 减少输入图片大小(降低了图片的质量)也使得神经网络可...

1302

扫码关注云+社区