【注】学习笔记参考自《统计学习方法第二版》——李航。
统计学习是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科,统计学习也称为统计机器学习。
赫尔伯特・西蒙曾对「学习」给出以下定义:“如果一个系统能够通过执行某个过程改进它的性能,这就是学习。”
按照这一观点,统计学习就是计算机系统通过运用数据及统计方法提高系统性能的机器学习。
统计学习关于数据的基本假设是同类数据具有一定的统计规律性,这是统计学习的前提。
统计学习方法从给定的、有限的、用于学习的训练数据集合出发,假定数据是独立同分布产生的,并且假定要学习的模型属于某个函数的集合(称为假设空间,简称为模型),然后应用某个评价准则(简称为策略),从假设空间中选取一个最优模型,使它对已知的训练数据及未知的测试数据在给定的评价准则下有最优的预测,最优模型的选取由算法实现。模型、策略、算法称为统计学习方法的三要素,即方法=模型+策略+算法。
统计学习或机器学习一般包括监督学习、无监督学习、强化学习。有时还包括半监督学习、主动学习。
强化学习假设智能系统与环境的互动基于马尔可夫决策过程,智能系统能观测到的是与环境互动得到的数据序列。
通常的监督学习使用给定的标注数据,往往是随机得到的,可以看作是「被动学习」。
在监督学习中,概率模型是生成模型,取条件概率分布形式 P(y∣x)P(y|x)P(y∣x),非概率模型是判别模型,取函数形式 y=f(x)y=f(x)y=f(x)。
对于非概率模型,如果函数 y=f(x)y=f(x)y=f(x) 是线性函数,则称为线性模型,否则称为非线性模型。
参数化模型假设模型参数的维度固定,模型可以由有限维参数完全刻画;非参数化模型假设模型参数的维度不固定或者说无穷大,随着训练数据量的增加而不断增大。
统计学习根据算法可以分为在线学习和批量学习。
统计学习研究一般包括统计学习方法、统计学习理论及统计学习应用三个方面。