文章/答案/技术大牛

发布

什么是机器学习三要素？-机器学习干货问题系列（一）

文章来源：企鹅号 - 数据超市大数据计算平台

欢迎关注数据超市微信公众号

干货问题（一）

机器学习三要素是什么？

我们知道机器学习是基于数据构建统计模型从而对数据进行预测或分析。机器学习分为监督学习、非监督学习、半监督学习以及强化学习等。

针对监督学习，机器学习的方法可以概括为：从给定的、有限的、用于学习的训练数据集合出发，假设数据的独立同分布产生的；并且假设我们要学习的模型属于某个函数的集合（假设空间）；应用某个评价准则从假设空间中选取最优的模型，使她对已知训练数据以及未知测试数据在给定的评价准则下有最优的预测；最优模型的选取由算法实现。机器学习方法都是由模型、策略和算法三部分组成。确定具体的统计学习三要素也就构建一种机器学习方法。

1、模型

机器学习首要考虑的问题就是学习什么样的模型

在监督学习过程中，模型就是所要学习的条件概率分布或决策函数。模型的假设空间包含所有可能的条件概率分布或决策函数。举个例子：假设决策函数是输入变量的线性函数，那么函数的假设空间就是所有这些线性函数构成的函数集合。假设空间中的模型一般有无穷多个。决策函数表示的模型为非概率模型，由条件概率表示的模型为概率模型。我们通常谈及模型时，往往指的是假设空间的其中一种模型。

2、策略

机器学习的目标在于从假设空间中选取最优模型

有了模型的假设空间，机器学习接下来要考虑的是按照什么样的准则学习或者选择最优的模型。

1）这里首先引入两个概念——损失函数和风险函数。

a）损失函数度量模型一次预测的好坏，风险函数度量平均意义下模型预测的好坏。在监督学习问题里，选取假设空间中某个模型f作为决策函数，对于给定的输入X，由f(X)给出相应的输出Y，这个输出的预测值f(X)与真实值Y可能一致也可能不一致，用一个损失函数或者代价函数来度量预测错误的程度。机器学习常用的损失函数有：0-1损失函数；平方损失函数；绝对损失函数；对数损失函数或对数似然损失函数。损失函数值越小，模型就越好。

b）由于模型的输入、输出(X,Y)是随机变量，遵循联合分布P(X,Y).理论上模型f(X)关于联合分布P(X,Y)的平均意义下的损失，称为风险函数或期望损失。模型f(X)关于训练数据集的平均损失称为经验风险或经验损失。也即期望风险是模型关于联合分布的期望损失，经验风险是模型关于训练样本集的平均损失，根据大数定理，当样本容量N趋于无穷时，经验风险趋于期望风险。所以我们很自然的想到用经验风险估计期望风险。但现实中训练样本数目有限，甚至很小，所以用经验风险估计期望风险并不理想，需要对经验风险进行一定的矫正。这就关系到监督学习的两个基本策略：经验风险最小化和结构风险最小化。

2）经验风险最小化与结构风险最小化

a）在假设空间、损失函数以及训练数据集确定的条件下，经验风险函数式可以确定，此时经验风险最小的模型是最优的模型。我们根据这一策略，按照经验风险最小化求最优模型就是求解最优化问题。

当样本足够大时，经验风险最小化能保证有很好的学习效果。比如，极大似然估计(MLE)就是经验风险最小化的例子。当模型是条件概率分布，损失函数是对数损失函数时，经验风险最小化就等价于极大似然估计。但是当样本容量很小时，经验风险最小化学习效果就会很差，会产生过拟合现象。

b)结构风险最小化是为了防止过拟合而提出的策略。结构风险最小化等价于正则化。结构风险在经验风险上加上表示模型复杂度的正则化项或惩罚项。在假设空间、损失函数以及训练数据集确定的情况下，结构风险也就确定。结构风险小需要经验风险与模型复杂度同时小。结构风险小的模型往往对训练数据以及未知的测试数据都有较好的预测。

比如在贝叶斯估计中的最大后验概率估计(MAP)就是结构风险最小化的一个例子。当模型是条件概率分布、损失函数是对数损失函数、模型复杂度由模型的先验概率表示时，结构风险最小化就等价于最大后验概率估计。

结构风险最小化的策略认为结构风险最小的模型是最优的模型。所以求最优模型就是求解最优化问题。这样，监督学习问题就变成了经验风险或结构风险函数的最优化问题。此时经验或结构风险函数是最优化的目标函数。

3、算法

算法是指学习模型的具体计算方法

机器学习基于训练数据集，根据学习策略，从假设空间中选择最优模型，最后需要考虑用什么样的计算方法求解最优模型。

机器学习问题可以归结为最优化问题。如果最优化问题有显式的解析解，这个最优化问题就可以简单得出，但是现实中这个解析解很难存在。这就需要用数值计算的方法求解。那么我们此时面对的问题就是如何找到全局最优解，并且使得全局最优解求解的过程非常高效，就成为一个重要的问题。机器学习可以利用已有的最优化算法，当然你如果有深厚的数学功底，自己也可以开发高效的最优化算法。

总结

机器学习方法【监督学习问题】包括

我们来总结一下，机器学习方法【监督学习问题】包括模型的假设空间、模型选择的准则以及模型学习的算法，简称模型、策略和算法。

其具体步骤有哪些？

1）得到一个有限的训练数据集合

2）确定包含所有可能的模型的假设空间，即学习模型的集合（条件概率分布或决策函数的集合）

3）确定模型选择的准则，即学习的策略（选择何种损失函数以及经验风险最小或是结构风险最小）

4）实现求解最优模型的算法，即学习的算法

5）通过学习方法选择最优的模型

6）利用学习的最优模型对新数据进行预测或分析

总之，机器学习方法的不同，主要是来自模型、策略以及算法的不同。确定了模型、策略以及算法，那么机器学习方法也就随之确定。

END

科学研究是希望发现这个世界的奥秘

而数据就是这个世界的底牌

-- 数据超市 --

http://BigData711.com/

发表于: 2018-01-152018-01-15 11:16:12
原文链接：http://kuaibao.qq.com/s/20180115A08ILV00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

什么是机器学习三要素？-机器学习干货问题系列（一）

相关快讯

扫码

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐