前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >统计学习的三个招式:模型、策略和算法 | 山人聊算法 | 2nd

统计学习的三个招式:模型、策略和算法 | 山人聊算法 | 2nd

作者头像
用户7623498
发布2020-08-04 16:31:34
9750
发布2020-08-04 16:31:34
举报

李航老师在统计学习方法中讲到:方法=模型+策略+算法

可以说模型、策略和算法是统计学习的三个重要因素,确定了三个要素也就确定了整个方法。也就是说建模的基本框架就定下来了。

这里要说一下,三要素确定了建模的基本框架,但我们要得到的最终模型还有数据集、模型评估与选择等问题。

三要素的概念简述如下:

  • 模型,条件概率分布或决策函数,在监督学习中指的是所有可能的目标分布或函数的假设空间。
  • 策略,按照什么样的准则学习,从而得到最优的模型,比如损失函数、风险函数、正则化等等。
  • 算法,学习模型的具体计算方法,比如梯度下降、随机梯度下降等。

一个炒股的故事

我们的目标是找到一只股票的价格变化规律。

  • 模型:经过分析我们认为这个规律应该是一个多项式函数,那么多项式函数中参数的所有可能性加起来比如有十万种可能性,那么这十万个可能的函数就是模型的假设空间。
  • 策略:我们最关心的是预测股价和将来的真实股价之间越接近越好,那么模型的预测输出与真值的误差就越小越好,这里衡量误差大小的方法有很多种,比如选择一个点的误差,还是一段时间内多个点的平均误差,还是误差的均方根等等。

不同的衡量方式会带来模型拟合程度、泛化能力的不同。

在监督学习问题中,通常用到的有经验风险最小化和结构风险最小化。策略通常就是经验风险和结构风险最优化问题。

  • 算法:那么如何解这个最优化问题,即如何利用数据集,寻找结构风险最小的多项式函数就是算法问题。比如我用穷举法计算,就是不停的试所有可能的参数从1次多项式一直到100次多项式,每个参数全部试一遍,这也是一种算法,当然效率很低。算法主要有

通常的算法有解析法和数值法。数值法中的迭代优化方法比较常用,在神经网络中的随机梯度下降就是一种迭代优化求解的过程,存在了尝试的意思在里面,步长等很多设置都是经验性设置没有明确的理论指导,但是非常有效。

再打一个粗略的比方

我们要找到一支非常有潜力的股票。

  • 模型:我们将有潜力定义为十年后价格上涨十倍,那么所有可能十年后上涨十倍的股票就是模型的假设空间。
  • 策略:我们定义十年上涨十倍的股票的寻找标准就是盈利能力高、被低估值的股票,那么找到了这样的股票就是找到了我们要的潜力股,策略就定下来了。
  • 算法:A股中有一千多只股票,我们怎么找呢?一个个去试是一种算法;先把高盈利的找出来,再看看哪些被低估了也是一种算法;还可以先计算低估值股票有哪些,再找其中高盈利的是哪些还是一种算法等等。

主要模型、策略和方法

简要总结

模型决定了建模方向是否正确,即模型空间中是否存在我们要的那个。

策略决定是否有可能找到最优模型,策略错误可能导致无法收敛。

算法决定了计算效率的高低,与之相关的计算成本、时间都是不一样的。

下面直接罗列一下监督学习中的主要模型、策略和方法有哪些。

模型:

  1. 决策函数,是一种非概率模型;
  2. 条件概率,是一种概率模型。

策略:

  1. 损失函数,度量模型一次预测的好坏。常见损失函数有:0-1损失函数;平方损失函数;绝对损失函数;对数损失函数。损失函数的值越小,模型就越好。
  2. 风险函数,度量平均意义下的模型预测好坏。也叫做期望损失,在模型符合联合分布的情况下,对损失函数求期望(积分)就是风险函数了。
  3. 经验风险最小化:即平均的误差最小,当样本容量足够大的时候,这种方法很有效。但是样本比较小的时候容易造成过拟合问题。
  4. 结构风险最小化:在经验风险最好化基础上加入了表示模型复杂度的正则化项,来均衡模型的复杂度和平均输出误差,避免过拟合问题。

算法:

  1. 梯度下降法
  2. 随机梯度下降
  3. ……

参考资料

  • 李航,统计学习方法
本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2018-07-06,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 决策智能与机器学习 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档