前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >经验风险、结构风险、正则项

经验风险、结构风险、正则项

作者头像
张凝可
发布2019-08-21 22:55:12
9360
发布2019-08-21 22:55:12
举报
文章被收录于专栏:技术圈技术圈技术圈

版权声明:本文为博主原创文章,遵循 CC 4.0 by-sa 版权协议,转载请附上原文出处链接和本声明。

本文链接:https://blog.csdn.net/qq_27717921/article/details/78163514

我们所学习到的所有的学习模型都会有一个共同的优化目标:

这里写图片描述
这里写图片描述

其中,

这里写图片描述
这里写图片描述

称为“结构风险”描述的是模型f的某些性质。

这里写图片描述
这里写图片描述

是经验风险,描述的是模型与训练数据的契合程度,C用于对二者进行折中。

经验风险

经验风险针对不同的学习模型有不同的计算方法。 平方损失–线性回归

这里写图片描述
这里写图片描述

0-1逻辑损失–逻辑回归

这里写图片描述
这里写图片描述

hinge损失–支持向量机

这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述

指数损失–AdaBoost

这里写图片描述
这里写图片描述

结构风险

这里写图片描述
这里写图片描述

又被称为正则化项,C被称为正则化常数,Lp范数是常用正则化项。 正则化项主要是在降低经验风险的同时能够降低最小化训练误差的过拟合风险。过拟合问题主要是提高模型的泛化能力,模型越复杂的时候,对于训练集的偏差会很小,但是在测试集时会导致偏差很大,从而整个模型不能适应新的样本,模型越复杂,模型的方差越大,过拟合现象越严重。 为什么会出现模型不能适应新的样本呢? 特征有成千上万,如果都去拟合的话,就会出现过拟合。

这里写图片描述
这里写图片描述

L1范数–LASSO: L1范数表示向量中每个元素绝对值的和:

这里写图片描述
这里写图片描述

L1范数的解通常是稀疏性的,倾向于选择数目较少的一些非常大的值或者数目较多的insignificant的小值。 采用L1 regularizer,它的优良性质是能产生稀疏性,导致 W 中许多项变成零。 L2 范数–ridge regression: L2范数即欧氏距离

这里写图片描述
这里写图片描述

采用L2 regularizer,使得模型的解偏向于 norm 较小的 W,通过限制 W 的 norm 的大小实现了对模型空间的限制,从而在一定程度上避免了 overfitting 。不过 ridge regression 并不具有产生稀疏解的能力,得到的系数 仍然需要数据中的所有特征才能计算预测结果,从计算量上来说并没有得到改观.

总结

L2范数倾向与w的分量取值尽量均衡,即非零分量个数尽量稠密。而L0范数和L1范数则倾向于w的分量尽量稀疏,即非零分量个数尽量少。 L1范数和L2范数正则化都有助于降低过拟合风险,L1范数比L2范数更容易获得稀疏解,求得的解w会有更少的非零分量。

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2017年10月05日,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 经验风险
  • 结构风险
  • 总结
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档