机器学习代价函数中的正则化

文章来源：企鹅号 - 稻草香飘万里

1，为什么引入正则化参数，正则化参数有什么作用

2，如何选取正则化参数

我们首先以逻辑回归的代价函数为例，来说明引入正则化参数的代价函数，有什么变化。下面为逻辑回归的代价函数的统一写法（使用的交叉熵作为代价）：

从中我们知道，这个式子我们唯一需要考虑的，便是取什么样的参数下（权值θ），我们得到的J（θ）最小。（我们可以对每个θ进行求导来求，如何求导这里不予讨论）。似乎这样我们就能解决我们的问题，但是这样一来会又会出现一些问题。

我们考虑在我们的到J（θ）最小的同时，我们得到的权值θ会不会出现某些权值θ十分大，而有些权值θ十分小的情况，这样整个回归方程将会受到大权值θ的影响，从而产生过拟合或欠拟合问题。

在查阅资料得知，引入正则化参数，可以通过调整该参数来解决过拟合和欠拟合的问题。这里所说的过拟合和欠拟合指的便是我们上面所考虑的情况。

引入正则化参数的作用之一便是，平衡权值θ。

我们接下来看一下，它是如何做到平衡权值θ的（我们以L2正则化为例）。

注：这里的ln和上面的log作用一样

对上式进行符号化，代价函数使用C0表示：

此时我们想要得到的便是C在w为何值的时候，C取值最小，这个时候我们通过式子便可以发现，因为引入了参数w，我们所求的最小C的同时，还要满足后面正则化参数尽可能的取最小（不一定就是最小）。

正则化可以当做一种寻找小的权重和最小化原始的代价函数之间的折中。这两部分之前相对的重要性就由 λ 的值来控制了:λ 越小,就偏向于最小化原始代价函数,反之,倾向于小的权重。

综上，我们得知：

1，引入正则化参数的作用是为了缓和过拟合和欠拟合的问题。

2，所选取的正则化参数，是那些影响代价函数的参数。（因为这些参数过大过小都会影响回归曲线的拟合效果）

在此引入一句我觉得对正则化理解比较具有几何意义的话：

正则性衡量了函数光滑的程度，正则性越高，函数越光滑。（光滑衡量了函数的可导性，如果一个函数是光滑函数，则该函数无穷可导，即任意n阶可导）。

参考资料：

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货