正则化方法，防止过拟合

1、什么是欠拟合和过拟合

先看三张图片，这三张图片是线性回归模型，拟合的函数和训练集的关系

第一张图片拟合的函数和训练集误差较大，我们称这种情况为欠拟合;
第二张图片拟合的函数和训练集误差较小，我们称这种情况为合适拟合;
第三张图片拟合的函数完美的匹配训练集数据，我们称这种情况为过拟合

过拟合是什么，上面也解释了，就是模型训练时候的误差很小，但在测试的时候误差很大，也就是我们的模型复杂到可以拟合到我们的所有训练样本了，但在实际预测新的样本的时候，糟糕的一塌糊涂。通俗的讲就是应试能力很强，实际应用能力很差。擅长背诵知识，却不懂得灵活利用知识

类似的，对于下述的判别问题同样也存在欠拟合和过拟合问题,从左到右分别是欠拟合（underfitting，也称High-bias）、合适的拟合和过拟合（overfitting，也称High variance）三种情况，如下三张图：

OK，那现在到我们非常关键的问题了，为什么L2范数可以防止过拟合？回答这个问题之前，我们得先看看这个的理论总结。

2. 如何解决欠拟合和过拟合问题

欠拟合问题，根本的原因是特征维度过少，导致拟合的函数无法满足训练集，误差较大。欠拟合问题可以通过增加特征维度来解决。

过拟合问题，根本的原因则是特征维度过多，导致拟合的函数完美的经过训练集，但是对新数据的预测结果则较差。解决过拟合问题，则有2个途径：

减少特征维度; 可以人工选择保留的特征，或者模型选择算法
正则化; 保留所有的特征，通过降低参数θ的值，来影响模型

对于增加特征维度和较特征维度的方面可以通过改变采样或者人工干预来解决，下面主要来讲解什么是正则化。

3. 正则化

回顾过拟合的例子, h(x) = θ0 + θ1x1 + θ2x2 + θ3x3 + θ4x4

从图中可以看出，解决这个过拟合问题可以通过消除特征x3和x4的影响, 我们称为对参数的惩罚, 也就是使得参数θ3, θ4接近于0。

最简单的方法是对代价函数进行改造，例如

这样在求解最小化代价函数的时候使得参数θ3, θ4接近于0。

正则化其实就是通过对参数θ的惩罚来影响整个模型，在损失函数上加上正则项达到目的，如下：

附：正则化定义

L1正则化就是L1范数，L1范数是指向量中各个元素绝对值之和，也有个美称叫“稀疏规则算子”（Lasso regularization）。

L2正则化就是L2范数: ||W||2.
L2范数是指向量各元素的平方和然后求平方根,在回归里面，有人把有它的回归叫“岭回归”（Ridge Regression），有人也叫
它“权值衰减weight decay”。我们让L2范数的规则项||W||2最小，可以使得W的每个元素都很小，都接近于0，但与L1范数不同，
它不会让它等于0，而是接近于0，这里是有很大的区别的哦。而越小的参数说明模型越简单，越简单的模型则越不容易产生过拟合现象。

下面来讲解为什么正则项能防止过拟合？

4. 正则化使权重减少

先给出结论：

L1和L2的目的是通过减少W的权重从而减少模型的复杂度，从而提高模型的泛华能力，为什么会这样呢？启发式地来说，如果代价函数没有正则化，那么权重向量的长度倾向于增长，而其它的都不变。随着时间推移，权重向量将会变得非常大。这可能导致权重向量被限制得或多或少指向同一个方向，因为当长度过长时，使代价函数的最优解发生偏离。

下文从数学的角度出发给出了正则化为什么能减少W的权重，机器学习的实践应用中也得到了验证，但是正则化到底是如何影响模型的泛华能力，并没有科学的数据依据，难道W按照某种规则增加就不能提高模型的泛华能力吗？

从机器学习的领域经验表明：减少W的权重从而减少模型的复杂度，提高模型的泛华能力，因此正则化处理手段在机器学习的模型上得到广泛应用。

[ ] L2 regularization（权重衰减）

L2正则化就是在代价函数后面再加上一个正则化项：

C0代表原始的代价函数，后面那一项就是L2正则化项，它是这样来的：所有参数w的平方的和，除以训练集的样本大小n。λ就是正则项系数，权衡正则项与C0项的比重。另外还有一个系数1/2，1/2经常会看到，主要是为了后面求导的结果方便，后面那一项求导会产生一个2，与1/2相乘刚好凑整。

L2正则化项是怎么避免overfitting的呢？我们推导一下看看，先求导：

可以发现L2正则化项对b的更新没有影响，但是对于w的更新有影响:

在不使用L2正则化时，求导结果中w前系数为1，现在w前面系数为 1−ηλ/n ，因为η、λ、n都是正的，所以 1−ηλ/n小于1，它的效果是减小w，这也就是权重衰减（weight decay）的由来。当然考虑到后面的导数项，w最终的值可能增大也可能减小。

另外，需要提一下，对于基于mini-batch的随机梯度下降，w和b更新的公式跟上面给出的有点不同：

对比上面w的更新公式，可以发现后面那一项变了，变成所有导数加和，乘以η再除以m，m是一个mini-batch中样本的个数。

到目前为止，我们只是解释了L2正则化项有让w“变小”的效果，但是还没解释为什么w“变小”可以防止overfitting？一个所谓“显而易见”的解释就是：更小的权值w，从某种意义上说，表示网络的复杂度更低，对数据的拟合刚刚好（这个法则也叫做奥卡姆剃刀），而在实际应用中，也验证了这一点，L2正则化的效果往往好于未经正则化的效果。当然，对于很多人（包括我）来说，这个解释似乎不那么显而易见，所以这里添加一个稍微数学一点的解释（引自知乎）：

过拟合的时候，拟合函数的系数往往非常大，为什么？如下图所示，过拟合，就是拟合函数需要顾忌每一个点，最终形成的拟合函数波动很大。在某些很小的区间里，函数值的变化很剧烈。这就意味着函数在某些小区间里的导数值（绝对值）非常大，由于自变量值可大可小，所以只有系数足够大，才能保证导数值很大。