神经网络中的网络优化和正则化（一）之学习率衰减和动态梯度方向

2011 年 10 月 7 日

引言

神经网络中的网络优化和正则化问题介绍主要分为一，二，三，四篇进行介绍。

第一篇包括

网络优化和正则化概述
优化算法介绍

第二篇包括

参数初始化
数据预处理
逐层归一化

第三篇包括

超参数优化

第四篇包括

网络正则化

概述

虽然神经网络有比较强的表达能力，但是应用神经网络到机器学习任务时仍存在一些问题，主要分为：

网络优化

神经网络模型是一个非凸函数，再加上神经网络中的梯度消失和梯度爆炸，很难进行优化，另外网络的参数比较多，且数据量比较大导致训练效率比较低。

正则化

神经网络拟合能力强，容易在训练集上产生过拟合，需要一些正则化的方法来提高网络的泛化能力。

在低维空间的非凸优化问题中主要是存在一些局部最优点，基于梯度下降优化算法会陷入局部最优点，因此低维空间的非凸优化的难点在于如何选择合适的参数和逃离局部最优点。

深层神经网络中参数较多，其是在高维空间的非凸优化问题中，和低维空间的非凸优化有些不同，其主要难点在于如何逃离鞍点（Saddle Point），鞍点的梯度为0，但是在一些维度上是最高点，在另一些维度上是最低点，如下图所示（图1-1）：

在高维空间中，局部最优点要求在每一维度上都是最低点，这种概率很低，假设网络有1000个参数，每一维上取得局部最优点的最小概率为p，则在整个参数空间中取得局部最优点的最小概率为，这种概率很小，也就是说在整个参数空间中，大部分梯度为0的点都是鞍点。

优化算法介绍

深层神经网络的参数学习主要是通过梯度下降算法寻找一组最小结构的风险参数，梯度下降分为：

批量梯度下降
随机梯度下降
小批量梯度下降

关于三种梯度下降方法的对比和介绍可参考：梯度算法之批量梯度下降，随机梯度下降和小批量梯度下降，也可以阅读：

https://blog.csdn.net/gamer_gyt/article/details/78797667

根据不同的数据量和参数量，可以选择一种合适的梯度下降优化算法，除了在收敛效果和效率上的区别，这三种梯度下降优化算法还存在一些共同问题（具体会在下一 篇进行详细介绍 ）：

如何初始化参数
预处理数据
如何选择合适的学习率，避免陷入局部最优

在训练深层神经网络时，通常采用小批量梯度下降算法。令为一个深层神经网络， θ 为网络参数，使用小批量梯度优化算法时，每次选择K个训练样，第t次迭代时损失函数关于 θ 的偏导数为（公式1-1）：

第t次更新的梯度定义为（公式1-2）：

使用梯度下降来更新参数（公式1-3）：

一般批量较小时，需要选择较小的学习率，否则模型不会收敛。下图（图1-2）给出了在Mnist数据集上批量大小对梯度的影响。从图1-2(a)可以看出，批量大小设置的越大，下降的越明显，并且下降的比较平滑，当选择批量的大小为1时，整体损失呈下降趋势，但是局部比较震荡。从图1-2(b)可以看出，如果按整个数据集上的迭代次数（Epoch）来看损失变化情况，则是批量样本数越小，下降效果越明显。

为了更加有效的训练深层神经网络，在标准的小批量梯度下降算法中，经常使用一些改进方法加快优化速度，常见的改进方法有两种：

学习率衰减
梯度方向优化

这些改进的优化方法也同样可以应用在批量梯度下降算法和随机梯度下降算法。

学习率衰减

在梯度下降中，学习率的设置很重要，设置过大，则不会收敛，设置过小，则收敛太慢。从经验上看，学习率在一开始要设置的大些来保证收敛速度，在收敛到局部最优点附近时要小些来避免震荡，因此比较简单的学习率调整可以通过学习率衰减（Learning Rate Decay）的方式来实现。假设初始学习率，第t次迭代的学习率为，常用的衰减方式为按照迭代次数进行衰减，例如

逆时衰减（公式1-4）

指数衰减（公式1-5）

自然指数衰减（公式1-6）

其中
β

为衰减率，一般为0.96

AdaGrad

AdaGrad（Adaptive Gradient）算法是借鉴L2正则化的思想，每次迭代时自适应的调整每个参数的学习率。AdaGrad的参数更新公式为（公式1-7）：

其中
α 为学习率，
ϵ 是为了保证数据稳定性而设置的非常小的常数，一般取值是

到

，这里的开平方，加，除运算都是按照元素进行的操作。

在AdaGrad算法中，如果某个参数的偏导数累积比较大，其学习率相对较小，相反，如果其偏导数累积比较大，其学习率相对较大。但是整体上随着迭代次数的增加，学习率逐渐减小。

AdaGrad算法的缺点是在经过一定次数的迭代后依然没有找到最优点，由于这时候的学习率已经很小了，就很难找到最优点。

RMSProp

RMSProp是Geoff Hinton提出的一种自适应学习率的方法，可以在有些情况下避免AdaGrad的学习率单调递减以至于过早衰减的缺点。

RMSProp算法首先计算的是每次迭代速度平方的指数衰减移动平均，如下所示（公式1-8）：

其中 β 为衰减率，一般取值为0.9，RMSProp算法参数更新公式为（公式1-9）：

其

为学习率，通常为0.001。

从公式1-8 可以看出，RMSProp和AdaGrad的区别在于的计算由累积方式变成了指数衰减移动平均，在迭代过程中，每个参数的学习率并不是呈衰减趋势，即可以变大，也可以变小。

AdaDelta

AdaDelta算法也是AdaGrad算法的一个改进，和RMSProp算法类似，AdaDelta算法通过梯度平方的指数衰减移动平均来调整学习率，除此之外，AdaDelta算法还引入了每次参数更新差的平方的指数衰减移动平均。

第t次迭代时，每次参数更新差的指数衰减移动平均为（公式1-10）：

其中为衰减率，AdaDelta算法的参数更新差值为（公式1-11）：

其中的计算方式和RMSProp算法一样。从公式1-11可以看出，AdaDelta算法将RMSProp算法中的初始学习率 α 改为动态计算的，在一定程度上减缓了学习率的波动。

梯度方向优化

除了调整学习率外，还可以使用最近一段时间内的平均梯度来代替当前时刻的梯度来作为参数的更新方向，从图1-2中可以看出，在小批量梯度下降中，如果每次选取样本数量比较小，损失就会呈现震荡的方式下降，有效的缓解梯度下降中的震荡的方式是通过用梯度的移动平均来代替每次的实际梯度。并提高优化速度，这就是 动量法 。