Batch Normalization原理理解与作用

一、原始神经网络层和Internal Covariate Shift问题

在原始DNN中,隐藏层(HiddenLayer)将输入x通过系数矩阵W相乘得到线性组合z=Wx,再通过激活函数a=f(z),得到隐藏层的输出a(X可以为输入层输入或者上一个隐藏层的输出),具体结构如下:
Batch Normalization原理理解与作用
图中为一个批次(batch)的样本在隐藏层的传播过程。由于批次的不断传入和训练,DNN内部参数在不断改变,导致每一次隐藏层的输入分布不一致,这不符合机器学习中的IID假设(独立同分布假定)。也就是在训练过程中,隐层的输入分布老是变来变去,这就产生了内部协变量偏移问题(Internal Covariate Shift).

二、Batch Normalization

针对上面的协变量偏移问题,Google于2015年提出了Batch Normalization算法(BN)。BN通过对隐藏层线性组合输出z=Wx进行正态标准化z’=normalization(z),再对标准化的输出z’进行尺度放缩和平移变换,使隐藏层的输出分布一致(注意:针对z=Wx进行标准化,而不是通过激活函数a=f(z)进行标准化)。
具体的Batch Normalization如下:
Batch Normalization原理理解与作用
带有Batch Normalization处理的隐藏层结构如下:
Batch Normalization原理理解与作用
其中参数γ和β是可以通过训练得到的。而在训练中μ和σ为该batch数据z的均值和方差。在预测时,μ和σ分别使用每个batch的μ和σ的加权并平均,其中起始输入的batch的权重较低,后面输入的batch的权重较高。

二、Batch Normalization的优点

BN可以把隐层神经元激活输入z=WX从变化不拘一格的正态分布拉回到了均值为0,方差为1的正态分布。使得隐藏层的输入分布一致,这解决了前面的协变量偏移问题(Internal Covariate Shift)。
同时,激活函数恰恰在中间区域的梯度是最大的,由于模型使用随机梯度下降(SGD),这使得模型的训练使不会出现梯度弥散或者梯度忽大忽小的问题,同时参数的收敛速度更快。
Batch Normalization原理理解与作用
具体总结的优点如下:

  • 解决内部协变量偏移 (Internal Covariate Shift)
  • 模型收敛加速
  • 解决梯度弥散问题 (gradient vanish)
  • 使模型正则化具有正则化效果
  • 参过程简单,对于初始化要求没那么高
上一篇:Java Web报错:getOutputStream() has already been called for this response解决方案


下一篇:文件下载后台报错IllegalStateException: getOutputStream() has already been called