21:动量与学习率衰减

1:动量Momentum(惯性)

 

 21:动量与学习率衰减

 

 【注】简而言之:下一个梯度方向等于当前梯度的更新方向和上一个梯度方向的共同方向。

21:动量与学习率衰减

 

【注】当β=0,α!=0完全退化成没有添加动量的梯度更新

 21:动量与学习率衰减

 

 [注]当α和β都不等于0,则动量β有效,最优化时避免陷入局部极小值。

21:动量与学习率衰减

 

 【注】在pytorch中只需要在优化器SGD中添加参数momentum就可以设置动量β。还有一些优化器例如:Adam()则momentum内嵌其中故没有momentum参数。

weight_decay参数则是为了将权值参数的范数逼近为0,以减弱过拟合现象。

上一篇:贪心


下一篇:深度学习中momentum的作用