深度学习面试的一些题目

整体回答得都比较简略,可以起到提纲挈领的作用,但是还需要继续深化。

 

解释Adam优化器的概念。

答:Adam结合了两个想法来改善收敛性:每个参数更新可加快收敛速度;动量可避免卡在鞍点上。

 

为什么必须在神经网络中引入非线性?

答:否则,我们将获得一个由多个线性函数组成的线性函数,那么就成了线性模型。线性模型的参数数量非常少,因此建模的复杂性也会非常有限。

 

如何解决梯度爆炸的问题?

答:解决梯度爆炸问题的一个最简单的方法就是梯度修剪,即当梯度的绝对值大于M(M是一个很大的数字)时,设梯度为±M。

 

说明为什么神经网络中的dropout可以作为正则化。

答:关于dropout的工作原理有几种解释。我们可以将其视为模型平均的一种形式:我们可以在每一步中“去掉”模型的一部分并取平均值。另外,它还会增加噪音,自然会产生调节的效果。最后,它还可以稀释权重,从根本上阻止神经网络中神经元的共适应。

 

判断对错:将L2正则化添加到RNN有助于解决梯度消失的问题。

答:错误!添加L2正则化会将权重缩小为零,在某些情况下这实际上会让梯度消失的问题更严重。

 

 

参考这篇文章:

https://mp.weixin.qq.com/s/BjR4ohEGw8pRKZqpgSt9Aw

上一篇:ADAMoracle多节点计算网络预言机架构


下一篇:用户发起数据请求到得到喂价数据的整套流程中