答:
1.对于神经网络来说,网络的每一层相当于f(wx+b)=f(w'x),对于线性函数,其实相当于f(x)=x,那么在线性激活函数下,每一层相当于用一个矩阵
去乘以x,那么多层就是反复的用矩阵去乘以输入。根据举证的乘法法则,多个矩阵相乘得到一个大的矩阵。所以线性激励函数下,多层网络与一层网络相当。
比如:两层的网络f(w1*f(w2x)) = W1W2x = Wx
2.非线性变换是深度学习有效的原因之一。原因在于非线性相当于对空间进行变换,变换完成之后相当于对问题空间进行简化,原来线性不可解的问题现在变得可以解了
3.如果不用激励函数(其实相当于激励函数是f(x)=x),在这种情况下,你的每一层输出都是上层输入的线性函数,很容易验证,无论你神经网络多少层,
输出都是输入的线性组合,与没有隐藏层效果相当,这种情况就是最原始的感知机了
正因为上面的原因,我们决定引入非线性函数作为激励函数,这样深层神经网络就有意义了(不再是输入的线性组合,可以逼近任意函数)。最早的想法是
sigmoid函数或者tanh函数,输出有界,很容易充当下一层输入
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)