答:梯度爆炸:为解决梯度爆炸问题,Thomas Mikolov首先提出了一个简单的启发性的解决方案,就是当梯度大于一定阀值的时候,将它截断为一个较为小的数。
解决梯度弥散问题的两种方法:
第一种:将随机初始化W改为一个有关联的矩阵初始化。
第二种:使用ReLU代替sigmid函数。ReLU导数不是0就是1,因此,神经元的梯度将始终为1,而不会当梯度传播了一定时间之后变小
欢迎分享,转载请注明来源:内存溢出
答:梯度爆炸:为解决梯度爆炸问题,Thomas Mikolov首先提出了一个简单的启发性的解决方案,就是当梯度大于一定阀值的时候,将它截断为一个较为小的数。
解决梯度弥散问题的两种方法:
第一种:将随机初始化W改为一个有关联的矩阵初始化。
第二种:使用ReLU代替sigmid函数。ReLU导数不是0就是1,因此,神经元的梯度将始终为1,而不会当梯度传播了一定时间之后变小
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)