ReLU负半轴是死区,会造成梯度变为0,于是有了LeakyReLU、PReLU
强调梯度和权值分布的稳定性,由此有了ELU,以及较新的SELU
太深了,梯度传递不下去,于是有了highway
干脆连highway的参数都不要,直接变残差,于是有了ResNet
强行稳定参数的均值和方差,于是有了BatchNorm
在梯度流中增加噪声,于是有了Dropout
RNN梯度不稳定,于是加几个通路和门控,于是有了LSTM
LSTM简化一下,有了GRU
GAN的JS散度有问题,会导致梯度消失或者无效,于是有了WGAN
WGAN对梯度的clip有问题,于是有了WGAN-GP
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)