梯度消失(gradient vanishing),理学-统计学-大数据统计分析-深度神经网络-梯度消失,在神经网络中,当前面隐藏层的学习速率低于后面隐藏层的学习速率时,随隐藏层数目的增加,神经网络运算准确率下降的现象。梯度消失问题由德国计算机科学家S.霍赫赖特[注]于1991年提出。层数较多的神经网络通常使用梯度下降算法来对误差进行反向传播,以达到更新优化网络参数、损失函数最小化的目的。而产生梯度消失现象的根本原因就在于误差的反向传播。这是因为误差从输出层反向传播时,经过每一层时都需要乘以该层激活函数的导数;若使用Sigmoid型函数作为激活函数,由于Sigmoid型函数的导数的值域都小于或等于1(图1),会导致误差在反向经过每一层的传递过程中不断衰减。当神经网络的层数很深时,梯度会不停衰减,甚至消失。Logistic函数的导数(左)与Tanh函数的导数(右)图1 Sigmoid型函数的导数当梯度消失发生时,接近输出层的隐藏层由于梯度相对正常,所以权值更新时也相对正常;但随着网络层数的增加,越靠近输入层,梯度以指数衰减的方式逐渐衰减甚至消失,导致靠近输入层的隐藏层权值更新缓慢或停滞。