梯度爆炸(gradient exploding),理学-统计学-大数据统计分析-深度神经网络-梯度消失-梯度爆炸,神经网络训练过程中数值过大的误差梯度不断累积,导致模型权重出现重大更新的现象。梯度爆炸问题由德国计算机科学家S.霍赫赖特[注]于1991年提出。梯度爆炸会造成前面隐藏层的梯度比后面隐藏层的梯度变化更快,模型不稳定,无法利用训练数据学习。层数较多的神经网络通常使用梯度下降算法来对误差进行反向传播,以达到更新优化网络参数,使损失函数取得最小值的目的。与梯度消失类似,产生梯度爆炸现象的根本原因也在于误差的反向传播。这是因为误差从输出层反向传播时,经过每一层时都需与该层的权重相乘,若某层的初始权重设置过大,会导致该层权重与激活函数的导数相乘后乘积大于1;随着网络层数的增加,大于1的值连续相乘,最终求出的梯度更新将以指数形式增加,即发生梯度爆炸。梯度爆炸示意图例如,设神经网络的每一层都只有一个神经元且对于每一层都有(见图),式中为sigmoid激活函数。