学习率(learning rate),理学-统计学-大数据统计分析-深度神经网络-梯度下降-学习率,梯度下降方法中的学习步长。在机器学习和统计学中,学习率是梯度下降算法中的一个调整参数。大量的数据分析问题都会涉及优化。例如,经典的极大似然估计就是通过优化对数似然函数获得的。传统数据优化问题所涉及的数据量不大,而且维度较低,因此传统的牛顿方法(Newton-Raphson Method)以及各种相关改进得到了广泛的应用。但是,该方法有一个明显的缺点就是要计算二阶导数,即黑塞矩阵(Hessian matrix)。对于超高维数据而言,这是非常困难,甚至不现实的任务。因此,人们创造性地提出了梯度下降方法。所谓梯度下降方法,就是一个逐步迭代的数值优化方法。其核心是对每一个当前估计,基于梯度的方向,做优化。梯度方向可以通过对损失函数求导获得。而决定在该方向(或者其反方向上)所移动步长的,就是学习率。学习率隐喻了模型“学习”(向损失函数的最小值移动)的速度。理论上人们可以证明,沿着梯度的负方向,移动一小步,只要步长足够小,那么损失函数一定可以获得优化。