随机梯度下降(stochastic gradient descent; SGD),理学-统计学-大数据统计分析-深度神经网络-梯度下降-随机梯度下降,依据损失函数的梯度,在一次迭代中对每一个训练实例进行预测,并重复迭代该过程到一定的次数,从而最小化一个函数的过程。在机器学习中,可以利用该方法来最小化训练模型中的误差,即每次迭代时完成一次评估和更新。简史梯度下降法是经典的优化方法之一,它最早在1986年由美国认知心理学家D.鲁梅尔哈特[注]等人提出并被广泛使用。梯度下降法在每次迭代过程中需要使用所有的训练数据,这就给求解大规模数据优化问题带来挑战。为了解决该问题,随机梯度下降法应运而生,它采用单个训练样本的损失来近似平均损失。