强化学习控制(reinforcement learning control),工学-控制科学与工程-控制理论与控制工程基础-自动控制理论-适应控制系统,基于人工智能的优化控制方法,其智能体通过“试错法”进行探索,根据环境的标量评价信息进行控制策略优化,学习过程不需要对象模型和监督信息,因此成为求解复杂控制决策问题的极有力的方法。强化学习常常被归为机器学习方法的一种。实际上,这种方法在控制理论领域也是研究热点,自适应动态规划也可以被看作强化学习的一种方法。在智能控制中,对于存在不确定模型的控制问题,由于系统的不确定性和复杂非线性,使得基于数学模型的传统控制方法的效果甚微。强化学习因其学习原理比较符合人脑的学习过程,其控制方法已经在智能机器人中获得广泛应用。1956年M.华尔兹(M.Waltz)等人提出了类似于强化学习的思想。A.G.巴尔托(A.G.Barto)于1983年将强化学习应用到控制系统中,采用关联搜索元和自适应评估元构成评估系统,经过反复学习,可以长时间地维持倒立摆系统的平衡状态。S.P.辛格(S.P.Singh)提出采用随机逼近的方法来解决最优控制问题。