近似动态规划(approximate dynamic programming; ADP),理学-系统科学-系统技术科学-系统控制与运筹-系统运筹-基于数据解析的优化,一种求解大规模、复杂/随机/动态多阶段决策问题的建模和算法策略。它融合了动态规划、强化学习、神经网络等优化控制方法,不依赖于被控对象精确的解析模型,基本思想就是通过评价网络估计性能指标函数来避免每个阶段内对所有状态和控制变量的精确计算,在一定程度上避免经典动态规划算法的“维数灾"问题,并能获得次优(近似最优)策略。近似动态规划由动态规划(dynamic programming)和马尔可夫决策过程(Markov decision process)演变而来,通常作为克服求解贝尔曼方程导致的维数灾的方法。美国数学家R.E.贝尔曼(R.E.Bellman,1920~1984)首先提出动态规划的概念并于1957年发表《动态规划》(Dynamic Programming)一书。动态规划将多阶段决策问题转化成一系列比较简单的最优化问题,通过最优化原理保证各阶段选定的决策序列所构成的策略是整个问题的最优决策。