贝尔曼动态规划

（工学 | 控制科学与工程）

贝尔曼动态规划（Bellman dynamic programming），工学-控制科学与工程-控制理论与控制工程基础，求解多阶段决策过程最优化的数学方法。属于运筹学的一个分支。该方法的核心是由美国数学家R.E.贝尔曼（Richard Ernest Bellman，1920～1984）于20世纪50年代提出的贝尔曼最优性原理，即多级决策过程的最优策略具有这种性质，不论初始状态和初始决策如何，其余的决策对于由初始决策所形成的状态必定也是一个最优策略。这个原理可以归结为一个基本的递推公式，当求解多级决策问题时，要从末端开始，到始端为止，逆向递推。贝尔曼动态规划解决问题的基本思路：把整体比较复杂的大问题划分为一系列较易于解决的小问题，通过逐个求解，最终取得整体最优解。这种“分而治之，逐步调整”的方法，在解决一些复杂问题中已经显示出优越性。动态规划程序设计是解最优化问题的一种途径和方法。