策略迭代法

（其他数学相关）

策略迭代法(policyiterationmethod)，动态规划中求最优策略的基本方法之一。它借助于动态规划基本方程，交替使用"求值计算"和"策略改进"两个步骤，求出逐次改进的、最终达到或收敛于最优策略的策略序列。例如，在最短路径问题中，设给定M个点1，2，…，M。点M是目的点,сij>0是点i到点j的距离i≠j,сij=0,i,j=1,2,…,M,要求出点i到点M的最短路。记?(i)为从i到M的最短路长度。此问题的动态规划基本方程为(图1)