策略迭代法
(其他数学相关)
策略迭代法(policyiterationmethod),动态规划中求最优策略的基本方法之一。它借助于动态规划基本方程,交替使用"求值计算"和"策略改进"两个步骤,求出逐次改进的、最终达到或收敛于最优策略的策略序列。例如,在最短路径问题中,设给定M个点1,2,…,M。点M是目的点,сij>0是点i到点j的距离i≠j,сij=0,i,j=1,2,…,M,要求出点i到点M的最短路。记?(i)为从i到M的最短路长度。此问题的动态规划基本方程为(图1)
加载更多
领域
提 交
运筹学
数学
词条相关
词条 主页
》
词条 科普
》
词条 事件
》
词条 题库
》
词条 知识
》