策略迭代法
(其他数学相关)
策略迭代法(policyiterationmethod),动态规划中求最优策略的基本方法之一。它借助于动态规划基本方程,交替使用"求值计算"和"策略改进"两个步骤,求出逐次改进的、最终达到或收敛于最优策略的策略序列。例如,在最短路径问题中,设给定M个点1,2,…,M。点M是目的点,сij>0是点i到点j的距离i≠j,сij=0,i,j=1,2,…,M,要求出点i到点M的最短路。记?(i)为从i到M的最短路长度。此问题的动态规划基本方程为(图1)
用户数据
参数表
继承树
构成树
关注人数:
0
技点进度:
0
/
0
题库进度:
0
/
0
技能进度:
0
/
关注级别:
取消关注
【参数模块正在开发当中】