期望最大化估计(expectation maximization estimation),工学-控制科学与工程-控制理论与控制工程基础-自动控制理论-随机控制理论,在已知部分相关变量的情况下,估计未知变量的一个迭代技术。又称忽略缺失数据的最大似然估计。在参数估计中常常通过最大似然函数进行估计,由于隐变量的存在,不能直接求解这个最大似然函数。期望值最大化算法(EM算法)就是将这个最大似然函数的求解问题转化为求解其下界的最大值的问题,通过求一个隐变量分布的“期望值”步骤和一个求似然函数最大化的“最大值”步骤完成。EM算法是一种求参数最大似然估计的方法,它可以用非完整数据集对参数进行最大似然估计。为了能够增大策略参数在每次更新中的调整量,德国神经学家P.达扬(Peter Dayan)等将强化学习问题映射为一种最大似然概率密度估计问题,并利用EM算法估计该概率密度,提出了一种EM强化学习框架。与基于梯度的策略搜索强化学习方法相比,EM策略搜索不仅可以避免学习率参数的调节问题, 而且可以加快算法的学习速度。EM算法的一般性陈述:用表示观测样本空间,表示中的观测值。表示基础空间,中的称为完备数据。