填补算法(imputation algorithm),农学-作物学-试验统计-作物试验统计方法-估计方法与算法-填补算法,采用某种方法确定一个合理的填补值填补到缺失数据位置上的算法。填补可以减小由数据缺失造成的估计量偏差以及构造一个完整的数据集,解决实验研究中不完备数据造成的统计结果不准确和数据挖掘工作中的低效率等问题。美国数学家A.P.登普斯特(Arthur P.Dempster)等最早提出一种有效处理缺失数据的算法——EM算法,该算法为处理缺失数据带来了新的革命;基于此算法,D.鲁宾(Donald Rubin)在1978年提出多重填补的方法;L.S.约瑟夫(L.S.Joseph)等在1998年提出了对多变量缺失值的多重填补法。常见的简单填补方法有:①均值填补。指变量服从正态或近似正态分布的情况下,用样本中观测值的均值代替缺失值。如果变量分布是偏态的,则用中位数代替。②回归填补。由单元的缺失项对观测项的回归,用预测值代替缺失值,填补中还可以给填补值增加随机成分。③热卡(hot-deck)填补。常见的有随机热卡填补法和序贯热卡填补法。