插补法(imputation),理学-数学-数理统计学-数据分析,对缺失数据的填补方法。如果是对数据集中某一条记录进行填补,则称为单元插补;如果是对某一记录中的某个变量进行填补,则称为单项插补。通常数据的缺失会导致估计产生较大的偏差、效率降低以及数据分析的困难增加。所以利用插补法可以避免或减少数据缺失的不良后果。插补法主要分为两类,一类方法是直接删除,另一类方法是用估计值代替缺失的部分。在数据缺失完全随机的机制下,删除法方便、有效。删除法分为两种,一种方法是将某条有数据缺失的记录完全删除,这不会增加估计的偏差,但会减少有效样本量。另一种方法是,在某次分析中,只删除缺失与该分析有关变量值的那一条记录。用估计值代替法主要有以下四种:从同一数据集的相似记录中随机选取某一记录的值作为估计值;从另一数据集中随机选取某一记录的值作为估计值;采用剩余样本的均值或众数作为估计值;用剩余样本进行回归分析,利用回归模型估计缺失数据记录中的缺失值。