热卡插补(hot deck imputation),理学-统计学-数理统计-【核心概念】,对于一个包含缺失值的变量,观测到的数据集中找到一个与它最相似的对象,然后用这个相似对象的值来进行插补的方法。又称就近补齐。对于不同的问题一般会选用不同的相似度量来对寻找相似对象。通常使用相关系数矩阵来确定与缺失值所在变量(如变量)最相关的变量(如变量),然后将所有的观测值按的取值大小进行排序,的可观测值进行伴随排序,那么变量的缺失值就可以用排在缺失值前的那个的伴随观测数据来代替了。例如,如某地某年 GDP数据缺失,则可以用当地缺失值前一年或前几年GDP值的平均值为其赋值;如果数据是二维或二维以上的,则需要先测算出所有样本两两之间的相似度距离,找到与其“最相似”的个样本,再计算它们的加权平均值。与均值替补法相比,利用热卡插补数据后,其变量的标准差与插补前较接近,并且可利用数据间的关系来进行缺失值插补,有较高准确率;特征的整体方差与插补前较接近,从而避免数据信息量的下降。值得注意的是对于变量相似标准的选取较难,主观因素较多。尤其当特征数量较多时,难以找到与需要插补样本相似的样本,计算量偏大。