游离值(outlier),法学-社会学-社会学方法-数据分析,一个有关数据质量的概念,是在多元数据中与其他数据有较大差异的观察值。又称异常值。游离值分为两种情况:①单个变量值过大或过小,与同一个变量其他观察值存在着明显的偏离。②单个变量值虽未出现与其他观察值有明显偏离,但不符合变量间的结构和相关性,明显扰乱这种相关关系。这将会导致研究者在做回归分析的时候,得出有较大偏差的结果,影响模型的拟合优度。游离值的产生有许多原因,但主要可分为主、客观两方面。主观上讲,有可能是抽样调查设计时疏忽大意,以及有意的虚报谎报数据导致游离值的出现;客观上讲,某些样本由于特定原因在某些变量上的确表现突出,明显超出平均水平,也会影响数据的质量。用合适的方法来检测这些游离值是非常重要的。许多学者为检测游离值作了积极有益的探究,许多针对特定情况下的检测方法也已被发现。针对单个变量且样本容量不大的数据,t检验、Dixon检验、Grubbs检验、Nair检验、偏度-峰度检验等方法都行之有效。对于多变量大样本的游离值的检测,至今为止无一种可广泛适用的方法。