异常值识别方法(outlier identification method),理学-统计学-描述统计-数据变换,识别统计数据中出现的少量的、与众不同的数据的方法。又称异常数据识别方法、离群点识别方法。1852年,美国数学家B.皮尔斯[注]发表了第一个识别检验异常值的方法,即皮尔斯准则。皮尔斯准则基于概率方法识别异常值,可以同时识别多个异常值。之后美国数学家W.肖维勒[注]同样依据概率方法提出了识别异常值的方法,即肖维勒准则,此后肖维勒准则成为常见的异常值判定方法。异常值又称异常数据、离群点,是统计数据中出现的少量的、与众不同的数据,与数据总体的平均值相比,有一定的偏差,且产生这种偏差的原因不是随机的,可能来源于完全不同的数据产生机制。一般把一组数据中与平均值的偏差超过两倍标准差的数据视为异常值,而与平均值的偏差超过三倍标准差的数据,称为高度异常的异常值。很多时候,异常值的存在会影响统计模型的质量和效果。对此,通常的做法有以下两种:①使用稳健估计方法达到减少异常值对统计模型的干扰;②识别样本数据中的异常值,直接剔除。识别数据集的异常值,需要找到数据本身的内在规律。