不平衡数据(imbalanced data),理学-统计学-大数据统计分析-大数据数据特征-不平衡数据,在分类问题中不同类别的样本量差异较大的数据。不平衡数据也指的是类别不均衡,是指不同类别的样本数量存在明显差异,样本量少的类别为少数类,样本量多的类别为多数类。不平衡数据是实务中很常见的问题,尤其是在医疗诊断、违约识别等领域。以信用违约为例,一般违约用户与正常用户的比例为1∶1000甚至1∶10000,而业务目标通常要求准确识别违约用户,因此在不平衡数据上,往往少数类才是我们所关心的。在不平衡数据上,一般的分类模型对于少数类的学习效果较差。当前,数据分布调整技术已广泛应用于解决类不平衡问题。针对类别不平衡问题,数据分布调整是指从数据预处理阶段,通过对原始不平衡数据进行调整,使得不平衡数据在一定程度上达到平衡状态,从而消除类别不平衡问题。其中,最常用的方法是重采样技术,重采样技术主要包括两种:①欠采样(under-sampling)。随机欠采样(random under-sampling)是欠采样中最常用的方法,通过随机移除多数类样本来平衡类分布(图1)。