超高维数据特征筛选(feature screening for ultrahigh dimensional data),理学-统计学-大数据统计分析-数据简化,一种在超高维数据分析中,基于相关学习,对样本进行准确特征筛选,使得重要变量能以接近于1的概率被保留下来的变量筛选方法。简史2008年,范剑青和吕金翅在《超高维特征空间的确定独立扫描方法》(Sure Independence Screening for Ultrahigh Dimensional Feature Space)一文中,针对超高维数据分析,提出了确定性独立筛选(SIS)方法。自此,超高维数据特征筛选方法得到了快速发展。在高维数据分析中,基于惩罚函数的变量选择方法得到广泛应用,如Lasso、SCAD、弹性网(the elastic net)、MCP等。但是,当自变量的维数随着样本容量呈指数级增长至超高维时,估计精度的准确性、计算方法的成本以及算法的稳定性等问题随之而来,上述研究高维数据变量选择的方法难以在超高维数据情况下得到有效应用。