双层变量选择(bi-level variable selection),理学-统计学-大数据统计分析-数据简化,高维自变量呈现分组结构时,既选择重要的组又识别组内重要变量的方法。2007年,学者们采用惩罚的方式进行双层变量选择,2009年对基于惩罚的双层变量选择做了归纳整理,并提出了相应的快速算法。双层变量选择的惩罚函数有两种基本结构:组间惩罚和组内惩罚的复合函数,组间惩罚用来选择对因变量有重要影响的组,而组内惩罚用来选择一组内的重要变量;单个变量惩罚和仅选择组变量惩罚的线性组合。设是维数据矩阵,是第组的维数据矩阵。是维因变量。常见的双层变量选择方法如下:①Group Bridge惩罚式中,为惩罚参数;为第组变量对应的回归系数;为范数即向量元素的绝对值和。②复合极小极大凹惩罚(composite CMP)式中;、为正则化参数;。③稀疏组惩罚(sparse group lasso)式中、为惩罚参数;为范数,即。实际问题中,变量往往呈现分组特点且组内变量重要性不同。例如在基因数据分析中,研究控制疾病的基因和因素,一个基因可由许多变量来描述,视为一组,很显然并非每一个变量都有显著影响。