组变量选择(group variable selection),理学-统计学-大数据统计分析-数据简化,当高维数据自变量呈现分组结构时,选择重要变量组的方法。针对存在分组结构特征的变量选择问题,2006年学者们提出了对整组变量进行惩罚的线性回归模型,将一组变量看成一个整体同时选入或者剔除。随后该方法被应用到广义线性回归、非参数学习等多个领域。分组结构的产生有很多原因,从而产生了不同的建模目标。常见的例子包括描述分类变量的虚拟变量组、半参/非参数模型中表示未知非参数部分的基函数组和其他由实际背景产生的自变量分组结构。例如基因表达分析中,属于同一生物学通路的多个基因可以被认为是一个组。在分析这类数据时,最好能考虑到分组结构。组变量选择可以依靠惩罚的方式实现,该方法的核心为惩罚函数的选择。对于自然分组的自变量,如是维数据矩阵,是第组的维数据矩阵。是维因变量。对于自变量和因变量成线性关系的组变量选择模型可表示为:式中为回归系数;为第组的变量对应的回归系数;是的2范数,为非负的惩罚参数。