高维线性回归(high dimensional linear regression),理学-统计学-大数据统计分析-数据简化,针对高维数据下的线性回归,通过对变量系数进行惩罚从而筛选重要变量并估计系数。简史给定一个的数据矩阵,一个维的响应向量,基于一般的线性回归模型:式中为随机的误差项。该线性模型的最小二乘估计:。然而在高维数据()时,不可逆,从而无法得到唯一的最小二乘估计。此时一个经典的变量选择方法是最优子集选择法(best subset selection),该方法通过从所有变量中挑选部分变量拟合模型,并同时考虑模型的估计精度和复杂度,从而选择一个最优的变量集合。该方法也可视为的惩罚最小二乘回归,但是一个非凸问题,不易进行优化。美国统计学家R.蒂施莱尼[注]于1996年提出Lasso惩罚,通过对变量系数施加惩罚,从而进行变量选择,提高模型的可解释性,并且该问题是一个凸优化,便于计算。之后各位学者又纷纷提出多种惩罚函数。