高维数据(high-dimensional data),理学-数学-数理统计学-数据分析,随着技术的发展,人们可以采集到的数据量也越来越大,如金融市场交易数据、基因数据、航天遥感数据、网络数据等,这些数据在统计分析中被称为高维数据。高维数据是指样本的维数p随着样本量n的增加而增加的数据,在大部分情况下,样本维数p是要大于n的。具体地,有p/n随着n的增加趋于一个大于0的常数或者,式中。经典的大样本理论通常是基于n趋于无穷的条件下,推导估计量的渐近性质,而此时,待估计参数的维数是确定的、有限的。但在高维数据中,样本维数是随着n的增加而增加的,所以经典的大样本理论不适用。此外,高维数据中存在的最大问题就是维数祸根,即为维持相同的估计效率下,分析和处理数据所需的样本量会随维数的增加呈现指数级增长。同时,高维数据中还可能呈现变量之间的伪相关关系。因此,处理高维数据的一个重要方法就是将高维数据表示在低维空间中,并由此发现其内在结构。常用的方法有线性降维法(如主成分分析、投影寻踪)和非线性降维法(如多维尺度法、局部线性嵌入法)等。