高维算法(algorithm for high dimensional data),理学-统计学-大数据统计分析-数据简化,用来处理高维数据的算法。发展背景高维数据在科学研究和社会生产、生活中是普遍存在的,它们在为研究或监测对象提供更加详细全面的描述的同时,也给进一步的数据处理带来相应的问题和困难:第一,通常情况下,利用距离测度(如欧式距离、马氏距离等)度量数据样本之间的相似性程度,在数据特征维度不高于10维的低维特征空间中是有效的,随着数据特征维数的不断增加,数据观测样本之间的距离对比度将会明显减小,从而导致基于距离测度的相似性度量的有效性大大降低;第二,传统的多元统计分析方法在处理实际数据时主要依赖于大样本理论(large sample theory),而数据在高维观测空间中通常是稀疏分布的,与空间维数相比,观测样本的数量总是相对较少,因此,大样本理论并不适合于高维数据分析;第三,数据特征维度的增加使得数据分析和处理的复杂度呈指数增长、数据存储量大大增加,造成所谓的“维度灾难”(curse of dimensionality)。