变量聚类(variable clustering),理学-统计学-描述统计-数据变换,根据观测数据,以度量变量之间相似程度的统计量为划分类型的依据,把相似程度较大的变量聚合为同一类,直到把所有的变量聚合完毕的方法。又称R型聚类。聚类分析起源于人类学,多元分析技术和数值分类学的交叉形成了聚类分析,随着对变量间相似关系研究的深入,产生了变量聚类方法。变量聚类就是对变量进行分类。一般认为变量间存在不同程度的相似度。基于一定的观测数据构造变量间相似程度统计量,作为分类的依据,将相似度高的变量划分为同一类,相似度低的变量划分在另外的类。变量聚类把变量作为分类对象,主要应用在变量数目较多且相关性较强的场景中。通过将相似度高的变量聚为同一类,根据聚类结果和变量间的关系得到代表性变量,从而达到降维的目的。衡量变量间相似度的统计量主要有夹角余弦、皮尔逊相关系数等。变量聚类在实际业务中有着广泛的应用,例如,在数据分析业务中,如果输入过多的变量可能会引起共线性问题,因此能够筛选有效的输入变量尤为重要,而使用变量聚类则能很好地解决这一问题,同时能有效提升计算效率。变量聚类在高维数据分析中有重要应用。