样本聚类(sample clustering),理学-统计学-描述统计-数据变换,使用聚类分析方法对样本进行分类处理的方法。又称Q型聚类。美国人类学家H.E.德赖弗[注]和A.L.克罗伯[注]1932年在人类学的研究中即对样本进行了聚类分析。美国生物统计学家R.R.索卡尔[注]和英国科学家P.H.A.斯尼斯[注]于1963年开始运用样本聚类。通常情况下,样本间存在着不同程度的相似度。基于样本观测数据,构造能够度量样本间相似程度的统计量,将这些统计量作为分类的依据,把相似度高的样本划分为同一类,相似度低的样本划分在另外的类。样本聚类的主要目标是将样本进行分类后获得不同的样本群体。衡量样本间相似度的统计量有很多,常见的统计量包括闵可夫斯基距离、绝对值距离、马氏距离等。样本聚类是一种模型技术,应用领域非常广泛。例如,某通信公司将用户按照多个特定维度(客户年龄、利润贡献、流量使用情况)进行聚类分析,最终得到具有不同特征的用户群。公司可以根据用户群的不同特征,设计不同的产品以提高运营利润。