核化k均值聚类(kernel k-means clustering),工学-信息与通信工程-模式识别-统计模式识别-k均值聚类-核化k均值聚类,使用核方法对传统k均值聚类进行扩展而得到的聚类算法。由于传统k均值聚类方法的基础是输入空间中的欧氏距离,因此,比较适合在输入空间呈团簇或凸集形状分布的数据;但当数据分布在高度非线性的流形(如曲线、曲面等)上时,传统k均值聚类往往不能得到满意的聚类结果。核化k均值聚类的初衷是通过非线性映射将数据变换到新的特征空间,从而使数据在新空间中形成近似团簇的分布形态,例如混合高斯分布。核化k均值聚类在原理上由两步组成:首先通过特征映射将数据从输入空间变换到特征空间,即;然后在特征空间使用传统k均值聚类方法对数据聚类。但在算法实现上,特征映射或特征空间中的两点间距离并不需要显式地计算,而只需通过核函数进行隐式计算。具体讲,假设表示第个聚类,则的聚类中心可以表示为 。一个数据x到 的距离可以计算为:…(1)一个数据到的距离可以计算为:…(2)基于该距离公式,可以类似传统k均值聚类迭代地更新聚类。