扁平聚类(flat clustering),管理学-情报学-信息检索-信息检索技术-聚类检索-扁平聚类,将一系列文档聚团成多个子集或簇的算法。其目标是建立类内紧密、类间分散的多个簇。换句话说,聚类的结果要求簇内的文档之间要尽可能相似,而簇间的文档之间则要尽可能不相似。扁平聚类是无监督学习的一种最普遍的形式。无监督也意味着不存在人工对文档进行类别标注的情况。聚类中,数据的分布和组成结构决定最后的类别归属。扁平聚类的代表是K-Means聚类。K-Means聚类的思想可追溯到1957年的一种脉冲码调制算法(1982年才被贝尔实验室公开),该概念于1967年才被首次使用。其算法描述为:①从N个文档随机选取K个文档作为质心。②对剩余的每个文档测量其到每个质心的距离,并把它归到最近的质心的类。③重新计算已经得到的各个类的质心。④迭代2~3步直至新的质心与原质心相等或小于指定阈值,算法结束。