KNN(k-nearest neighbor),工学-控制科学与工程-智能控制-智能控制-模糊控制-大数据,一种有监督的机器学习分类算法,是一种简捷而有效的非参数分类方法。理论上比较成熟。KNN(k-nearest neighbor)最早由美国学者T.科弗(T.Cover)和P.哈特(P.Hart)提出,用于文本的分类问题。其基本思想是在训练集数据中动态确定与待分类的新观测数据最相似的K个训练数据,这K个训练数据被称为最近邻,然后根据这K个训练数据中大部分观测数据所属的类,确定新观测数据的分类结果。其中欧几里得距离是最常用的相似度度量。KNN方法在类别决策时,只与极少量的相邻样本有关,可以较好地避免样本的不平衡问题。同时,由于KNN方法主要靠周围有限的邻近样本,而不是靠判别类域的方法来确定所属类别,因此,KNN方法较其他方法更适合应用于类域的交叉或重叠较多的待分样本集。此外KNN方法简单、有效,不需要估计参数,而且适用于多标签的分类。但是,KNN方法从大训练集中寻找最近邻的时间可能会很长,因此效率低下,分类速度慢。