k近邻方法(k-nearest neighbor method),工学-信息与通信工程-模式识别-统计模式识别-k-近邻方法,模式识别领域常用的分类和回归的非参数方法。又称k近邻算法。给定测试样本,基于某种距离度量(如汉明距离或欧氏距离)找出训练集中与其最相近的k个训练样本,然后基于这k个最近邻样本的信息来进行预测。通常在分类任务中可使用投票法,即选择这k个样本中出现最多的类别标记作为预测结果。在回归任务中可使用平均法,即将这k个样本的实值输出标记的平均值作为预测结果。为提高性能,在采用投票法进行分类或平均法进行回归时,还可基于测试样本与训练样本的距离进行加权,距离越近的训练样本权重越大。k-近邻方法是一种基于实例的惰性学习方法,由于其在训练阶段仅仅是把样本保存起来,待输入测试样本后再进行处理,因此其训练时间开销为零。其优点在于简单,易于理解,易于实现,无须估计参数,无须训练,且适合稀有事件分类及多分类问题。其不足之处在于对数据的局部结构非常敏感,受样本的不均衡性影响很大。此外,其计算量和存储量较大,对输入的每个测试样本都需要计算其与所有已知样本的距离。