雅卡尔指数(Jaccard index),理学-统计学-其他统计-文献计量,用于比较有限样本集之间的相似性与差异性。其数值越大,样本相似度越高。又称杰卡德系数、杰卡德相似系数。由瑞士科学家P.杰卡德(Paul Jaccard)提出,用于比较有限样本集之间的相似性与差异性。雅卡尔指数值越大,样本相似度越高。给定两个集合、,雅卡尔指数定义为与交集的大小与与并集的大小的比值,定义如下:当集合,都为空时,定义为1。与雅卡尔指数相关的指标是雅卡尔距离,用于描述集合之间的不相似度。雅卡尔距离越大,样本相似度越低。公式定义如下:雅卡尔距离具有非对称二元属性的相似性。在数据挖掘领域,常常需要比较两个具有布尔值属性的对象之间的距离,雅卡尔距离就是常用的一种方法。给定两个比较对象。,均有个二元属性,即每个属性取值为{0,1}。定义如下4个统计量,具体见图。:,属性值同时为0的属性个数。:属性值为0,且属性值为1的属性个数。:属性值为1,且属性值为0的属性个数。:,属性值同时为1的属性个数。4个统计量示意图显然有。雅卡尔系数:。雅卡尔距离:。