杰卡德相似系数(Jaccard similarity coefficient),管理学-情报学-信息检索-检索相关性-相关性度量-杰卡德相似系数,衡量两个有限集合相似度的指标。又称杰卡德指数。主要用于计算符号度量或布尔值度量的个体间的相似度。杰卡德相似系数在数值上等于两个集合交集与并集的元素数目之比,即:…(1)杰卡德相似系数只与个体间是否具有共同的特征有关,不用于衡量差异的具体值,因此只会获得“是”或“否”的结果。取值在0~1,且当两个、集合都为空集时。广义杰卡德相似系数又称谷本相似系数(Tanimoto similarity coefficient),在二元属性情况下等价于杰卡德相似系数,可用于文档数据。如果杰卡德相似系数用位向量来表达,则计算公式可写为:…(2)杰卡德距离是杰卡德相似系数的补集。杰卡德距离是一种用来衡量两个集合差异性的指标。杰卡德距离被定义为1减去杰卡德相似系数,即:…(3)在实际使用中,杰卡德相似系数可用于网页去重、过滤相似度极高的新闻或者用户推荐等。