二元独立模型(binary independence model; BIM),管理学-情报学-信息检索-信息检索模型-概率模型-二元独立模型,概率检索模型。该模型的文档和查询都表示为词项的布尔向量,比如文档可以表示为向量,当词项出现在中时,其对应的权重为1,否则为0,查询的表示类似。文档与查询的相似度计算方法如下:…(1)因为BIM中词项间的独立假设,即词项间无相关关系,则可以表示为:…(2)式中表示集合中随机选取的文档中出现词项的概率,表示集合中随机选取的文档中不出现词项的概率,对于集合有类似的定义,由于:…(3)…(4)因此式(2)可以改写为:…(5)采用取对数的方法,且在相同查询背景下,忽略对所有文档保持不变的因子,最终可得到BIM中相关性计算以及排序的表达式:…(6)由于在检索开始之时是未知的,因此就需要对式(6)中的以及进行估计。假设相关文档只占文档集的极小一部分,那么就可以通过文档集的统计数据估计与不相关文档有关的量。基于该假设,词项在非相关文档中的分布可以由词项在文档集中所有文档中的分布来近似表示,即:…(7)式中为出现索引术语的文档数目;为集合中总的文档数。