倒置文献频率法(inverse document frequency method),管理学-情报学-信息组织-信息加工处理-标引,基于某词的重要性与含有该词的文献数量成反比,计算词的权重的方法。又称倒置文献频率加权法、逆文档频率法。倒置文献频率法是从词项出现在文本中的频率和在文本集中的分布情况两方面来衡量词语的重要性,是一种常用的词权重计算方法。在信息检索、文本挖掘及其他相关领域有着广泛应用,其主要思想是如果某个词或短语在一篇文章中出现的频率()高,而在其他文章中很少出现,则认为该词或者短语具有很好的类别区分能力。在信息检索领域,逆文档频率()表示词项在整个文本集中的分布情况,包含该词项的文本越少,则越大,说明该词项的类别区分能力越强。其重要性可表示为:…(1)式中为文本集中文本的总数;为包含该词项的文本个数。 对于每篇文档中的每个词项,可以将其和组合在一起形成最终的权重。