TF*IDF加权(TF*IDF weighting),文学-语言文字-计算语言学及语料库语言学-计算语言学,计算文档相似性的一种加权方法。TF*IDF加权计算中,TF指的是检索词频率(term frequency,简称TF),属于文档的内部信息,表示检索词在多大程度上代表了文档的内容。如果某个检索词的频率越大,则说明这个检索词较好地反映了文档的内容;IDF指的是逆向文档频率(inverse document frequency,简称IDF),它表示文档聚类与整个聚类之间的相差的程度。从语言学的角度来看,可以把文档中所有的词分为非焦点词和焦点词两类。非焦点词是指在所有文档中都可能出现,并且具有相似的分布规律的词。在信息检索中,这样的词对于衡量文档之间的相似性意义不大。焦点词是那些出现范围比较狭窄的词,在所有的文档中分布不均匀,在有的文档中出现频率高,而在另外的一些文档中的出现频率则很低,这一类焦点词对于衡量两个文档是否相关是很有价值的。对于文档而言,焦点词显然比非焦点词在信息上更加具有价值。