词频-逆文档频率(term frequency-inverse document frequency; TF-IDF),管理学-情报学-信息检索-信息检索技术-特征选择-词频-逆文档频率,用于信息检索与数据挖掘的常用加权技术。用以评估词语对于文档集或语料库中某一文档的重要程度。词语的重要性随着它在某文档中出现的频次的增加而增加,与它在语料库中的文档频率成反比。词频()指某一个给定的词语在该文档中出现的频率,为防止它偏向长的文件,词频通常被做归一化处理,如对某一特定文档中的词语来说,其TF可以表示为:…(1)式中为词语在文档内出现的个数;为文档中词语的总个数。逆文档频率()是对一个词语普遍重要性的度量,如果一个词语的文档频率(DF)越大,那么该词语的重要性越低。可以使用以下方式进行计算:…(2)或者:…(3)式中为文档集合中文档总数;为词语的文档频率。如果一个词语在文档集合中没有出现分母为零的情况,那么可以使用作为分母。因此词语在文档中的值通过与的乘积进行计算。