单词分布指数(range index of words),文学-语言文字-计算语言学及语料库语言学-计算语言学-语言成分的概率,一个单词在若干篇语言材料的样本中出现的次数,反映的是该单词在语言样本中的分布情况。一个单词的重要性不仅与它在文本中出现的频率有关,而且还与这个词的分布指数有关。在语言统计中,频率概念如果不与分布指数的概念相结合,它的价值就是不高的。加拿大学者E.V.贝克(E. Varder Beke)于1935年出版的《法语词汇手册》一书中,首次全面地、自觉地采用分布指数标准来进行词汇研究。他统计的语言材料共计88篇,总词汇量在1 100 000词以上。每篇材料原则上为10 000词,实际上为13 000词。88篇材料的题材广泛,其中小说、故事共34篇,剧本12篇,占总词汇量的56.4%。选词时以分布指数为主要标准,其次才考虑频率标准。贝克认为,如果一个单词被五位作家各用一次,也比另一个只被一位作家使用10次的单词更重要。贝克的统计工作是手工进行的,历时近一年。所统计的88篇材料共收不同的词19 253个,词表中只收分布指数为5以上的词,共6067个。