单词t阶频率(t-grade frequency of words),文学-语言文字-计算语言学及语料库语言学-计算语言学,语言抽样统计中,与某个单词的出现次数相关的频率。假设把语言抽样统计的全部文本分为k组,每组文本的数量大致相等,某一个单词在k组文本中出现的次数分别为,那么这个单词的t阶频率可定义为: ……(1)式中为t阶频率,是一个正实数;公式右边的都是正整数。当t=1时,上面的公式可改写如下:,即。这就是传统的频率。传统的频率就是一阶频率。当t=2时,公式可改写为: ……(2)这就是通用度公式。使用通用度公式计算出来的频率可以称之为二阶频率。以此类推,改变t的赋值,可以得出三阶频率、四阶频率等。假设,则有……(3)t阶频率的应用,可以根据需要来决定。一般来说,在小范围内进行统计,分布指数对于统计结果影响不大,可以采用一阶频率。在大范围内进行统计,由于文本的容量大,分布指数的影响也就比较大,可以采用二阶频率或者更高阶的频率。如果没有特殊的需要,采用二阶频率就足够了。