语言成分频率(frequency of language constituents),文学-语言文字-计算语言学及语料库语言学-计算语言学,语言成分或语言单位在特定范围内具有某种规律性的出现次数。语言事件实际出现的次数与条件组实现的次数之比,可用公式表示:式中为频率,为事件的实际出现次数,为条件组的实现的总次数。在语言这样的随机事件中,随机事件与条件组之间有着统计上的联系。尽管当条件组实现一次时,事件可能发生,也可能不发生。但如果条件组实现多次,事件的发生就有着某种规律性,这种规律性表现为事件发生的频率。例如,在英语中,当条件组“是季节名词”实现500次时,有400次季节名词前不带冠词,那么“季节名词前不带冠词”这一随机事件的频率为:即在英语中,“季节名词前不带冠词”的频率是80%,这意味着英语中季节名词之前带冠词的可能性只有20%。某单词在文本中的出现次数与文本中的全部单词数之比叫作这个单词的词频。词频统计是数理语言学的一件重要工作。中文的书面文本是连续的汉字流,单词与单词之间是没有界限的。某个汉字在文本中出现的次数与该文本中的全部汉字字数之比叫作这个汉字的字频。