语义统计学(semantic statistics),理学-统计学-人文统计-【基本概念】,语言统计学的一个分支,用统计学相关理论对语言的语义进行分析。通过研究语言语义的统计特征,可以更快速有效地抽取文本的主题。语义统计学是数理语言学的一个分支。语义学的研究对象是自然语言的意义,而如何能在短时间内阅读整理已有的大量信息就是语义统计学的价值所在。语义统计学主要研究的内容有:在按频率递减顺序排列的频率词典中,词的序号越大,词的频率越小,序号与频率之间的关系可以用数学公式描述为一定的统计规律(齐普夫定律);运用随机过程论来研究语言,把语言看成彼此联系的字母序列,前一个字母决定后一个字母的出现,于是形成一条字母链(马尔可夫链);研究文章中两个词之间、两个语法范畴之间、两个语义类之间或两个句法类型之间的间距,以揭示文章在句法或语义上的特征。由于中文的复杂性,语义统计学对语义的分析变得尤为重要。中文关键词提取的方法,一般可以分为三个大类,即基于词典的、基于语言学的和基于统计学的方法。