语音统计学(phonetic statistics),理学-统计学-人文统计-【基本概念】,研究语言语音的统计特征的学科。通过将语音转换成文本,然后利用统计的相关理论和方法进行分析,可以快速地得到文本的相关内容。语音统计学是统计学和语言学的交叉学科之一。语音统计学是对统计自然语言模型的一个应用。自然语言处理技术包括自然语言人机接口、机器翻译、文献检索、自动校对、语音识别与合成等。把一般意义上的统计机器学习方法应用于自然语言处理,便得到统计自然语言模型。一般地,统计语言模型从训练到应用,要经过如下几个步骤:①为了知识获取和性能评估,必须建立大规模的语料库(包括单语和双语的语料和各种电子版词典),并对语料进行不同深度的标注。②根据不同的自然语言处理任务,选择或设计不同的语言特征集(如词间相邻概率关系、词性组合关系、双语词间对应关系),并设计合理的模型和学习算法从语料库中学习和表达这些特征。③模型训练和调整。④将模型植入应用系统支持自然语言处理的应用。通过建立相应的统计语言模型,先将语音内容转化为文字,再利用统计语言模型,结合统计方法和理论分析文本内容,解释文本,就是语音统计学的研究内容。