文本自动词性标注(automatic text POS tagging),文学-语言文字-计算语言学及语料库语言学-计算语言学-自动标引,给文本中的每一个单词指派一个词类或者词汇类别标记的过程。这些标记通常也用来标注标点符号。自动词性标注不但是机器翻译形态分析的重要组成部分,而且它在语音识别和信息检索中都起着越来越重要的作用。早在20世纪60年代,国外学者就开始研究英语文本的自动词类标注问题,并提出了一些词性排歧的方法,建立了一些自动词性标注系统。通行的英语标记集有几种,多数都是从布朗语料库中所使用的包含87个标记的标记集演化发展而来的。英语中最常用的标记集有3个:①宾州树库(Penn Treebank)的标记集包含45个标记,是小标记集。②兰卡斯特大学UCREL计划的成分似然性自动词性标注系统CLAWS(the Constituent Likelihood Automatic Word-tagging System)使用的标记集C5,包含61个标记,是中型的标记集,C5标记集用于标注英国国家语料库。③大型标记集C7,包含146个标记。