主题识别(topic identification),文学-语言文字-计算语言学及语料库语言学-计算语言学,在自动文摘中识别文章的主题。主题是写文章或者讨论问题时的主要话题。自动文摘时首先要进行主题识别。一旦系统识别了文章中的最重要单位(单词、句子、段落等),就可以简单地把它们排列出来从中抽取信息,或者以图表的方式展示它们,提供图表式的摘要,这样,系统识别了文章的主题。在通常的情况下,主题识别需要多种技术互相补充。主题识别的方法有以下几种。①根据位置来识别主题。不同体裁文章的结构在位置上都有一定的规律。一般说来,在文章的头信息、标题或第一个自然段中,往往含有文章的重要信息。例如,对于新闻和报纸来说,第一个自然段往往包含重要信息,因此,最简单的摘要方法就是摘取文章的第一个自然段。1997年,研究人员使用这一方法从报纸、自然科学和技术类文章中抽取33%的句子作为摘要,效果良好。