名称自动抽取(automatic extraction of names),文学-语言文字-计算语言学及语料库语言学-计算语言学-自动标引,使用计算机自动地从非结构化文本中抽取名称。随着计算机的普及以及互联网的迅猛发展,大量的信息以电子文档的形式出现在人们面前。许多文章中都包含大量的名称,如果自然语言处理系统不能将它们识别为语言单位,那么就很难对文章进行语言分析。不同类型的文章包含不同类别的名称:化学文章中包含化学物品名称,生物学文章中包含与物种、蛋白质及基因有关的名称,报刊中包含大量的人名、机构名及地名。这些名称对于信息抽取是很有价值的,自然语言处理应当重视名称的研究。在事件抽取和机器翻译中,首先都需要进行名称的自动抽取。在基于术语的文档检索中,如果连续的两个单词不是名称,在一般情况下就要对它们进行分别的处理;如果连续的两个单词是名称,则可以把它们结合在一起进行处理。在文档标引时,如果把名称分为人名、机构名和地名,索引就可能具有更大的实用价值。名称的自动抽取对于自然语言处理具有重要的作用。名称的自动抽取也就是要对文本中的名称进行自动识别和标注。