词目还原(lemmatization),文学-语言文字-计算语言学及语料库语言学-计算语言学,在自动形态分析中,计算机将文本中的变形词还原为原形词的过程。原形词就是词目,也就是该词在词典中的词形。词目还原可以采用有限状态转移网络来进行。英语的屈折词尾表示语法意义,词可以由词根、词缀和词尾构成,词根和词缀可以组成词干,词根也可以单独成为词干,可以用如下的有限状态转移网络来进行英语单词的词目还原。用有限状态转移网络进行形态分析在上图中,如果一个单词只包含词干,则其词目还原过程是:。例如,英语单词“form”(形式)本身就是词干,也是词目。如果一个单词包含词干、词尾,则其词目还原过程是:。 例如,对于英语单词“forms”:“form”是其词干,也是词目,这个词目可以是名词,也可以是动词;“-s”是词尾,表示名词复数,或者表示动词单数第三人称。如果一个单词包含前缀、词干、词尾,则其词目还原过程是:。例如,对于英语单词“formations”:“form”是词根;“-ation”是后缀;“formation”是还原成的词目;“-s”是词尾,表示名词复数。