词例还原(tokenization),文学-语言文字-计算语言学及语料库语言学-计算语言学,在自动形态分析中,计算机把句子中的单词作为独立的词例切分出来的过程,是文本中独立的词汇单元。英语文本中的单词一般是界限分明的,单词与单词之间存在空白,单词的切分不像汉语书面文本那样困难,所以英语的词例还原比汉语的词例还原容易。但是,下列情况仍需要对文本进行切分,把独立的“词例”找出来。①缩写。情况一,缩写“字母+圆点+字母+圆点”算一个词例。例如,“U.S.”(美国)、“i.e.”(意即)、“U.K.”(英国)。情况二,缩写“字母串+圆点”算一个词例。例如,“Mr.”(先生)、“Mrs.”(女士)、“Eds.”(编辑)、“Prof.”(教授)、“Dr.”(博士)、“Co.”(公司)、“Jan.”(一月)、“A.”、“b.”。②连续的数字。例如,“123,456.78”、带有百分号的“90.7%”带百分符号、分数“3/8”、日期“15/04/1939”。 ③含有非字母符号的缩写算一个词例。例如,“AT&T”(美国电话电报公司)。④带连字符的词串算一个词例。