切词

（文学 | 语言文字）

切词（tokenization; segmentation），文学-语言文字-计算语言学及语料库语言学-语料库语言学，将连续文本切成离散词语的处理过程。属自然语言处理的一项基础工作，是词性标注、句法分析等后续高层应用的基础，对机器翻译、信息检索等语言工程处理具有重要意义。又称分词、自动分词。对英语等西方语言而言，切词根据空格等标识信息把词语切开，将缩略语中的附加成分分离，如shouldn't（不应该）和I'm（我是）等，离析词语前后的标点。对于中文而言，由于词与词之间没有间隔符号，计算机处理汉语书面语多出一道工序，把连续的汉字串拆分成一个个词串的形式。对中文分词的探索使中文信息处理从汉字输入走向语言信息处理。影响中文分词精度的主要因素在于切分歧义和未登录词问题。汉语文本的歧义切分字段包括交集型和多义组合型两种切分歧义。交集型歧义指汉字串AJB，其中AJ、JB同时为词，汉字串J称为交集串，如针对汉字串“结合成”，“结合”“合成”共享“合”，一般认为交集型歧义在汉语文本中占90%以上。