切词(tokenization; segmentation),文学-语言文字-计算语言学及语料库语言学-语料库语言学,将连续文本切成离散词语的处理过程。属自然语言处理的一项基础工作,是词性标注、句法分析等后续高层应用的基础,对机器翻译、信息检索等语言工程处理具有重要意义。又称分词、自动分词。对英语等西方语言而言,切词根据空格等标识信息把词语切开,将缩略语中的附加成分分离,如shouldn't(不应该)和I'm(我是)等,离析词语前后的标点。对于中文而言,由于词与词之间没有间隔符号,计算机处理汉语书面语多出一道工序,把连续的汉字串拆分成一个个词串的形式。对中文分词的探索使中文信息处理从汉字输入走向语言信息处理。影响中文分词精度的主要因素在于切分歧义和未登录词问题。汉语文本的歧义切分字段包括交集型和多义组合型两种切分歧义。交集型歧义指汉字串AJB,其中AJ、JB同时为词,汉字串J称为交集串,如针对汉字串“结合成”,“结合”“合成”共享“合”,一般认为交集型歧义在汉语文本中占90%以上。