视读原则(Readability Principle),文学-语言文字-计算语言学及语料库语言学-计算语言学-书面汉语自动切词,汉语书面文本的切分应该满足视觉形象方面的要求,使之便于人们视读的原则。根据认知心理学的研究,人对信息的感知广度在7左右。例如,数苹果的时候,5个5个地数比较容易,10个10个地数就很难。根据这样的原理,切分出来的单词中所含的汉字数目以不多于7个为佳,要尽量使超过7个汉字的单词不要太多。例如,“同步稳相回旋加速器”含有9个汉字,如果连写则不便阅读,根据视读原则,可切分为“同步/稳相/回旋/加速器”4个单词。一些长的地名和机构名如果不切分也不便于视读,应该切分。例如,“河北省/正定县/西平乐乡/南化村”“云南省/昆明市/五华区/大观街”“教育部/语言/文字/应用/研究所/计算/语言学/研究室”。新闻报道中的活动名称不宜太长,对于那些太长的活动名称,也应该切分开来,以便视读。例如,“庆/回归/公益/千万/行”“第三/次/横田/基地/噪音/诉讼”。有时后缀“者”前面的部分很长,不便于视读,也应该切分。