干净文本原则(clean text policy),文学-语言文字-计算语言学及语料库语言学-语料库语言学,在建设语料库时,要保持文本原貌,不对文本进行人为加工,清除任何为了某种特定研究目的而附加在文本上的编码。1991年由J.M.辛克莱尔在阐述建设语料库的原则和方法时提出。辛克莱尔称之为一种最安全的原则(the safest policy)。从第一代电子语料库问世,语料库标注就成为语料库建设者重点研究的内容。标注的重要性包括:①标注过的语料库便于研究者从中快速提取大量的有用知识或语言信息。②由于标注耗时费力,标注过的语料库可作为极富价值的可再用资源。③标注过的语料库可满足不同研究目的。但是,通过各类语料库标注软件,如词性标注软件CLAWS,自动或半自动将编码插入文本内,为语料库添加各类附加信息的同时,语料库原始文本的原貌遭到破坏,如下例所示(语料来自英国国家语料库)。