观察语料库(observed corpus),文学-语言文字-计算语言学及语料库语言学-语料库语言学,在语料库研究中,研究依托的语料库。观察语料库的选择取决于研究目的。按照语料库代表的语言整体,语料库有不同的分类,如通用语料库(general corpus)和专门语料库(specialized corpus)、母语者语料库(native speaker corpus)和学习者语料库(learner corpus)、口语语料库(spoken corpus)和书面语语料库(written corpus)等。在语料库主题词(keywords)研究中,观察语料库通常与参照语料库相对,被M.斯科特(Mike Scott,英国)和C.崔柏(Christopher Tribble,英国)称为节点词文本(node-text)。在这种研究中,观察语料库和参照语料库需要首先生成词表再进行对比,因此必须用生文本。如果是经过标注的文本,需要进行预处理,删掉文本中的词性赋码和元信息等。