标注方案(annotation scheme),文学-语言文字-计算语言学及语料库语言学-语料库语言学,为语料库文本标注而制订的详细工作方案。标注为语料库文本添加语言学解读信息,是语料库开发过程中文本数据化的重要环节。自然语言处理学者认为,生数据如果想被计算机访问、查询、检索,其信息就必须有系统的结构。标注信息属于一种元信息,即关于信息的信息。一套完整的标注方案由码集(tagset)与标注指标(说明)构成。码集指表达既定的语言学范畴的符号列表,标注指标则详细说明标注的插入位置、覆盖范围及其他技术标准。标注方案是对标注内容和形式的详细解释信息。标注内容指语言学解读范畴及子范畴,标注形式包括编码标签及格式。标注编码指在文本中呈现标注标签的技术形式,主要有竖列式和横排式(嵌入式)两种。竖列式每个原词、附码、词元及其他信息独占一行,横排式附码以某种边界符号嵌入在原词后面。横排式标注的方式:①附码以斜杠与原词隔开。②附码以底杠与原词隔开。③XML格式。自定义的标签围堵在原词两边,标签由成对的尖括号(开始和关闭符号)、名称、参数和值构成。