单汉字索引(single Chinese character index),管理学-情报学-情报技术-情报组织技术,对文本中每一个汉字建立索引,记录下其出现的文档号和在文档中的位置等信息。在检索时采用后组配方式,将检索词字符串分解成单个汉字,以逻辑乘关系进行组配,从而获得检索结果。单汉字索引是中文全文检索系统中常用的一种索引技术,其思想来源于西文自动抽词标引,相关研究主要起步于20世纪80年代末。单汉字索引有许多优点:①相对于基于词组或短语的索引来说,单汉字索引绕过了词典构造与维护或自动分词等难题。②建立索引的方法简捷,完全可以由计算机系统自动完成。③基于单汉字索引的检索系统的查全率较高,在不考虑同义词等情况下查全率可以达到100%。④单汉字索引可用于文本内容的统计分析等研究。单纯的基于单汉字索引的全文检索系统,也存在明显的缺点:①索引的膨胀系数高,通常索引文件的大小远远大于全文数据库的大小,并且没有实际含义的虚字等浪费了大量的存储空间。②相对于按词检索,单汉字索引的检索速度较慢,因为按字检索出单汉字后要更多的逻辑乘组配运算。