文本分类用电脑对文本集(或其他实体或物件)按照一定的分类体系或标准进行自动分类标记。 它根据一个已经被标注的训练文档集合, 找到文档特征和文档类别之间的关系模型, 然后利用这种学习得到的关系模型对 新的文档进行类别判断 。文本分类从基于知识的方法逐渐转变为基于统计 和机器学习的方法。定义基于分类体系的自动分类基于资讯过滤和用户兴趣(Profiles)的自动分类所谓分类体系就是针对词的统计来分类关键字分类,全文检索词的正确切分不易分辨(白痴造句法)学习人类对文本分类的知识和策略从人对文本和类别之间相关性判断来学习文件用字和标记类别之间的关联过程文本分类一般包括了文本的表达、 分类器的选择与训练、 分类结果的评价与反馈等过程,其中文本的表达又可细分为文本预处理、索引和统计、特征抽取等步骤。文本分类系统的总体功能模块为:(1) 预处理:将原始语料格式化为同一格式,便于后续的统一处理;(2) 索引:将文档分解为基本处理单元,同时降低后续处理的开销;(3) 统计:词频统计,项(单词、概念)与分类的相关概率;(4) 特征抽取:从文档中抽取出反映文档主题的特征;(