汉字识别(Chinese character recognition) 应用计算机自动识别汉字,是把汉字输入计算机的主要方式之一。定义按书写方式区分,汉字识别可分为手写汉字识别和印刷体汉字识别两大类。按工作方式区分,则可分为联机汉字识别和脱机汉字识别两种方式。前者为实时识别,书写者在专用书写书写的汉字即时送入计算机进行识别;后者为非实时识别,打印或已写好的书面文字经光电转换装置(如扫描仪等)变为电信号后送入计算机进行识别,通常把这种设备叫做光电阅读机(optical character reader),记为 OCR。汉字识别是模式识别的一个分支。汉字是一种特殊的模式,其特点是字数多,字形复杂,有的字形十分相似,印刷体汉字又有多种字体(仿宋、宋、黑、楷书与打印体等)和多种大小不同的字号。因而汉字识别是一个相当困难的问题。和一般的模式识别相同,汉字识别的基本方法主要有统计法和结构法两种。汉字由笔划组成,具有较严格的拓扑结构,包含丰富的结构信息,因而结构法较适用于汉字识别。中国和日本学者先后提出若干以结构信息为主的统计与结构法相结合的新算法,选用了-些分类能力强、抗畸变和干扰性能好的