① 样本筛选、校对
  为建立一个良好的识别系统,学习(训练)样本是必不可少的。样本筛选的主要目的是选取合理的学习样本。理论上讲,训练样本只有覆盖整个样本空间才能保证分类器设计的鲁棒性性能,即,系统进行识别时分类器能够正确判定所有类型的输入样本。但是实际上,由于待识别样本集合是开放的、不可穷举的,因此要求覆盖整个样本空间是不可能的。我们只能尽可能的挑选样本,使其覆盖面广一些。样本的校对是为了保证训练样本的正确性。首先,要保证样本是切分正确的,比较干净的(噪声较少)。此外,如果采用的是有教师监督学习方法,必须保证样本的标注,即每一个样本的正确答案,也就是教师信号是正确的。
  本节对该部分内容不进行详细论述
  ② 待识别文字所在文本的版面分析,文字切分
  字符识别是在待识别文字得到正确的分离的前提下进行的。因此,文字识别系统的很大一部分工作是文本的版面分析与字符的切分。只有将含有字符、图像等复杂内容的文本版面进行正确的分析,分离出字符区域,应用相应算法将该区域内的字符一个个的切分开,提取出来,才能够进入字符识别的程序。
  目前的文字识别技术已经基本成熟,进入了商品化的阶段,研究内容集中在版面分析、去噪等难点上。
  本节对该部分内容不进行详细论述
  ③ 文字的图像预处理
  -图像去除噪声
  -文字图像归一化
  -文字笔划细化
  -文字笔划平滑
  得到一个个字符图像后,需要进行一系列预处理才能够将字符图像提交给识别器。其中包括去除噪声:将图像中不应有的点、线去掉。有一些可能是切分遗留的问题,有一些可能是纸张、印刷的问题。归一化:文字被输入到计算机中在提取特征前通常需要把文字作归一化处理。归一化有位置归一化、大小归一化、笔划粗细归一化。细化:有些识别算法要求文字是单笔划,或粗细比较均衡的笔划构成,因此需要对文字的笔划进行细化。平滑:平滑的目的主要是去掉细化后的文字变形,即平滑掉细化产生的毛刺。
  本节对该部分内容不进行详细论述