基于职业特征的多模板汉字识别算法
张洪刚 郭军
(北京邮电大学信息工程系181# 100876)
【摘要】本文是在HCL2000汉字数据库的基础之上进行的研究,根据对HCL2000汉字库的职业的统计分析,我们得出了一些新的结论。各种职业与识别率的相关性是很大的,这说明不同的职业样本都有自己的特征,我们选取三种职业作为研究对象,按不同的职业分类训练,然后把训练特征用作模板特征,应用于多模板识别算法。识别结果证明,这种基于职业特征的多模板汉字识别算法的识别率比单模板识别算法平均高出1.13%。
【关键词】 HCL2000 汉字识别 职业特征 多模板匹配
1.引言
HCL2000(Handwritten Character Library
2000)汉字库是北京邮电大学在国家863支持下研制的一个脱机手写汉字数据库。HCL2000汉字库有两个特点,一是包含样本数量大,目前包含1300个人的汉字样本,并计划在2000年以前,使样本总数达到2000个;二是它不仅包含汉字样本库,而且还包含一个书写者信息库,它存放了每个汉字样本书写者的职业、年龄、性别、住址等相关的信息。书写者信息库的建立使我们可以研究各类人员的文字书写特征与影响识别率的相关因素[1]。
本文利用HCL2000对书写者的职业与其文字的识别率的关系进行的研究,我们发现样本的识别率与职业的相关性很大,这说明不同的职业有不同的特征,我们选取库中人数较多的三种职业工人、学生和军人,各选取100个样本,按职业进行分类训练,将训练的特征用作特征模板,然后用多模板识别算法进行识别。结果表明:这种基于职业特征的识别算法的识别率比原算法平均提高1.13%。
全文的安排如下:第二部分是三种职业的识别结果分析,第三部分是基于职业特征的多模板识别算法介绍,最后一部分是全文的总结。
2.三种职业的识别结果分析
我们根据书写者信息库所提供的有关书写者的信息,对库中的职业与识别率的相关性作了研究,识别用的特征是用中科院的100个样本和从HCL2000库中选出的200个样本训练而成的。我们得到的识别率与职业的分布图:
图1 识别率与各职业的分布图
从上图可以看出:职业与识别率的相关性是很大的。识别率最高的是科技人员与教师,识别率最低的职业是医生,科技人员与医生的样本识别率之差达5.58%。
我们选取HCL2000汉字库中三种所占比例最大的职业工人、学生和军人的样本作为研究的对象。从这三种职业中分别抽取100个人的样本集作为每种职业的训练样本。分别抽取这三种职业的特征,制成三个标准的特征模板。然后从三种职业中各随机选取10个样本集作为识别样本,这30个识别样本集并不包含原来的训练样本。30个样本集中前10个为工人的样本,中间10个为学生的样本,后10个为军人的样本。然后分别用这三个特征模板,采用文献[2]的算法进行识别,识别结果如下图:
图2 30个样本的识别结果
为了便于结果比较,我们按识别样本的职业分成工人、学生和军人三组。见图5,每组最左边的是用工人特征识别的结果,中间的为学生特征识别的结果,最右边的是军人特征识别的结果。
图3 三类样本识别结果
从上图中可以看出,前10个样本中,用工人特征识别的结果明显高于其它的两种特征的识别结果,工人的平均识别率为96.49%,学生的平均识别率为95.22%,军人的为95.04%。中间的10个样本中,三种特征的平均识别率分别为:工人为85.46%,学生为87.66%,军人为84.70%,学生的识别结果远高于其它两个。对于后10个样本的识别结果,工人89.83%,学生90.28%,军人92.20%.各种职业的特征在识别本职业的样本时,有明显的优势。这说明三种职业的书写者都有自己的职业特点。
3.基于职业特征的多模板识别算法
在识别系统中作为字典的标准参考模板一般是由多个n维向量组成,每一个汉字,在字典中至少有一个模板与之相对应。如果每一个字只有一个标准模板,就是单模板匹配法;有时,对每一个汉字,给出一批互有差别的模板,这批模板代表了该汉字不同的变形,称为多模板匹配法[3],这时就要用到统计决策的方法和理论,把这批模板代替上述仅有的一个标准模板来分类识别。
多模板匹配算法的原理框图:
图4 多模板匹配算法框图
在多模板匹配法的特征字典中,对每一个汉字,有n个互有差别的模板相对应,这批模板代表了该汉字不同的变形。这使模板在匹配时有一定的弹性范围,弥补了固定匹配的不足,对分类判决是很有利的。同时,由于每一个汉字有多个模板,特征字典一般很大,存储压力较大,对内存有较大的需求;多模板的分类判决在算法上同样要比单模板要复杂一些。
分类判别
将抽取的细分类特征向量,与粗分类后保留下来的每一个字种的三个标准细分类特征向量模板作比较,算出最小距离,再将各字种的最小距离相比较,哪个字种距离最小,便将哪个字种作为识别结果输出。
计算距离的公式如下:
实验的结果表明带方差调整的街区距离比欧氏距离的效果要好,这表明手写汉字有自己的特点。
我们根据统计结果应用多模板算法,将工人、学生和军人的方向特征做成三个特征模板,仍对原来30个识别样本进行识别,识别结果和原来三种职业单模板时的识别结果进行比较,结果比较如下表:
通过识别结果的比较,这种按职业分类的多模板比三个单模板的平均识别率高1.13%,我们可以看出这种基于职业特征的多模板算法是比较有效的。
4.结论:
本文仅对职业与识别率的关系进行了讨论,对于其它方面,如:年龄、性别或地域是不是也有这种特性,即某一类的人有本类明显的特征,还有待我们进一步的研究。另外,从上面的结果可以看出,各类的特征越明显,多模板识别算法就越有效。这样的分类越多,识别结果就越高,但同时带来的负面效果就是识别速度有所下降。因此,模板的数量要同时考虑速度和识别率而定。
【参考文献】
1. 郭军,蔺志青,张洪刚 “一个新的脱机手写汉字数据库模型及其应用”,《电子学报》已录用
2. J. Guo, N. Sun etc, Algorithm for recognition of handwritten characters using pattern transformation with cosine function. IEICE Trans, J76-D-II,No.4,p.835-842(April 1993)
3. 张洪刚,郭军 “一种基于笔划粗细度的脱机手写汉字识别算法的研究” 《中国学术期刊文摘》 Vol 4, 12,1998