OCR识别技术在银行单证综合处理系统中的应用
帐务处理为银行的资金运用提供了科学而有效的管理,而帐务过程的严密性和安全性又体现在凭证的流转上。
原始记账凭证经临柜有关部门封包后送事后监督部门,事后监督先对凭证进行有效性审核,审核有不符合要求的凭证登记差错,将通过的凭证录入事后监督系统作为事后的流水与临柜流水进行逐笔核对,然后根据事后的流水记载事后分户帐,科目发生额,总账,将事后的帐与临柜的帐进行逐笔核对,有不符的记录登记差错表。监督完成后再将凭证分类封装,送档案管理中心管理。
长期以来,银行档案管理工作因管理手段落后而一直困扰着银行界,各类档案的打印、整理、装订和归档需要花费大量的人力和物力。同时各类凭证的事后监督与归档的分离也浪费了大量的人力和物力,随着银行帐务处理集中化模式的出现,如何实现凭证的高效录入、查询和可*保管已成为银行界面临的一大课题。随着国内汉字OCR技术的成熟,为这一课题的解决提供了技术保证。
档案光盘缩微暨事后监督系统是集银行档案原件录入、光盘存储、自动管理、智能检索、事后监督于一体的计算机辅助管理、帐务监督系统。它利用图像数字化技术设备(如摄像机、高速扫描仪)将临柜的传票的影像录入计算机系统,并采用手工录入、流水识别等手段建立凭证索引,通过电话、传真和计算机等多种途径进行档案查询,同时将流水识别结果与OCR识别结果校验后生成的数据作为事后监督的流水,并将此流水与临柜的流水进行批量核对,记载分户帐及总账,同时与临柜分户帐与总账进行核对,从而真正实现了对银行凭证的事后监督与归档的自动化,以及档案的长期保存、智能查询和科学管理。
一、系统概述:
1、应用背景:
帐务处理为银行的资金运用提供了科学而有效的管理,而帐务过程的严密性和安全性又体现在凭证的流转上。
原始记账凭证经临柜有关部门封包后送事后监督部门,事后监督先对凭证进行有效性审核,审核有不符合要求的凭证登记差错,将通过的凭证录入事后监督系统作为事后的流水与临柜流水进行逐笔核对,然后根据事后的流水记载事后分户帐,科目发生额,总账,将事后的帐与临柜的帐进行逐笔核对,有不符的记录登记差错表。监督完成后再将凭证分类封装,送档案管理中心管理。
长期以来,银行档案管理工作因管理手段落后而一直困扰着银行界,各类档案的打印、整理、装订和归档需要花费大量的人力和物力。同时各类凭证的事后监督与归档的分离也浪费了大量的人力和物力,随着银行帐务处理集中化模式的出现,如何实现凭证的高效录入、查询和可靠保管已成为银行界面临的一大课题。随着国内汉字OCR技术的成熟,为这一课题的解决提供了技术保证。
档案光盘缩微暨事后监督系统是集银行档案原件录入、光盘存储、自动管理、智能检索、事后监督于一体的计算机辅助管理、帐务监督系统。它利用图像数字化技术设备(如摄像机、高速扫描仪)将临柜的传票的影像录入计算机系统,并采用手工录入、流水识别等手段建立凭证索引,通过电话、传真和计算机等多种途径进行档案查询,同时将流水识别结果与OCR识别结果校验后生成的数据作为事后监督的流水,并将此流水与临柜的流水进行批量核对,记载分户帐及总账,同时与临柜分户帐与总账进行核对,从而真正实现了对银行凭证的事后监督与归档的自动化,以及档案的长期保存、智能查询和科学管理。
北京汉王公司利用全面领先的OCR技术优势,为银行系统提供了先进而完整的解决方案,在大量的实际应用中取得了良好的效果。
2、实现的目标:
①实现业务过程的自动:
②凭证影像的高速采集:
所有储蓄凭证均通过扫描方式实现凭证影像的高速采集。根据银行的具体需求可以选用不同档次的扫描仪。
③使凭证索引的建立自动化:
“汉王OCR票据\表格\单据识别系统”采用OCR识别技术或流水识别的方法自动建立凭证种类的精确索引,可大大减少手工录入的工作量。
④利用OCR技术实现凭证重要数据的自动采集:
对那些重要的需监督的数据(账号、金额等),利用OCR技术提取凭证中用户填写的实际数据,与流水识别取得的临柜帐务数据进行核对,生成待监督数据文件,提供给储蓄事后监督子系统,进一步完成储蓄的事后监督。本系统采用了国内居领先地位的汉王OCR技术,技术成熟可靠,在多家金融机构得到了应用,系统达到了实际应用的水平。
⑤整个后台自动处理要快速有效:
单张凭证的后台处理(包括扫描和进行OCR识别)时间最多2秒,单据种类的自动识别的成功率基本达到100%,对于各种需监督的数据(账号、金额等)OCR自动识别的成功率达到90%以上。另外要提供手工补录、特殊处理、重要凭证核对、重点监督等功能。
⑥凭证查询功能强大、方便快捷:
经过OCR自动识别的凭证查询能实现快捷方便的查询、通过局域网或DDN,X、25专线对服务器的硬盘或光盘库或MO上的数据进行查询;能通过各种索引要素的自由组合进行模糊查询;利用SOCKET传递数据包,网络流量小,安全可靠。
⑦严密的事后监督:
根据“汉王OCR票据\表格\单据识别系统”提供的数据作为事后的流水,记载事后的分户帐、科目发生额、总账,事后帐内部的发生额借贷平衡、余额借贷平衡、总分平衡,以及事后帐与临柜帐之间的流水账逐笔勾对,分户逐笔勾对和总账的逐笔勾对,可以实现流水勾对的自动化、快捷化。
⑧独特的差错管理:
事后监督的目的是发现临柜业务的差错。因此,差错管理是事后监督非常重要的功能。事后与临柜帐务不一致时,事后跟临柜要将所有发现的差错记录下来。差错管理模块录入监督票据的非计算机差错信息,如票据残缺、假票、字迹模糊、金额涂改等差错信息,以及经计算机监督后的差错信息如流水核对不符、分户核对不符、总账核对不符等。根据差错信息产生差错报告供上级部门分析,并产生差错通知单通知临柜修改。
⑨功能齐全的事后监督:
处理方式上以流水批量处理为主,同时支持单笔的手工录入;业务种类上支持对公、储蓄、信贷、交换业务和凭证管理业务。
二、系统实现原理:
系统原理图:
* 银行前台在进行业务时应按照相关要求规范用户的填写;
* 对凭证进行业务分类整理和集中,然后批量扫描录入;
* 在后台进行OCR识别/流水识别,直接从凭证影像中提取重要数据,自动建立凭证索引;
* 对一些未能识别的凭证进行手工补录、特殊处理、重要凭证核对、重点监督等功能。
* 生成待监督文件,为事后监督系统提供监督数据;
* 后台处理和事后监督子系统连接,共同完成自动的事后监督。
三、系统实施方案:
(一)系统示意图:
(二)凭证处理方式:
分为三种类型:自动处理、手工录入、扫描存档。
1、自动处理:
处理对象:前台上机处理业务的凭证。
自动处理过程如下:
银行前台在进行业务时应按照相关要求规范用户的填写;同时按照相关规定打印相关流水信息。
①扫描录入:
对凭证进行批量扫描。
②流水识别:
利用OCR技术,在凭证扫描后识别凭证影像中的机打数字,提取临柜帐务数据,建立凭证索引。
③待监督数据OCR识别:
对那些重要的需监督的数据(账号、金额等),利用OCR技术提取凭证实际数据,与流水取得的临柜帐务数据进行核对,然后生成待监督数据文件,提供给储蓄事后监督子系统,从而完成储蓄的事后监督。
④手工补录:
对流水识别失败或OCR识别失败的凭证,以及需要人工特殊处理的凭证,由系统自动把凭证影像显示在屏幕上供操作员查看,进行手工补录凭证要素和人工核对。
⑤生成事后待监督文件:
把凭证要素如交易码、账号、金额、摘要、币种、所号等,整理生成事后待监督文件,每个所每天一个文件,提供给事后监督子系统进行监督。
⑥事后监督:
具体的事后监督工作由银行事后监督子系统完成。内容有:监督大机流水数据和事后待监督文件,上传监督结果;全部所上传监督结果结束后(出于他代本的考虑),批量更新分户帐、总账。将总账和大机返传总账核对。
2、手工处理:
手工处理对象:不适合进行流水识别或OCR识别的凭证。对此类凭证,仅通过手工录入所需的全部要素。
3、扫描存档:
扫描存档处理对象:不需要事后监督,不需要建立详细索引,只需扫描凭证采集其影像,并建立批量索引,达到光盘缩微的目的的凭证。
四、凭证处理(汉王OCR在银行业务中的适用范围)
(一)对私业务:
以“监督要素”识别所有对私业务凭证、单据,结合手工补录、特殊处理,建立索引,输出到事后监督文件。
(二)对公业务:
识别所有对公业务凭条、单据,并输出到事后监督文件。
五、业务处理流程:
(1)扫描录入:
由于储蓄凭证具有数量大、纸质好、种类单一等特点,采用高速度、高分辨率的扫描仪作为凭证影像采集的工具,操作简单,处理迅速,且可以成批录入。如配置一台每分钟60页扫描仪,一天即可以录入近3万张凭证,充分利用了计算机快速自动处理的能力,大大减少了人力的投入,提高了效率。扫描所得的凭证影像清晰度好,分辨率高(可达400DPI),方便了此后的流水识别、OCR处理,根据需要,还可以打印出还原度很好的复制件。
在前台批量扫描录入前,指定本批凭证的处理模式(自动处理、手工处理、仅存档),扫描时进行版面理解,记录其版面类型。
(2)处理分流:
后台处理时根据前台指定的处理模式进行处理分流:自动处理,手工处理,不处理。
(3)交易码设置:
(4)版面设置:
交易码设置完成后再进行版面设置,为交易码和版面类型建立对应关系,这种对应关系可能是一对一、一对多、多对多。然后为每种要进行OCR处理的版面指定处理区域。
(5)流水识别:
传统的凭证索引建立方式是手工录入,即通过录入操作员对照凭证影像,手工输入各个凭证要素,建立凭证影像的精确索引,方便查询。这种索引建立方式速度慢、效率低且容易出错,跟扫描录入的高速和可靠极不相称。
自动方式建立凭证精确索引:
①流水识别:
流水识别方式不需在前台临柜打印条码。流水识别是通过OCR识别凭证上机打的数字(这些数字包含了流水号、所号、交易码、账号、金额等信息),从而取得凭证的要素,以此作为凭证的要素。
流水识别可以识别凭证上打印的所有所需数据,也可以只识别所号和流水号。采用前一种方式,不需与银行流水数据配对即可建立精确索引,并且因为识别所得的是临柜数据,所以还可以监督银行大机的流水数据是否被篡改。采用后一种方式,则还需与银行流水数据进行配对(通过所号、流水号),然后建立索引。
②流水识别的优缺点:
流水识别的优点:不需要修改前台打印程序、不增加前台处理时间、在实验室中识别率很高,和条码识别相仿。缺点:抗干扰能力差,所以在实际应用中,对凭证的清洁、凭证的打印要求很高,要识别的机打数字需打在固定的空白位置,无自校验,识别结果不能保证正确,识别速度比条码识别慢。
(6)OCR识别:
传统的储蓄事后监督,也是让监督操作员对照凭证影像,靠手工重新录入全部凭证要素,以此作为监督依据,对银行大机中的账务数据进行监督。这种方式同样存在速度慢、效率低、容易出错的缺点。
利用目前的高新技术——OCR,直接从凭证影像中提取金额、账号等重要数据,代替人的手工录入,与条码识别/流水识别紧密结合,实现建立事后副本帐、完成事后监督的工作。
OCR处理是采用目前国内处于领先地位的汉王公司的OCR手写体、印刷体识别技术,能识别不同人写的千差万别的手写体汉字和数字,应用于本系统,识别凭证影像中储户填写的信息,如大写金额、小写金额、账号、存期、日期、证件号等,可以代替手工录入。为了达到较高的识别率,可能需要修改凭证的版面印制,以利于OCR识别。经过对银行产生的实际凭证进行的大量测试,在我们的努力下,实际应用时可以达到85%以上的识别率。
OCR处理一般使用性能较好的PC机,OCR处理程序一经启动会自动扫描数据库中的凭证影像,发现有需OCR处理而未处理的,提取到本地进行处理。
OCR的主要处理内容为识别小写金额,识别得出的金额还要与流水识别所得的金额进行核对,核对成功,则OCR识别成功。这样处理是为了避免误判。
(7)手工补录:
流水补录、OCR补录、特殊处理、手工录入的凭证集中进行统一处理,由交易码决定要录入的内容。
(8)生成事后监督文件:
事后监督文件是后台自动处理和事后监督子系统的接口。只有该所的所有凭证都已处理完毕,才能生成后督文件,生成之前,还要进行重要凭证的统计核对。
(9)事后监督:
缩微电子凭证的查询
已经归档的电子凭证均可以按日期、账号、摘要、凭证号、金额要素中任意组合或特有要素进行查询,也可通过粗索引进行批量查询。
六、模块设计:
本流程按照实现功能的不同划分为5个模块,分别是前台录入模块、后台自动处理模块、中心管理模块、查询模块、事后监督模块。