也就是OCR(Optical Character Recognition)光学字元辨识核心技术。
以「丹青文件辨识系统 5」为例,加以说明:
「丹青文件辨识系统 5」採用新型软体使用介面及简易操作模式,让使用者迅速完成文件辨识和管理,并可切换辨识中英日语文件。
这套软体辨识率达95%以上,不仅能自动分析横排、直排、横直排及单栏、多栏影像文件,且可提供「可携式工作档」功能,将大量未完成辨识的文件以档案夹另存成「工作专案」,方便使用者将档案内容随身携带使用。
此软体可将多页文件的辨识结果,合併匯出为单页或多页的PDF档,方便文件数位化分享或管理。此外,还能快速且大量辨识各种来源的文件影像来源,在PentiumIII 667MHz以上的个人电脑环境下,每秒钟能辨识150个中文字,且自动分析成可编辑的档案格式。
「丹青文件辨识系统 5」同时支援多页TIF档辨识,短时间内即可将大量文书资料输入电脑,加以辨识与编辑,并依使用者需求,将结果储存成DOC、XLS、TXT、TIF、RTF或HTML等档案格式。亦可进一步辨识各种表格影像,将结果储存成XLS、SLK、CSV等格式,方便使用者在Excel中更弹性地处理和运用文件。
此外国内的清华大学也是这方面的领先单位。