北京时间5月4日消息,据国外媒体报道,业界人士近日发现,谷歌已开发出图书批量化扫描的技术,同时向美国专利商标局(USPTO)提交了专利申请并获批准,相应专利编号为7508978。

谷歌图书扫描技术示意图(图1)
2004年12月,谷歌启动了一项名为“数字图书馆”的工程,即把全球知名大学和研究机构所属图书馆的藏书转化为电子书,目前已完成了约700万册书籍的电子扫描工作。这些图书馆包括斯坦福大学、哈佛大学、密歇根大学、牛津大学所属图书馆及纽约公共图书馆等等。

谷歌图书扫描技术示意图(图2)
在谷歌启动“数字图书馆”之前,业界通常使用光学字符识别软件(OCR)来实现纸质书的数字化目的。但OCR软件要求被扫描的图书每页必须平整放置。而对于整本书籍来说,不损坏书籍装订的通行扫描方法是:将图书一页页打开放在玻璃面板上压平。另一种方式是把已装订图书一页页拆开。

谷歌图书扫描技术示意图(图3)
由此可见,上述两种图书扫描方式效率都不高,且容易毁坏书籍。正因为如此,谷歌所开发的批量化图书扫描技术解决了业界这一难题。
谷歌向USPTO提交的图书扫描专利申请说明书显示,工作人员把被扫描书籍放入谷歌专门开发的图书硬件设备后,该设备所配备红外技术摄像头将检测被扫描书籍的三维形态和角度,然后把该信息传输至OCR软件,并进行失真校准,使OCR软件能够更准确识别被扫描文本。
利用谷歌最新的图书扫描技术,被扫描图书既不用放在玻璃面板上压平,也不用将其一页页拆开,因此其扫描速度和准确率都大幅提高。
谷歌今年3月宣布,将向索尼电子书阅读器提供50万册没有版权保护的电子版书籍。这些电子版书籍就是谷歌“数字图书馆”工程的组成部分,其中包括英国文豪查尔斯狄更斯(Charles Dickens)的《双城记》、古希腊历史学家希罗多德(Herodotus)的《历史》等等。