元数据的多角度透视
一 、元数据的概念
元数据最本质,最抽象的定义为:data about data (关于数据的数据)。它是一种广泛存在的现象,在许多顶域有其具体的定义和应用。
在数据仓库顶域中,元数据被定义为:描述数据及其环境的数据。一般来说,它有两方面的用途。首先,元数据能提供基于用户的信息,如记录数据项的业务描述信息的元数据能帮助用户使用数据。其次,元数据能支持系统对数据的管理和维护,如关于数据项存储方法的元数据能支持系统以最有效的方式访问数据。具体来说,在数据仓库系统中,元数据机制主要支持以下五类系统管理功能:(1)描述哪些数据在数据仓库中;(2)定义要进入数据仓库中的数据和从数据仓库中产生的数据;(3)记录根据业务事件发生而随之进行的数据抽取工作时间安排;(4)记录并检测系统数据一致性的要求和执行情况;(5)衡量数据质量。
在软件构造顶域,元数据被定义为:在程序中不是被加工的对象,而是通过其值的改变来改变程序的行为的数据。它在运行过程中起着以解释方式控制程序行为的作用。在程序的不同位置配置不同值的元数据,就可以得到与原来等价的程序行为。
在图书馆与信息界,元数据被定义为:提供关于信息资源或数据的一种结构化的数据,是对信息资源的结构化的描述。其作用为:描述信息资源或数据本身的特征和属性,规定数字化信息的组织,具有定位、发现、证明、评估,选择等功能。
此外,元数据在地理界,生命科学界等顶域也有其相应的定义和应用,在此不一一阐述。
二 、 主要元数据格式介绍
由于元数据的广泛存在,导致元数据格式层出不穷,在此就图书馆和信息界的几种主要元数据格式进行介绍。
1.艺术作品描述类目(CDWA):
是描述艺术作品的结构化工具,主要应用于艺术作品,珍善本和其它三维作品,它的描述重点在于“可动”的对象及其图像。它有27 个数据单元,每一单元还包括若干子单元,包括主题,记录,管理等项目。
2.编码文档描述(EAD):
主要用于描述档案和手稿资源,并利用网络检索和获取档案手稿类信息资源。其高层元素主要有:头标,前面事项,档案描述。每一高层元素又包括多个小项以及若干细项。它能适应任何长度的目录和记录,并能描述在各种媒介上的所有类型的档案。EAD体系由三部分组成:数据模型,SGML文件类型定义和档案目录。
3.VRA核心类目(VRA core):
最初是为在网络环境下对艺术,建筑等艺术类视觉资料的著录而起草,以后逐渐扩大应用到非艺术类顶域,目前VRA核心类目格式由两部分组成:
① 作品著录类目:用于任何一种作品实体或某种视觉文献所记载的原始作品(多为三维作品)的著录,包括作品类型,尺寸,主题等19个数据单元。
② 视觉文献著录类目:用于记载某种作品实体的视觉文献的著录,包括视觉文献类型,视觉文献格式等9个数据单元。
4.机读目录(MARC):
它被广泛用于图书馆书目记录数据,是目前图书馆描述、存储、交换、处理以及检索信息的基础。MARC记录的总体结构有以下特点:可变格式可变长字段的记录格式;采用目次方式;每条MARC记录分三个区(头标区,目次区,数据区)。
MARC格式遵循ISO27091981规定,由以下几个部分组成,如图一所示。
MARC为适应网络发展的需要,已经在原有的基础上增加538字段(系统需求和存取注释)、516字段(计算机文件类型或数据注释)、256字段(计算机文件特征)以及856字段(电子地址和存取)。同时,为了促进MARC在网络环境中得到进一步的应用,美国国会图书馆正在研究制定MARC的DTD(文献类型定义),使得基于国际标准ISO2709格式的数据能自动转换到基于ISO8879的SGML格式上,适用于各类网络软件和浏览器。
5.都柏林核心集(DC):
DC元数据是在充分吸纳了图书情报界所具有编目、分类、文摘等经验,同时在利用计算机、网络的自动搜索、编目、索引、检索等研究成果的基础上发展起来的。它是描述、支持、发现、管理和检索网络资源的信息组织方式,其最大特点是数据结构简单,信息提供者可直接编码。
DC有简单DC和复杂DC之分。简单DC指的是DC的15个核心元素:题名,主题等。与复杂的MARC格式相比,DC只有15个基本元素,较为简单,而且根据DC的可选择原则,可以简化著录项目,只要确保最低限度的7个元素(题名、出版者、形式、类型、标记符、日期和主题)就可以了
复杂DC是在简单DC的基础上引进修饰词的概念,如体系修饰词(SCHEME),语种修饰词(LANG),子元素修饰词(Subelement),进一步明确元数据的特性。特别是通过体系修饰词,把MARC的优点和各种已有的分类法、主题词表等控制语言吸收进去。
DC可以使用HTML语言的META标签(tag )的“NAME ”和“CONTENT”属性进行描述,同时将每个单元都加了著录标记(label),著录时既可以使用HTML语言为输出结果的网络产品形式,也保留了自己的著录标识和系统。但是由于HTML文档本身的结构不强,扩展能力差,描述内容的能力也较弱,因此不太可能成为今后数字化项目应用中主要的内容管理工具。在应用中将会更多地采用基于RDF的应用方法。
三、 元数据携带工具RDF
元数据的种类复杂且用途殊异,将来多种元数据共存共荣的局面已成为共识,而元数据的互操作性要求在由不同的组织制定与管理且技术规范不尽相同的元数据环境下,能够作到对用户保持一致性的服务,也就是说对一个应用或用户来说,能够保证一个统一的数据界面,保证一致性与对用户的透明。元数据的重用和各种元数据的互换已成为元数据发展的趋势。因此,一种可同时携带多种元数据来往于互联网和WWW上的架构,成为不可或缺的工具,资源描述框架(RDF)即籍此而生。
RDF是一个能对结构化元数据进行编码,交换及再利用的体系框架。它本身只有很少的语义定义元素,但通过对通常意义上的语义,语法和结构的支持,可使不同的用户或团体在这一框架下定义他们自己的元数据元素,从而提供了各种不同的元数据体系之间的互操作性。RDF采用XML作为交换和处理元数据的通用语法结构体系,提供了一种强有力的可转换的句法模式。
RDF的核心定义比较简单,它基于如下假设:任何一个可被标识的“资源”都可以被一些可选择的“属性”描述,每一个属性的描述都有一个“值”。对此定义,可用如下3位元图来描述:
属性
(property)
图二
RDF 所提供的基于XML的结构与句法尤其适合描述语义定义较为丰富的DC元数据,在这样的模式下,语义、句法与结构得到了很好的整合。下面用基于RDF的DC修饰词描述句法来描述如下一个假定事实:郭志红是http://www.sjtu.edu.cn/mydoc.htm资源的插图作者,他是上海交大B0033091班的学生,他的email是:gzhihong@263.net。可用下图来进行具体描述:
vcard:fn
dc:creator vcard:email
dcq:creatorType vcard:org
图三
具体源代码为:
< ?xml version=”1.0” encoding =”GB2312”? >
<rdf:RDF xmlns:rdf=http://www.w3.org/1999/02/22-rdf-syntax-ns#
xmlns:dc =http://purl.org/dc/eiements/1.0/
xmlns:vcard=http://www.imc.org/vcard/3.0/>
xmlns:dcq =” http://purl.org/dc/qualifiers/1.0/”>
<rdf:Description rdf:about=http://www.sjtu.edu.cn/mydoc.htm>
<dc:creator>
<rdf:Description>
<vcard:fn>郭志红</vcard:fn>
<vcard:email>gzhihong@263.net</vcard:email>
<vcard:org>上海交大B0033091班</vcard:org>
<dcq:creatorType>Illustrator</dcq:creatorType>
</rdf:Description>
</dc:creator>
</rdf:Description>
</rdf:RDF>
四、 数字化图书馆中元数据的内、外部系统及其设计原则
元数据体系的外部系统是数字化图书馆外部的元数据环境,即各种独立于具体系统的,被广泛承认的,通用的元数据标准的总和。
元数据体系的内部系统主要是数字化图书馆系统本身的元数据处理方法和体系结构,即元数据管理系统。它是整个数字化图书馆系统的重要组成部分,其基本功能是为数字化图书馆系统的运行建立基础。
为了实现数字化图书馆和外界信息环境的沟通,元数据内部系统和外部系统必须是同构的。这种同构关系实际是将外部元数据系统映射到数字化图书馆的内部体系中的方法,为了建立同构关系,元数据管理系统的结构包括6个组成部分。(1)基准元数据系统。是指某个数字化图书馆标准的元数据系统。它的作用是:作为基准元数据,组织标识数字化图书馆中的数字化信息资源;以标准形式描述用户的查询提问;为各种网络信息发掘工具提供数字化信息。(2)元数据字典。是一种用于各种元数据体系到系统基准元数据系统相互转换的对照表,它描述了各种元数据的基本特征,构建了各种元数据与基准元数据系统的对应关系。其基本作用是为系统的转换模块提供转换依据。(3)数据属性集。是指数字化图书馆存储数据的属性总和。元数据管理系统可通过数据属性集将数字化图书馆的数据结构和基准元数据相对照,保障它们之间的可互换性。(4)数字化信息资源集。它描述的对象是信息源。数字化图书馆系统可以通过信息源特征集来确定个信息源所采用的元数据体系,将用基准元数据表达的查询式转换成各个信息源所采用的元数据表达式,从而决定各个信息源的检索方法并解释检索结构。(5)转换模块。提供了实现各种元数据之间相互转换、翻译的方法。(6)维护模块。可以对各种对照表进行添加、删除、修改等动态管理,保证元数据管h系统的可扩展性和可维护性。
由于元数据体系的基本作用是控制数字化图书馆系统和外界进行数据交换。因此,标准性,完备性和可扩展性应该成为所有设计原则中最重要的内容。元数据体系设计的核心是基准元数据系统的确定。在选择基准元数据系统时,应该选择有权威机构或组织制订的,被广泛认可和使用的元数据方案。此外,元数据体系应该能够解释和兼容大多数数字化图书馆所涉及主题顶域中,获得公认的元数据放案。且要求具有扩展的可能性。
五、 数字化图书馆中元数据方案实例
在此,以上海图书馆和斯坦福大学图书馆为例,介绍它们在数字化图书馆建设中各自所采纳的元数据方案,以供借鉴。
目前的上海数字图书馆综合了七个资源库,拥有数据近200GB。系统采用IBM Digital Library version 2.4作为主要开发工具应用平台,系统的元数据方案以Dublin Core作为核心集,多种元数据方法并存,并以基于XML的以RDF为基础的资源描述体系将它们封装在一起。其元数据方案的实施框架如图四所示。
该元数据方案保证了针对不同资源类型描述的元数据要求,也充分利用了图书馆原有的元数据资源(主要为CNMARC记录),同时以基于XML为基础的RDF描述体系也实现了开放、标准、统一的内容管理,使数字图书馆的资源建设能在相当长的时间内得到保护,也为未来向新的体系与标准迁移提供了便利。当然,由于该系统采用的包括IBM DL在内的基于关系数据库的系统不能很好地解决XML的存储、管理与检索机制,在将各种元数据装载入IBM DL系统中之前,必须将其转换为统一的Dublin Core,这种转换一方面会丢失很多信息,另一方面会造成歧义或者是语义概念上不恰当的伸缩,导致对用户提供的检索服务功能受到了限制。理想的状态是将所有的元数据都装入数字图书馆应用系统,将应实际需要而要进行的转换放到系统之外,这样就可以在满足用户统一检索界面与服务的情况下,提供用户更好的数据挖掘的服务及更多样化的选择可能。这也是上海图书馆元数据工作者今后的进一步工作目标。
斯坦福大学数字化图书馆是一个分布式的,异构的,基于代理的数字图书馆,其自动服务和收藏功能通过代理服务器来间接获得。为满足元数据的可容性和内部操作性,它的元数据体系包括以下四个基本组成部分:属性模型代理,属性模型翻译器,搜索代理的元数据设施,元数据包。其元数据体系结构如下图所示。
其中,属性模型是指自包含的属性集,即诸如DublinCore, USMARC等元数据标识集。属性模型代理包含了属性集和为首要对象定义的属性,也允许包含属性间的种种关系。属性模型翻译器将来自某个属性集的属性和属性值映射到另一个属性集中。搜索代理的元数据设施为搜索代理的可访问资源和搜索能力提供了结构化的描述。元数据包积聚了从其他三个组成部分中挑选出的元数据,以利于元数据的全局查询和局部检索。InfoBus是该数字化图书馆的基础设施,它的核心是代理(即包装器)。各种代理均被实现为CORBA的分布对象,可被远程访问。到目前为止,斯坦福大学数字化图书馆已经为Z39.50的Bib-1,DublinCore,Refer,Bib-tex,GILS,以及USMARC的子集实现了代理;可提供Bib-tex与Refer之间, Bib-tex与USMARC的子集之间的属性转换(但还不能实现属性值类型之间的转换);实现了元数据包的信息抽取模块。
六、 结语
各种数字化项目,尤其是数字化图书馆,最终要成为互联网上阅读浏览的网络数据库,各种格式的元数据在网络数据库间的导入和导出已成为元数据工作者研究的热点,不同格式的元数据之间的精确互换是亟待解决的问题。目前,业界对DC与 MARC之间的转换研究得比较多,但至今还没有取得任人满意的效果。国外有研究成果表明:在合适的条件下,一个DC记录有可能转换成一个比较全面的MARC记录,但该记录可能不是一个有效的MARC记录,因为它丢失了如下一些强制字段:记录标签;001记录标记符;100 通用处理数据;101 款目语种;200 题名和责任声明。而构造“记录标签”和“通用处理数据”却是其中最难解决的问题。