本备忘录状态
本备忘录为Internet社区提供一些信息,但没有规定任何Internet标准。本备忘录的发布不受限制
版权信息
Copyright (C) The Internet Society (1999)。版权所有。
目录
1. 摘要 1
2. HTML、Dublin核心元数据及其他原数据 1
3.META标签 2
4、LINK标签 2
5、编码建议 3
6、DC元数据的实际应用 4
7、DC元素编码 4
8、安全性问题 10
9、附录——处理用META标签编码的元数据的Perl脚本程序 10
10. 作者地址 15
11、参考资料 15
12、版权声明 17
1. 摘要
Dublin核心元数据 [DC1]是描述信息资源的小的元数据元素集合,本文讨论如何在HTML文档[HTML4.0]中通过META和LINK标签表示这些元素。嵌入HTML的元数据用于描述文档本身的信息。本文通过一些例子说明了如何用现有的软件来检索、显示和处理这些元数据,软件包括附录中列出的[SWISH-E]、[freeWAIS-sf2.0]、[GLIMPSE]、 [HARVEST]、 [ISEARCH]以及Perl[PERL]脚本语言等。
2. HTML、Dublin核心元数据及其他原数据
[DCHOME]发起的Dublin核心元数据推出了一组少量的资源描述类别DC1,或者叫元数据元素(从字面上看就是关于数据的数据)。一般而言,元数据元素相对它们所描述的资源要小得多,而且如果资源格式支持可以把元数据嵌入到资源中。支持嵌入元数据的有两类资源:超文本标记语言(HTML)与扩展标记语言(XML)。HTML已经得到了广泛的应用,但是一旦标准化,XML与资源描述框架(RDF)一起有望提供对源数据进行编码的更有效的方式。RDF规范实际上描述了在HTML文档中按照一种简洁语法应用RDF的方法。
本文讲述了如何在HTML4.0中对元数据进行编码,这些元数据元素的语义在其他文档中定义。为了方便说明,文中提及了某些元数据的语义,但不应把这些语义看作是定义性的。
HTML编码允许DC元数据元素与其它元素混合使用(前提是那些元素的用法支持混合使用)。DC元素使用前缀“DC”标记,其他元素则使用另外的标记,比方说AC表示来自A-Core[AC]的元素。
3.META标签
HTML中的META标签用于已经命名的元数据元素进行编码,每个元素描述了文档或者其他信息资源的一个方面。比方说
,这个元素说明创作者是Homer Simpson,其中Creator是DC元素集中定义的一个元素。更一般的形式为:
content = "ELEMENT_VALUE">
大写部分表示在应用时要换成真正的标记符,在上面的例子中,ELEMENT_NAME是Creator, ELEMENT_VALUE是Simpson, Homer而PREFIX则是DC。
在META标签中,DC元素名的第一个字母要大写,但对元素值的大小写没有要求,也没有限制同时出现的META元素的个数与顺序。同一个DC元素可以出现多次,每个DC元素都是可选的。下面的例子是对一本书的说明,它有两位作者、两个标题:
content = "The Communist Manifesto">
content = "Marx, K.">
content = "Engels, F.">
content = "Capital">
使用META编码的所有DC元素都带有“DC”前缀,与后面的元素名之间用点号(“.”)隔开。每个非DC元素的编码都应该有相应的前缀以便于跟踪其来源和定义,前缀与元素定义之间的联系通过LINK元素来完成,参阅下一节的说明。非DC元素,比如来自AC的Email可以与DC元素混合使用:
content = "Da Costa, José">
content = "dacostaj@peoplesmail.org">
content = "Jesse "The Body" Ventura--A Biography">
这个例子还说明了特殊字符的编码,第一个元素作者名中使用HTML字符实体引用表示一个音标符号——带有重音号的字母E。类似的,最后一行中有两个双引号使用的是数字字符引用,以便于元素内容分隔符区别开。
4、LINK标签
HTML的LINK可以把元素名前缀与元素的参考定义关联在一起。如果没有LINK标签与相应的定义文档关联,只有META标签描述的资源是不完整的。前面的例子再加上以下两个元素就可以认为是完整的了:
href = "http://purl.org/DC/elements/1.0/">
href = "http://metadata.net/ac/2.0/">
一般来说这种联系通常采用如下的形式:
其中的PREFIX要代换为实际使用的前缀,LOCATION_OF_DEFINITION则是定义文档的URL或URN。嵌入在HTML文档HEAD部分的LINK和META序列,描述的是该HTML文档自身的信息。下面是带有描述信息的一个完整的HTML文档。
href = "http://purl.org/DC/elements/1.0/">
content = "A Dirge">
content = "Shelley, Percy Bysshe">
content = "poem">
content = "1820">
content = "text/html">
content = "en">