XML编程思想:研读XMLHacks - 王朝网络宽屏版

XML Hacks是一本介绍 XML 技巧和窍门的书籍。这是一本很有用的参考资料，其内容十分广泛，但如果某些材料能够进一步展开或者改写的话，可能会更好。Uche Ogbuji 提供了该书的应用报告。

在上一期文章中，我评论了 Elliotte Rusty Harold 所著的 Effective XML，所有 XML 专业人员都应该读一读这本很棒的著作。在本期文章中，我把目光投向了另一本实用 XML 书籍，Michael Fitzgerald 编纂的 XML Hacks（O'Reilly and Associates，2004 年）。这本书涉及的范围很广，包括入门性的基础知识、中阶和高阶的设计与实现技术，以及一些工具的使用技巧。本专栏和其他 developerWorks文章的读者，可能更希望我能专注于 XML 设计和 XML 词汇表的问题。 XML Hacks论述更多的是实现细节和工具使用，但是这些知识也很重要，在本期文章中，我将介绍我自己应用书中内容的一些实际观察。与关于 Effective XML的文章一样，本文并不是书评，而是受该书启发想到的一些东西，本书是为不具备这些知识的读者编写的。

使用 XInclude 包含外部文本文档

在这本书的第 26 章“Include External Documents with XInclude”中，说明了如何以类似 XML 内置外部已解析实体的方式使用 XInclude（请参阅 Resources）。书中给出了一个示例文档，其中插入了由 HTTP URL 指定的外部 XML 文档。XInclude 确实为这种混合增加了为数不多的一些技巧，比如后退支持（出现错误时提供替代内容），以及处理程序发出 HTTP 请求时指定内容协商方式的机制。但是我认为与已解析实体机制相比，XInclude 的两个最主要优点是：能够使用 XPointer 从目标文档中选择要包含的部分。能够改变解析机制，将外部文档作为完全转移的文本文件而不是 XML 文档插入。

如果正在撰写包含代码清单或者示例的 XML 文档，第二点尤其方便。比方说，假设您撰写的文档中要包含清单 1 所示的 Python 语言代码。

清单 1. 作为清单插入 XML 文档的 Python 实例代码

def game_show(contestant_guess, prices):

if prices[contestant_guess] < 1000:

print "you win!"

else:

print "you lose!"

您应该在单独的文件中开发这些代码，这样，就可以在将它们放入文档之前对其进行测试，以确保它们能像您期望的那样工作。首先您可以把这些代码剪切并粘贴到 XML 文件中，如清单 2 所示。

清单 2. 直接剪切粘贴示例代码的插入文档

<?xml version='1.0' encoding='iso-8859-1'?><!DOCTYPE html PUBLIC

"-//W3C//DTD XHTML 1.0 Transitional//EN"

"http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"><html xmlns="http://www.w3.org/1999/xhtml" lang="en-US" xml:lang="en-US"><head>

<title>On-line game show programming in Python</title></head><body>

<h3>A simple example</h3>

<p>Examine the following code:

</p>

<div class="caption">example 1</div>

</div>

</div></body></html>

这样会造成错误，因为 if prices[contestant_guess] < 1000: 这一行包含没有转义的小于号（<）。您可以手工将它转义成 < ，但是这样做太麻烦，而且修改代码可能造成错误；然后您还需要修改外部文件和测试文件，最后修改粘贴的文件，并将其重新转义到您的文档中。一种解决方案是使用 CDATA 部分，如清单 3 所示，将代码直接粘贴到这个代码块，这样就不需要进行进一步的转义了。

清单 3. 通过剪切粘贴到 CDATA 节插入示例代码的文档

<?xml version='1.0' encoding='iso-8859-1'?><!DOCTYPE html PUBLIC

"-//W3C//DTD XHTML 1.0 Transitional//EN"

"http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"><html xmlns="http://www.w3.org/1999/xhtml" lang="en-US" xml:lang="en-US"><head>

<title>On-line game show programming in Python</title></head><body>

<h3>A simple example</h3>

<p>Examine the following code:

</p>

<div class="caption">example 1</div><![CDATA[]]>

</div>

</div></body></html>

这种方法无疑能够避免了转义错误，但是您必须注意那些估计可能很少出现的字符串“]]>”，如清单 4 中所示。

清单 4. 作为清单插入 XML 文档的 Python 示例代码

def game_show(guesses, contestant, prices):

if prices[guesses[contestant]]>1000:

print "you win!"

else:

print "you lose!"

为了在 CDATA 部分中正确转义这一行，您至少需要像 if prices[guesses[contestant]]]]><![CDATA[>1000: 这样复杂的代码。还要注意的是，我使用的是 Python 代码，多数情况下，Python 需要转义的地方相对较少。如果编写的是关于 XML 的文档，手工转义可能就无法胜任了。而且出现“]]>”这个字符串组合的机会也多得多（比如 XML 清单可能本身包含 CDATA 部分）。

当然，您可以选择自己的方法绕开这个障碍，但是我发现，处理文章中所包含代码的最简单的方法就是使用 XInclude 的 parse="text" 功能。只要在 xi:include 元素中添加该属性，就能自动将代码作为 XML CDATA 解析，从而自动转义包含的内容。清单 5 就是以这种方式使用 XInlude 的一个例子：

清单 5. 使用文本行 XInclude 插入示例代码的文档

<?xml version='1.0' encoding='iso-8859-1'?><!DOCTYPE html PUBLIC

"-//W3C//DTD XHTML 1.0 Transitional//EN"

"http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"><html xmlns="http://www.w3.org/1999/xhtml" lang="en-US" xml:lang="en-US"

xmlns:xi="http://www.w3.org/2001/XInclude"><head>

<title>On-line game show programming in Python</title></head><body>

<h3>A simple example</h3>

<p>Examine the following code:

</p>

<div class="caption">example 1</div><xi:include href="gameshow1.py" parse="text" encoding="iso-8859-1"/>

</div>

</div></body></html>

xi:include 元素被替换为完全转义的 gameshow1.py （比如清单 1）的内容，该文件是相对于元素的基 URL 进行解析的。感谢 parse="text" ，转义是自动完成的。我总是使用 encoding 属性（如果使用 parse="xml" ，偶尔可以忽略它）。在我的应用中，Python 文件通常使用“iso-8859-1”编码，而 XML 文件使用“utf-8”编码，当然，您的环境中可能使用不同的编码。

我在为 developerWorks（它要求作者以精心设计的 XML 格式提供文稿）撰写这些文章时，使用的就是已解析文本 XInclude 技术，并发现这样极大提高了编辑速度。

另一个注意事项是：该书使用的是当时正在开发之中的 XInclude 名称空间 http://www.w3.org/2003/XInclude ，但是现在，这个名称空间已经不存在了。在 2004 年 4 月 13 日发布的 Candidate Recommendation 中，W3C 工作组又回到了原来的名称空间 http://www.w3.org/2001/XInclude 。据我了解，多数工具只支持后一种（2001）名称空间形式，这可能是 W3C 决定回到原来的名称空间的原因，但这种名称空间的变化和撤销确实带来了一些混乱。该书作者就成了这种变化的无辜的牺牲品，我已经就此向出版商提供了一份刊误表。

更简单的恒等转换

第 37 章“Generate an XSLT Identity Stylesheet with Relaxer”讨论一种相当复杂的生成恒等转换的方法，即输出和源文档等价的 XML 的 XSLT 转换。在以这种方法得到的转换中，对应词汇表中的每个元素都有一个模板，这的确很复杂。这样做可能是为了提供一个样本，以便用于创建更专门的转换，但我认为它没有给出一种简单得多的恒等转换，甚至 XSLT 规范中都作为例子给出了这样的一个转换。在后一章（38）“Pretty-Print XML Using a Generic Identity Stylesheet and Xalan”中，讨论了这种更简单的恒等转换，其中包括为了获得整齐的打印效果而经常采用的 <xsl:output method="xml" indent="yes"/> 。我建议您首先阅读第 38 章，熟悉简单的恒等转换之后，再来研究 37 章中那种复杂的方法。这样做的还有一种好处，理解这种简单的恒等变换是熟悉和掌握几种 XSLT 短语的关键，包括将源节点复制到输出中的 xsl:copy-of 与常见 XPath 节点测试的细微差别： * 、 @* 和 node() 。

不使用 XSLT 2.0 生成多个输出文档

第 45 章“Generate Multiple Output Documents with XSLT 2.0”讨论了如何使用 XSLT 2.0 xsl:result-document 在一次转换中序列化多个结果树。整章都写得不错，除了最后出现的一句：