用XML和Servlet构建在线问答系统

XML ，即可扩展标记语言（ Extensible Markup Language ），被誉为构造未来

Web 的新工具。 Html 着重描述 Web 页面的显示格式，而 XML 着重描述的是文档的内容。 XML 的特长在于描述层次结构的数据，或赋予原本杂乱的信息一种清楚的结构。

在 Web 上，在线测试的问答过程一般是用表单作为用户界面的，无处不在的网络连接使得这种测试可在任何地方进行。本文所讨论的也正是这样一个系统。所不同的是，它用XML 描述问题，用 Servlet 动态生成显示给用户的 HTML 页面，并能够对用户的回答做出评价。虽然实现类似功能可以有许多种不同方案，但采用 XML 与 Servlet 将使得整个实现过程更为简单。

一、 XML 与 DOM 、 SAX 、 DTD

本文假设读者已经熟悉 Servlet 的实现过程，因而此处不再赘述。 XML 相对较新，下

面对它的基本概念作简单介绍。

XML 发展自更为复杂的 SGML （ Standard Generalized Markup Language ，标准通用标记语言）。在 SGML 和 XML 中，文档的构成方法可以由 DTD （ Document Type Definition ，文档类型定义）描述。 DTD 可以是嵌入的，也可以是一个独立的文件。 DTD 定义了文档的合法结构和各组成元素之间的关系。

DOM （ Document Object Model ，文档对象模型）用一种树状结构存储 XML 文档。 DOM 是一种标准模型，由 W3C 治理。这种包罗万象的对象模型将所有的文档元素都看成能够轻易治理的对象，整个树状结构以 Document 对象为根，其余所属元素及属性构成

根的子树。

SAX （ Simple API for XML ）是一种基于事件的模型，可用于避免构造文档完整的树状结构。假如文档非凡庞大或仅对其中一部分感爱好， SAX 就显得非凡有用了。 SAX事件由解析器在进入或离开文档、元素、属性、子树时产生。该模型可在不关注文档完整结构的情况下测定其特征或相关数据。

本文将使用 XML 解析器创建问题文档的对象模型，再利用该模型动态生成 HTML 页面。

这种实现方法使得该系统不必创建更多分散的 HTML 页面就可以提供大量问题。

现在已经有许多可用的 XML Java 解析器。本文选用的是 IBM 的 XML Parser for Java 1.1.16 （ XML4J ），可从 http://www.alphaworks.ibm.com/ 下载。相对其它解析器而言，该解析器所提供的功能最为完善，如同时支持 DOM 和 SAX 等，并提供了最好的文档。

二、问题文档的结构概览

[[The No.1 Picture.]]

【清单 2 】该类中的所有方法都用于简化对文档模型的访问。它们都基于 W3C 定义的标准 Java 接口，接口定义可在 org.w3c.dom 包中找到。大多数 XML 解析器提供扩展功能，但遵从接口规范有利于提高代码的兼容性。

DomUtil 类的 readDocument方法完成的任务是：对于给定的文件，经解析器分析返回

Document 对象。该方法的执行过程可以简述为：创建解析器实例，设置文件输入流，读入文件，关闭输入流，返回 Document 对象。

findNode 方法完成的任务是：对于给定的节点对象，在其子树中搜索并返回与给定名字匹配的孩子节点。它从指定节点开始搜索文档树，若当前节点与给定名字匹配，则返回；否则用 getChildNodes方法获得它的所有孩子节点，递归执行上述搜索过程；假如不能找到所要求的节点，则

返回 null 。

getNodeAttribute 方法根据给定的节点及属性名字，返回其属性值。假如节点不是一个

元素（ Element ）或指定属性不存在，则返回 null ，否则返回该属性的字符串值。

printSuBTree方法将以给定节点为根的子树输出到指定的 PrintWriter 。该方法也要执行一个遍历过程，这一点和 findNode方法相似。在这里应该注重的是，虽然浏览器能够自动处理某些结束标记被省略的情况（如标记和标记不匹配），但 XML 要求完整地写出所有开始和结束标记。

DOMUtil 类提供了两个版本的 printSubtree 方法，其中第二个方法多一个根节点参数。一般我们需要输出的是给定节点下的子树而非该节点本身，第一个版本较为常用，它只需 PrintWriter 和 Node 两个参数。

节点类型要么是元素（ Element ），要么是文本（ Text ）。对于元素节点， printS

ubtree方法先输出对应的开始标记，然后是它的子树，最后输出结束标记。开始标记由元素名字在两边加上尖括弧构成；结束标记也相似，但要在元素名字前加斜杠。对于文本节点， printSubtree方法直接输出节点值。 QuestionView 类负责 XML 文档的

分析，并按照要求生成 HTML 代码，如清单 3 所示。当然，实际的分析过程是依靠于XML 解析器的。在建构函数中我们使用 DOMUtil 类来提取所需的节点和属性，并把它们存储为实例变量。 getQuestionPage 方法用于生成 HTML 代码，这是一个相当复

杂的工作。为便于阅读和重用，我们把大部分格式化操作封装为另外一个工具类 HTMLUtil 。 HTMLUtil 类的代码如清单 4 所示。这些方法带来的便利之处在于，只需把必要的参数传递给它，余下的格式化任务就能够自动完成了。