XML概念和应用（二）分析XML

首先得向大家申明，在分析XML这篇里，我原版引用了zlzj2010仁兄的大作，原因是想让大家重复读一个例子，起到了两遍印象的作用。当然这有剽窃的嫌疑，不过能更好的说明XML的概念和应用，只好担起这个罪名。这里先向“zlzj2010”仁兄谢罪，版主如果认为不适，请删掉他。

[b:497325f3aa][size=18:497325f3aa]第二章分析XML[/size:497325f3aa][/b:497325f3aa]

[b:497325f3aa]2.2.1为什么要分析？[/b:497325f3aa]

首先我们生成XML的目的不是要将XML文档显示在计算机的屏幕上，它是作为一个标准的消息结构存在的，接受消息的一方根据需要取出XML文档是节点所标识的数据，然后再将这些数据作相应的处理，这才是XML文档存在的意义。

因此，之所以要分析XML是要从XML文档中获取节点数据。这，就是原因。

[b:497325f3aa]2.2.2 分析的方法[/b:497325f3aa]

一、 DOM(文档对象模型)方法：

W3C已于2000年11月13日推出了规范DOM level 2，DOM是用于访问和更新文档的接口，它与语言无关。因而可以用各种语言在各种平台上实现。这个接口表示了一棵可以访问和修改的树。注意这里DOM可以更新和访问的文档对象当然不仅限于XML文档，也可以是HTML。所以，DOM提供了一系列的访问、存取THML和XML文件的方法。利用DOM规范，可以实现DOM 文档和XML之间的相互转换，遍历、操作相应DOM文档的内容。可以说，要自由的操纵XML文件，就要用到DOM规范。

最后读者要记住的是：

１、 DOM接口表示了一棵树，我们要了解这棵树的结构。

２、我们要了解的是w3c为DOM接口提供的访问、存取对象的方法。

A、DOM树的结构：

树的节点类型描述

Document接口表示了DOM文档对象。

Element接口表示了可以表示文档中元素节点.如<姓名>李华</姓名>

Node接口表示了元素叶节点

NodeList接口表示了元素叶节点列表

Text接口表示了叶节点内容。如：李华

Comment接口表示了叶节点内容

元素节点和叶节点如果和XML对比来看，元素节点表示了名称标签和叶节点则表示了节点内容。如：

<?xml version="1.0" encoding="GB2312"?>

<学生花名册>

<学生性别 = "男">

<姓名>李华</姓名>

</学生>

</学生花名册>

其中：学生花名册、学生、姓名等表示是元素节点，而“李华”表示是叶节点。由此可见在DOM树操作过程如果我们想获取元素节点名称那么必须申明一个Element对象，如上例中“学生花名册”“学生”，如果想获取叶节点名称必须申明一个Node对象或者NodeList对象，如上例中的“姓名”，如果想获取叶节点内容必须申明一个Text对象。

可以看出，一个结构良好的XML文档和DOM树有着一一对应的关系。

B、DOM提供的方法：（http://java.sun.com/j2se/1.4.2/docs/api/index.html）

DOM提供的类：包含在rt.jar核心类中，存放位置在\jdk1.4\jre\lib\rt.jar在这个包里包含了几个至关重要的类，它们包括：

javax.xml.parsers.*：XML解析器接口，提供的DoumentBuilder和DocumentBuilderFactory组合可以对XML文件进行解析，转换成DOM文档。

org.w3c.dom.*：XML的DOM实现，提供了Document、DocumentType、Node、NodeList、Element、Text等接口，这些接口均是访问DOM文档所必须的。我们可以利用这些接口创建、遍历、修改DOM文档。

javax.xml.transform.dom和javax.xml.transform.stream：提供了DOMSource类和StreamSource类，可以用来将更新后的DOM文档写入生成的XML文件中

org.apache.crimson.tree.XmlDocument：写XML文件要用到。

示例１e:/test/XMLTest.java(文件目录可自行创建)

[code:1:497325f3aa]

import java.io.*; //Java基础包，包含各种IO操作

import java.util.*; //Java基础包，包含各种标准数据结构操作

import javax.xml.parsers.*; //XML解析器接口

import org.w3c.dom.*; //XML的DOM实现

import org.apache.crimson.tree.XmlDocument; //写XML文件要用到

public class XMLTest {

Vector student_Vector;

XMLTest() {

}

//为了保存多个学生信息，还得借助一个集合类(并不是单纯意义上的集合，JAVA中的集合是集合框架的概念，包含向量、列表、哈希表等），这里采用Vector向量类。定义在XMLTest测试类中，命名为student_Vector。然后定义两个方法readXMLFile和writeXMLFile，实现读写操作。代码如下：

private void readXMLFile(String inFile) throws Exception {

//为解析XML作准备，创建DocumentBuilderFactory实例,指定DocumentBuilder

DocumentBuilderFactory dbf = DocumentBuilderFactory.newInstance();

DocumentBuilder db = null;

try {

db = dbf.newDocumentBuilder();

}

catch (ParserConfigurationException pce) {

System.err.println(pce); //出异常时输出异常信息，然后退出，下同

System.exit(1);

}

Document doc = null;

try {

doc = db.parse(inFile);

}

catch (DOMException dom) {

System.err.println(dom.getMessage());

System.exit(1);

}

catch (IOException ioe) {

System.err.println(ioe);

System.exit(1);

}

//下面是解析XML的全过程，比较简单，先取根元素"学生花名册"

Element root = doc.getDocumentElement();

//取"学生"元素列表

NodeList students = root.getElementsByTagName("学生");

for (int i = 0; i < students.getLength(); i++) {

//依次取每个"学生"元素

Element student = (Element) students.item(i);

//创建一个学生的Bean实例

StudentBean studentBean = new StudentBean();

//取学生的性别属性

studentBean.setSex(student.getAttribute("性别"));

//取"姓名"元素，下面类同

NodeList names = student.getElementsByTagName("姓名");

//getLength()是NodeList的一个方法，返回列表的个数

if (names.getLength() == 1) {

//item()是NodeList的一个方法，返回列表中标号为INDEXTH的元素

Element e = (Element) names.item(0);

//getFirstChild()返回叶节点的第一个内容，如果没有返回为空

Text t = (Text) e.getFirstChild();

studentBean.setName(t.getNodeValue());

}

NodeList ages = student.getElementsByTagName("年龄");

if (ages.getLength() == 1) {

Element e = (Element) ages.item(0);

Text t = (Text) e.getFirstChild();

studentBean.setAge(Integer.parseInt(t.getNodeValue()));

}

NodeList phones = student.getElementsByTagName("电话");

if (phones.getLength() == 1) {

Element e = (Element) phones.item(0);

Text t = (Text) e.getFirstChild();

studentBean.setPhone(t.getNodeValue());

}

student_Vector.add(studentBean);

}

private void writeXMLFile(String outFile) throws Exception {

//为解析XML作准备，创建DocumentBuilderFactory实例,指定DocumentBuilder

DocumentBuilderFactory dbf = DocumentBuilderFactory.newInstance();

DocumentBuilder db = null;

try {

db = dbf.newDocumentBuilder();

}

catch (ParserConfigurationException pce) {

System.err.println(pce);

System.exit(1);

}

Document doc = null;

doc = db.newDocument();

//下面是建立XML文档内容的过程，先建立根元素"学生花名册"

Element root = doc.createElement("学生花名册");

//根元素添加上文档

doc.appendChild(root);

//取学生信息的Bean列表

for (int i = 0; i < student_Vector.size(); i++) {

//依次取每个学生的信息

StudentBean studentBean = (StudentBean) student_Vector.get(i);

//建立"学生"元素，添加到根元素

Element student = doc.createElement("学生");

student.setAttribute("性别", studentBean.getSex());

root.appendChild(student);

//建立"姓名"元素，添加到学生下面，下同

Element name = doc.createElement("姓名");

student.appendChild(name);

Text tName = doc.createTextNode(studentBean.getName());

name.appendChild(tName);

Element age = doc.createElement("年龄");

student.appendChild(age);

Text tAge = doc.createTextNode(String.valueOf(studentBean.

getAge()));

age.appendChild(tAge);

Element phone = doc.createElement("电话");

student.appendChild(phone);

Text tPhone = doc.createTextNode(studentBean.getPhone());

phone.appendChild(tPhone);

}

//把XML文档输出到指定的文件

FileOutputStream outStream = new FileOutputStream(outFile);

OutputStreamWriter outWriter = new OutputStreamWriter(outStream);

( (XmlDocument) doc).write(outWriter, "GB2312");

outWriter.close();

outStream.close();

}

//最后加入测试主函数，如下：

public static void main(String[] args) throws Exception {

//建立测试实例

XMLTest xmlTest = new XMLTest();

//初始化向量列表

xmlTest.student_Vector = new Vector();

System.out.println("开始读Input.xml文件");

xmlTest.readXMLFile("Input.xml");

System.out.println("读入完毕,开始写Output.xml文件");

xmlTest.writeXMLFile("Output.xml");

System.out.println("写入完成");

System.in.read();

}

[/code:1:497325f3aa]

导读：有了上面的基础知识后我们知道，所谓XML分析其实质就是创建一个DOM树对象将获取XML文档元素分析到这棵树中（具体如何分析到DOM树中这里我们可以不关心这个问题），通过访问这棵树的元素节点、叶节点等内容达到访问XML文档的目的。所以分析一个XML大致上要分以下几步骤：

１、创建一个DOM树对象：三步

DocumentBuilderFactory dbf = DocumentBuilderFactory.newInstance();//获得一个XML文件的解析器，参照以下文档可查看DocumentBuilderFactory类的方法。

http://java.sun.com/j2ee/1.4/docs/api/javax/xml/parsers/DocumentBuilderFactory.html - newDocumentBuilder()

DocumentBuilder db = null;// 解析XML文件生成DOM文档的接口类，以便访问DOM。

http://java.sun.com/j2ee/1.4/docs/api/javax/xml/parsers/DocumentBuilder.html

db = dbf.newDocumentBuilder();//创建一个新的初始化的DocumentBuilder对象，该对象用于创建一个新的DOM对象。

（DocumentBuilderFactory、DocumentBuilder两个类都包含在javax.xml.parsers.*）

Document document = builder.newDocument();//通过DOM文档的接口类创建一个新的DOM文档。

总结：获得解析器-à创建DOM接口类-à创建DOM文档

２、将XML文件分析到已建立的DOM树对象中

doc = db.parse(inFile);

parse是DocumentBuilder类提供的一种方法，用于解析指定的XML文档的内容并返回一个新的DOM文档对象。

其中inFile表示要分析的XML文件。

３、利用Document接口提供的方法访问DOM树，达到获取XML文档元素的目的。主要方法列表如下：

表一：Document接口提供的常用的方法

方法名描述返回值

createElement

(String tagName) 创建一个Element对象 Element

createTextNode(String data) 创建一个Text Node对象 Text

getDocumentElement() 获取DOM树的根节点 Element

getElementById

(String elementId) 根据elementId获取节点 Element

getElementsByTagName

(String tagname) 根据标识名获取节点 Element

表二：NodeList提供的常用方法

方法名描述返回值

getLength() 获取Node列表中元素的个数 int

item(int index) 按序号返回Node列表元素 Node

其它方法：http://java.sun.com/j2se/1.4.2/docs/api/index.html

示例２示例１中所用到的bean e:/test/StudentBean.java

[code:1:497325f3aa] public class StudentBean {

private String sex; //学生性别

private String name; //学生姓名

private int age; //学生年龄

private String phone; //电话号码

public void StudentBean()

{}

public void setSex(String s) {

sex = s;

}

public void setName(String s) {

name = s;

}

public void setAge(int a) {

age = a;

}

public void setPhone(String s) {

phone = s;

}

public String getSex() {

return sex;

}

public String getName() {

return name;

}

public int getAge() {

return age;

}

public String getPhone() {

return phone;

}

[/code:1:497325f3aa]

操作示例：

e:\test\>javac StudentBean.java

e:\test\>javac XMLTest.java

e:\test\>java XMLTest