首先得向大家申明,在分析XML这篇里,我原版引用了zlzj2010仁兄的大作,原因是想让大家重复读一个例子,起到了两遍印象的作用。当然这有剽窃的嫌疑,不过能更好的说明XML的概念和应用,只好担起这个罪名。这里先向“zlzj2010”仁兄谢罪,版主如果认为不适,请删掉他。
[b:497325f3aa][size=18:497325f3aa]第二章分析XML[/size:497325f3aa][/b:497325f3aa]
[b:497325f3aa]2.2.1为什么要分析?[/b:497325f3aa]
首先我们生成XML的目的不是要将XML文档显示在计算机的屏幕上,它是作为一个标准的消息结构存在的,接受消息的一方根据需要取出XML文档是节点所标识的数据,然后再将这些数据作相应的处理,这才是XML文档存在的意义。
因此,之所以要分析XML是要从XML文档中获取节点数据。这,就是原因。
[b:497325f3aa]2.2.2 分析的方法[/b:497325f3aa]
一、 DOM(文档对象模型)方法:
W3C已于2000年11月13日推出了规范DOM level 2,DOM是用于访问和更新文档的接口,它与语言无关。因而可以用各种语言在各种平台上实现。这个接口表示了一棵可以访问和修改的树。注意这里DOM可以更新和访问的文档对象当然不仅限于XML文档,也可以是HTML。所以,DOM提供了一系列的访问、存取THML和XML文件的方法。利用DOM规范,可以实现DOM 文档和XML之间的相互转换,遍历、操作相应DOM文档的内容。可以说,要自由的操纵XML文件,就要用到DOM规范。
最后读者要记住的是:
1、 DOM接口表示了一棵树,我们要了解这棵树的结构。
2、 我们要了解的是w3c为DOM接口提供的访问、存取对象的方法。
A、DOM树的结构:
树的节点类型 描述
Document接口 表示了DOM文档对象。
Element接口 表示了可以表示文档中元素节点.如<姓名>李华</姓名>
Node接口 表示了元素叶节点
NodeList接口 表示了元素叶节点列表
Text接口 表示了叶节点内容。如:李华
Comment接口 表示了叶节点内容
Comment接口 表示了叶节点内容
元素节点和叶节点如果和XML对比来看,元素节点表示了名称标签和叶节点则表示了节点内容。如:
<?xml version="1.0" encoding="GB2312"?>
<学生花名册>
<学生 性别 = "男">
<姓名>李华</姓名>
</学生>
</学生花名册>
其中:学生花名册、学生、姓名等表示是元素节点,而“李华”表示是叶节点。由此可见在DOM树操作过程如果我们想获取元素节点名称那么必须申明一个Element对象,如上例中“学生花名册”“学生”,如果想获取叶节点名称必须申明一个Node对象或者NodeList对象,如上例中的“姓名”,如果想获取叶节点内容必须申明一个Text对象。
可以看出,一个结构良好的XML文档和DOM树有着一一对应的关系。
B、DOM提供的方法:(http://java.sun.com/j2se/1.4.2/docs/api/index.html)
DOM提供的类:包含在rt.jar核心类中,存放位置在\jdk1.4\jre\lib\rt.jar在这个包里包含了几个至关重要的类,它们包括:
javax.xml.parsers.*:XML解析器接口,提供的DoumentBuilder和DocumentBuilderFactory组合可以对XML文件进行解析,转换成DOM文档。
org.w3c.dom.*:XML的DOM实现,提供了Document、DocumentType、Node、NodeList、Element、Text等接口,这些接口均是访问DOM文档所必须的。我们可以利用这些接口创建、遍历、修改DOM文档。
javax.xml.transform.dom和javax.xml.transform.stream:提供了DOMSource类和StreamSource类,可以用来将更新后的DOM文档写入生成的XML文件中
org.apache.crimson.tree.XmlDocument:写XML文件要用到。
示例1e:/test/XMLTest.java(文件目录可自行创建)
[code:1:497325f3aa]
import java.io.*; //Java基础包,包含各种IO操作
import java.util.*; //Java基础包,包含各种标准数据结构操作
import javax.xml.parsers.*; //XML解析器接口
import org.w3c.dom.*; //XML的DOM实现
import org.apache.crimson.tree.XmlDocument; //写XML文件要用到
public class XMLTest {
Vector student_Vector;
XMLTest() {
}
//为了保存多个学生信息,还得借助一个集合类(并不是单纯意义上的集合,JAVA中的集合是集合框架的概念,包含向量、列表、哈希表等),这里采用Vector向量类。定义在XMLTest测试类中,命名为student_Vector。然后定义两个方法readXMLFile和writeXMLFile,实现读写操作。代码如下:
private void readXMLFile(String inFile) throws Exception {
//为解析XML作准备,创建DocumentBuilderFactory实例,指定DocumentBuilder
DocumentBuilderFactory dbf = DocumentBuilderFactory.newInstance();
DocumentBuilder db = null;
try {
db = dbf.newDocumentBuilder();
}
catch (ParserConfigurationException pce) {
System.err.println(pce); //出异常时输出异常信息,然后退出,下同
System.exit(1);
}
Document doc = null;
try {
doc = db.parse(inFile);
}
catch (DOMException dom) {
System.err.println(dom.getMessage());
System.exit(1);
}
catch (IOException ioe) {
System.err.println(ioe);
System.exit(1);
}
//下面是解析XML的全过程,比较简单,先取根元素"学生花名册"
Element root = doc.getDocumentElement();
//取"学生"元素列表
NodeList students = root.getElementsByTagName("学生");
for (int i = 0; i < students.getLength(); i++) {
//依次取每个"学生"元素
Element student = (Element) students.item(i);
//创建一个学生的Bean实例
StudentBean studentBean = new StudentBean();
//取学生的性别属性
studentBean.setSex(student.getAttribute("性别"));
//取"姓名"元素,下面类同
NodeList names = student.getElementsByTagName("姓名");
//getLength()是NodeList的一个方法,返回列表的个数
if (names.getLength() == 1) {
//item()是NodeList的一个方法,返回列表中标号为INDEXTH的元素
Element e = (Element) names.item(0);
//getFirstChild()返回叶节点的第一个内容,如果没有返回为空
Text t = (Text) e.getFirstChild();
studentBean.setName(t.getNodeValue());
}
NodeList ages = student.getElementsByTagName("年龄");
if (ages.getLength() == 1) {
Element e = (Element) ages.item(0);
Text t = (Text) e.getFirstChild();
studentBean.setAge(Integer.parseInt(t.getNodeValue()));
}
NodeList phones = student.getElementsByTagName("电话");
if (phones.getLength() == 1) {
Element e = (Element) phones.item(0);
Text t = (Text) e.getFirstChild();
studentBean.setPhone(t.getNodeValue());
}
student_Vector.add(studentBean);
}
}
private void writeXMLFile(String outFile) throws Exception {
//为解析XML作准备,创建DocumentBuilderFactory实例,指定DocumentBuilder
DocumentBuilderFactory dbf = DocumentBuilderFactory.newInstance();
DocumentBuilder db = null;
try {
db = dbf.newDocumentBuilder();
}
catch (ParserConfigurationException pce) {
System.err.println(pce);
System.exit(1);
}
Document doc = null;
doc = db.newDocument();
//下面是建立XML文档内容的过程,先建立根元素"学生花名册"
Element root = doc.createElement("学生花名册");
//根元素添加上文档
doc.appendChild(root);
//取学生信息的Bean列表
for (int i = 0; i < student_Vector.size(); i++) {
//依次取每个学生的信息
StudentBean studentBean = (StudentBean) student_Vector.get(i);
//建立"学生"元素,添加到根元素
Element student = doc.createElement("学生");
student.setAttribute("性别", studentBean.getSex());
root.appendChild(student);
//建立"姓名"元素,添加到学生下面,下同
Element name = doc.createElement("姓名");
student.appendChild(name);
Text tName = doc.createTextNode(studentBean.getName());
name.appendChild(tName);
Element age = doc.createElement("年龄");
student.appendChild(age);
Text tAge = doc.createTextNode(String.valueOf(studentBean.
getAge()));
age.appendChild(tAge);
Element phone = doc.createElement("电话");
student.appendChild(phone);
Text tPhone = doc.createTextNode(studentBean.getPhone());
phone.appendChild(tPhone);
}
//把XML文档输出到指定的文件
FileOutputStream outStream = new FileOutputStream(outFile);
OutputStreamWriter outWriter = new OutputStreamWriter(outStream);
( (XmlDocument) doc).write(outWriter, "GB2312");
outWriter.close();
outStream.close();
}
//最后加入测试主函数,如下:
public static void main(String[] args) throws Exception {
//建立测试实例
XMLTest xmlTest = new XMLTest();
//初始化向量列表
xmlTest.student_Vector = new Vector();
System.out.println("开始读Input.xml文件");
xmlTest.readXMLFile("Input.xml");
System.out.println("读入完毕,开始写Output.xml文件");
xmlTest.writeXMLFile("Output.xml");
System.out.println("写入完成");
System.in.read();
}
}
[/code:1:497325f3aa]
导读:有了上面的基础知识后我们知道,所谓XML分析其实质就是创建一个DOM树对象将获取XML文档元素分析到这棵树中(具体如何分析到DOM树中这里我们可以不关心这个问题),通过访问这棵树的元素节点、叶节点等内容达到访问XML文档的目的。所以分析一个XML大致上要分以下几步骤:
1、 创建一个DOM树对象:三步
DocumentBuilderFactory dbf = DocumentBuilderFactory.newInstance();//获得一个XML文件的解析器,参照以下文档可查看DocumentBuilderFactory类的方法。
http://java.sun.com/j2ee/1.4/docs/api/javax/xml/parsers/DocumentBuilderFactory.html - newDocumentBuilder()
DocumentBuilder db = null;// 解析XML文件生成DOM文档的接口类,以便访问DOM。
http://java.sun.com/j2ee/1.4/docs/api/javax/xml/parsers/DocumentBuilder.html
db = dbf.newDocumentBuilder();//创建一个新的初始化的DocumentBuilder对象,该对象用于创建一个新的DOM对象。
(DocumentBuilderFactory、DocumentBuilder两个类都包含在javax.xml.parsers.*)
Document document = builder.newDocument();//通过DOM文档的接口类创建一个新的DOM文档。
总结:获得解析器-à创建DOM接口类-à创建DOM文档
2、 将XML文件分析到已建立的DOM树对象中
doc = db.parse(inFile);
parse是DocumentBuilder类提供的一种方法,用于解析指定的XML文档的内容并返回一个新的DOM文档对象。
其中inFile表示要分析的XML文件。
3、 利用Document接口提供的方法访问DOM树,达到获取XML文档元素的目的。主要方法列表如下:
表一:Document接口提供的常用的方法
方法名 描述 返回值
createElement
(String tagName) 创建一个Element对象 Element
createTextNode(String data) 创建一个Text Node对象 Text
getDocumentElement() 获取DOM树的根节点 Element
getElementById
(String elementId) 根据elementId获取节点 Element
getElementsByTagName
(String tagname) 根据标识名获取节点 Element
表二:NodeList提供的常用方法
方法名 描述 返回值
getLength() 获取Node列表中元素的个数 int
item(int index) 按序号返回Node列表元素 Node
其它方法:http://java.sun.com/j2se/1.4.2/docs/api/index.html
示例2示例1中所用到的bean e:/test/StudentBean.java
[code:1:497325f3aa] public class StudentBean {
private String sex; //学生性别
private String name; //学生姓名
private int age; //学生年龄
private String phone; //电话号码
public void StudentBean()
{}
public void setSex(String s) {
sex = s;
}
public void setName(String s) {
name = s;
}
public void setAge(int a) {
age = a;
}
public void setPhone(String s) {
phone = s;
}
public String getSex() {
return sex;
}
public String getName() {
return name;
}
public int getAge() {
return age;
}
public String getPhone() {
return phone;
}
}
[/code:1:497325f3aa]
操作示例:
e:\test\>javac StudentBean.java
e:\test\>javac XMLTest.java
e:\test\>java XMLTest