XML编程实例(一)

前段时间，由于工作的需要，利用到了XML，所以对其进行了一些简单的研究。在此愿把一些心得写出来，与各位分享，不对的地方还望多多包涵。

1.什么是 XML?

首先，我想各位应该都已经大概知道什么是XML了。如果，你对什么是XML还没有一个概念的话，你可以看一些相关的材料，我就不多说了。

2.为什么要用XML?

其实，刚开始我也不是很明白，后来在工作中才慢慢意识到。首先，我写的程序需要传送很多的数据结构，比如表格，目录树等等。要在以往，我想自己会去定义一个数据结构。这是相当麻烦的一件事情，而且当这个结构需要不断更新，有很大的灵活性时，那就更让人头疼了，更别说通用性和跨平台了。这时候，XML对树形结构数据的强大表达能力就显示出来了。比如一个表格数据。

<TABLE>

<TR>

</TR>

<TR>

</TR>

</TABLE>

以上的描述，很简单明了，通用性和跨平台是很显见的。当然，代价也是有的，那就是用于表达信息的数据变大了。这就要求你在性能和可扩展性之间进行权衡了。

再次，XML 现在已经开始流行起来了，其前身（说类似更合适）HTML就是一个明证，更不用说微软的.NET计划就是架构在XML上面的。

最后，因为XML的流行，已经有了越来越多的开发工具(SDK)，比如XML Parser就有很多种。利用这些工具，我们就可以更快的进行开发，从而减少不必要的麻烦----比如自己定义一套规范，还要开发相关的操作工具等等，麻烦，而且不易与外界进行交流。

3．使用什么开发工具

这里，我们面向的是程序员，犹指VC++的程序员。我们的选择很多，不过选择Microsoft 的XML Parser SDK应该是不错的，至少文档很详尽（在这一点上，微软做得一直不错）。当然还有很多别的选择，比如Apache.org上的eXcel。更详细的信息，请看www.ibm.com/xml。

基本概念

XML的编程模式

前面我们说过，XML对树的表达能力是很强大的，我们完全可以把一个XML文档用一个树来表达，对于文档的操作就是对树的操作，这就是DOM（文档对象模型）。然而，DOM对XML文档的处理有许多的毛病，比如速度慢等，于是有了另一种模型SAX.

下面，我们分别详细的对这两种模型进行说明。

DOM模型

DOM模型需要对整个XML文档进行扫描，然后解析生成一个对象树，XML文档中的所有标签和属性都是用对象来表示，而不是一个孤立的文本。因为是对象，所以有一个上下文，有一个包含关系。

基本是这样的

Doc

Element

Note

Text

Doc是指整个树对象，包括了基本的属性。

Element是指的一个标签，可以包含属性(Attribute)和子节点（ChilNode）的节点对象。

Note也是一个标签，不过不能包含子节点和属性。

Text就是简单的文本。

既然是树操作，就要包含节点的添、删和浏览等基本的功能。利用这些功能，就可以完全对XML文档进行操作了。对象级的操作，比起直接对文本操作要容易得多，也要直观得多。

SAX模型

我们说了，DOM模型的缺点就是速度慢，和浪费内存。因为在许多的情况下，我们并不需要对整个的XML文档进行扫描。而仅仅需要其中的某些信息，这时候就没有必有生成一个庞大的树结构了，特别是当文件很大的时候。

SAX模型，就是对XML文档边扫描，边处理。类似于许多的程序设计思想，SAX是事件驱动的。这个意思是说，它可以在处理的过程中生成不同的消息，并调用相应的函数进行处理。并可以在中途退出，这一点非常重要。比如网页在下载的过程中，就可以一边下载，一边把已下部分进行解析显示。

根据不同的情况，我们采用不同的方法进行处理。

应该说明的是，XML的这些模型都是标准化组织定义的，而不是某个公司的规范。所以，程序的移植应该比较的方便。

XML编程举例

由于Microft XML Parser的文档比较的全面，而且和Visual C++的结合比较紧密，我们这里就以这样的组合来进行举例，对于别的语言，可以举一反三。

对Microsoft XML Parser的一点说明：

所有的对象都是COM对象。为此，我们使用SmartPointer来减少AddRef,ReleaseRef的麻烦。同样，因为使用的字符串统一是BSTR类型的，内存的释放也是一个比较麻烦的事情，所以用_bstr_t 类来对BSTR数据类型进行封装，可以减少不必要的麻烦。

..…待续 ……