我们知道,XML文件的开头就以XML声明开始,该声明中指明了XML的版本、编码方式等。比如下面的代码:
<?xml version="1.0" encoding="GB2312"?>
这里指定了编码方式为国标2312码。XML软件不再使用HTML等的字符猜测方式处理文档,它要求文档以明确的方式指定其所使用的字符集(即编码方式)。XML为什么需要知道文档的字符集呢?因为象'<'、'>'、'/'、'['、']'等符号,本来是XML规范中所保留的符号。而双字节编码的汉字,有可能出现这种情况,如某个汉字的编码A是xy,而y恰巧是 '<'的编码。假如XML软件不知道文档的字符集,那么XML分析器就会错误地将汉字A的低字节y当作是某个标记的开始符号。所以XML分析器必须知道XML文档的编码方式。只有知道它所属的字符集,才不会出现将某个完整的文字编码断开为单个字节,从而导致某些字节解码成错误的字符。 举个非常简单的例子,一个XML文档有如下的一段中文文字:
<中文>巾帼英雄</中文>
如果该文件保存为Unicode格式,则其内部编码为:
FF FE 3C 00 2D 4E 87 65 3E 00 FE 5D 3C 5E F1 82
C4 96 3C 00 2F 00 2D 4E 87 65 3E 00
我们可以看到"帼"字的 Unicode 编码为 (3C 5E),高字节为3C(与尖括号"<"的
ASCII码相同),象这样的汉字有许多。同样的这段文字,如果该文件保存为UTF-8格
式,则其内部编码为:
EF BB BF 3C E4 B8 AD E6 96 87 3E E5 B7 BE E5 B8
BC E8 8B B1 E9 9B 84 3C 2F E4 B8 AD E6 96 87 3E
单对用于标记的尖括号"<",在不同的编码格式下它有不同的编码值。如果分析器简单地按字节流方式,逐字节逐字节地进行处理,那么XML分析器如何识别这个尖括号 "<"就存在问题。尖括号"<"在不同字符集的编码不同。更糟糕的是,有些编码方式的某些字符,其编码的高字节/低字节可能为尖括号"<"的ASCII码,在这种情况下,分析器就会把这些字节误认为是尖括号"<"。
上面只是举了一个关于尖括号"<"的简单例子,还有许许多多其它的问题,这些都说明分析器不可能按这种字节流方式来处理。对于任何的XML文档,XML软件工具(包括分析器)必须知道该XML的文档的字符编码方式。
分析器比较常见的处理方法是,将所有所有的编码先转换到Unicode,在分析器内部完全针对Unicode进行处理。如SGML/XML分析器符号处理(SP)内部就是这样处理的。XML应该可以支持中文。因为W3C的XML1.0(1998年2月10日)规范里规定所有的XML处理器必须接受ISO 10646中的UTF-8和UTF-16编码,所以符合 XML 规范的软件工具一定都支持 ISO10646编码(这个字符集也就是Unicode)。而该编码是一组庞大的字符集,其中包含了 GB2312 编码及 Big5 编码中所有的字符。其实无论什么编码方式,如果统一转成UTF-8编码,则任何一个符合XML规范的软件工具都可以处理它。
之所以有中文问题,只是因为 XML 的应用刚刚起步,大多数 XML 软件工具目前都没有考虑到中文,或者说没有针对中文编码进行过测试。
同时需要注意的是,XML对中文的支持不只是指内容可以是中文,也不只是指支持中文标记(tag), 应该是任何元素名称、属性名称等也可以是中文。