分享
 
 
 

如何利用Xerces C++正确处理XML文档中的中文

王朝c/c++·作者佚名  2006-01-09
窄屏简体版  字體: |||超大  

如何利用Xerces C++正确处理XML文档中的中文

作者: 张志强

1. 背景介绍

Apache的Xerces C++是广大c/c++程序员非常喜欢使用的XML解析器之一。主要原因是其本身是一个开放源代码的项目而且提供不同平台下的库和源代码,故深受广大c/c++程序员的欢迎。

Xerces C++可以到以下网站下载:

1) http://xml.apache.org/

2) http://www.vckbase.com/tools

2. 问题描述

根据软件开发的要求,作者开发了一个文件特征识别软件,该软件可根据文件特有的特征识别出文件的类型。要求将文件特征保存在XML文件中。根据要求作者选择了Xerces C++作为XML解析器。但发现出了一个严重的问题:被解析的XML文件中不能包含中文,否则中文将不能正确的解析。作者研究了Xerces C++提供的例子程序,发现这些例子程序解析的结果也是错误的。只有DOMPrint程序例外。这肯定了Xerces C++本身是支持中文的。

XML编码:

<pdf ext="pdf" description="pdf文档">

<magic offset="0" type="string" value="\x25\x50\x44\x46" />

</pdf>

SAXPrint程序解析结果:<pdf ext="pdf" description="pdf文档">

<magic offset="0" type="string" value="\x25\x50\x44\x46"></magic>

</pdf>

为此,作者曾经在IBM的中文网站发现一篇文章《如何利用Xerces-C++解析包含中文字符的XML文档》并将其所描述的办法应用到程序中。但后来由于机器发生故障,硬盘上的数据全部丢失。不得不把以前做过的事重做一遍。因一时在IBM的网站上未找到上面提到的贴子,而且由于当时捡现成的没有用心研究其实现方法,故不得不仔细分析Xerces C++提供的源代码,自己动手解决中文问题。为了今后广大C++程序员碰到类似问题时不会像我一样痛苦。我也决定将自己的研究结果公布出来供大家分享。如果谁有更好的解决办法不要忘记告诉我。

3. 原因分析

上面的例子里,程序将“文档”两个中文字符解析成了乱码。但DOMPrint程序确能够正确解析。这表明Xerces C++对国际编码肯定是支持的。作者通过对DOMPrint和SAXPrint两个程序的比较跟踪发现问题的根本就是XMLFormatter设置的问题。由于SAX是基于事件的,大多数使用者只是简单的解析XML文档,XMLFormatter的使用比较麻烦。而DOMPrint也是通过标准的输出程序输出的屏幕上的,我们不能直接使用输出结果。

由于XML解析器解析的字符串都是XMLCh格式的,一个字符占用一个字节,而汉字字符确要占用两个字节。故若不做适当的转换,汉字的输出结果就变成乱码了。

4. 解决办法

找到原因就有解决问题的方法了,明显的需要一个把解析出来的XMLCh转换成普通的字符串。这是解析,如果我们需要自己写入XML文档也有一个把普通字符串转换为XMLCh的过程。我把这两个转换过程封装在了一个名为“XMLStringTranslate”的类中。使用如下:

void SAXMagicHandlers::startElement(const XMLCh* const name,AttributeList& attributes)

{

XMLStringTranslate stringTranslate("gb2312");

string strName=stringTranslate.translate(name);//得到可包含汉字字符的普通字符串

string strValue="pdf文档";

XMLCh * value= stringTranslate.translate(strValue.c_str());//将普通字符串转换成XMLCh串

}

采用XMLStringTranslate后的实际运行结果: <pdf ext="pdf" description="pdf文档">

<magic offset="0" type="string" value="\x25\x50\x44\x46"></magic>

</pdf>

特别说明:

由于为了防止内存释放问题,将普通字符串转换成XMLCh *的translate函数返回的是类的一个成员变量,故下面的代码是不允许的: XMLCh * value1= stringTranslate.translate("测试1");

XMLCh * value2= stringTranslate.translate("测试2");

这样使用的结果是value1和value2的值将是一样的(因为其内存地址根本就是一样的)。正确的使用方法是通过内存拷贝或则其他方法,将value1的值保存起来或则及时使用,否则value2将影响value1的值。

 
 
 
免责声明:本文为网络用户发布,其观点仅代表作者个人观点,与本站无关,本站仅提供信息存储服务。文中陈述内容未经本站证实,其真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
2023年上半年GDP全球前十五强
 百态   2023-10-24
美众议院议长启动对拜登的弹劾调查
 百态   2023-09-13
上海、济南、武汉等多地出现不明坠落物
 探索   2023-09-06
印度或要将国名改为“巴拉特”
 百态   2023-09-06
男子为女友送行,买票不登机被捕
 百态   2023-08-20
手机地震预警功能怎么开?
 干货   2023-08-06
女子4年卖2套房花700多万做美容:不但没变美脸,面部还出现变形
 百态   2023-08-04
住户一楼被水淹 还冲来8头猪
 百态   2023-07-31
女子体内爬出大量瓜子状活虫
 百态   2023-07-25
地球连续35年收到神秘规律性信号,网友:不要回答!
 探索   2023-07-21
全球镓价格本周大涨27%
 探索   2023-07-09
钱都流向了那些不缺钱的人,苦都留给了能吃苦的人
 探索   2023-07-02
倩女手游刀客魅者强控制(强混乱强眩晕强睡眠)和对应控制抗性的关系
 百态   2020-08-20
美国5月9日最新疫情:美国确诊人数突破131万
 百态   2020-05-09
荷兰政府宣布将集体辞职
 干货   2020-04-30
倩女幽魂手游师徒任务情义春秋猜成语答案逍遥观:鹏程万里
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案神机营:射石饮羽
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案昆仑山:拔刀相助
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案天工阁:鬼斧神工
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案丝路古道:单枪匹马
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案镇郊荒野:与虎谋皮
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案镇郊荒野:李代桃僵
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案镇郊荒野:指鹿为马
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案金陵:小鸟依人
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案金陵:千金买邻
 干货   2019-11-12
 
推荐阅读
 
 
 
>>返回首頁<<
 
靜靜地坐在廢墟上,四周的荒凉一望無際,忽然覺得,淒涼也很美
© 2005- 王朝網路 版權所有