分享
 
 
 

用JTidy转换html为xml

王朝html/css/js·作者佚名  2006-11-24
窄屏简体版  字體: |||超大  

最近要从网页中提取信息,想先把html转换成标准的xml格式,然后方便使用dom4j进行后续的分析,试用了不少现成的类库,JTidy、NekoHTML、HTML Parser、Jericho,最后还是使用了JTidy。

只是r8 snapshot还只是一个nightly builds,前面的r7版更已经是4年前的事了,这个项目就这样荒废了?可能是参与的人太少又或者是觉得已经成熟?

JTidy提供了一个语法检查器和标签补偿器,能够对各种乱七八糟的html进行修复,使之符合xhtml标准。

r8 snapshot相对于r7改变了一些参数的设置方法,特别是在字符编码处理上,用setInputEncoding和setOutputEncoding方法来确定输入和输出文件的字符编码,可以使用任何有效的Java编码名称,这就比以前的强多了。

总体上解析的结果还不错,只是有些地方还需要对生成文件进行手工调整,或者自己再编一段代码处理一下,已经不是大问题了。

一些常用的参数设置:

setAltText(java.lang.String altText)

加上默认的alt属性值

setBreakBeforeBR(boolean breakBeforeBR)

在换行<br />之前加一空行

setCharEncoding(int charencoding)

已废弃

setConfigurationFromFile(java.lang.String filename)

从文件中读取配置信息

setConfigurationFromProps(java.util.Properties props)

从properties中读取配置信息

setErrfile(java.lang.String errfile)

错误输出文件

setFixBackslash(boolean fixBackslash)

URL中用/取代setForceOutput(boolean forceOutput)

不管生成的xml是否有错,强制输出。

setHideComments(boolean hideComments)

结果中不生成注释

setInputEncoding(java.lang.String encoding)

输入编码

setLogicalEmphasis(boolean logicalEmphasis)

用em替代i,strong替代b

setMessageListener(TidyMessageListener listener)

加入一个TidyMessageListener监听器

setOnlyErrors(boolean onlyErrors)

只输出错误文件

setOutputEncoding(java.lang.String encoding)

输出编码

setPrintBodyOnly(boolean bodyOnly)

只输出body中的部分

setRepeatedAttributes(int repeatedAttributes)

重复属性的处理

setSpaces(int spaces)

每行前的空格数,就是缩进格式

setTidyMark(boolean tidyMark)

是否生成tidy标记

setTrimEmptyElements(boolean trimEmpty)

不输出空元素

setUpperCaseAttrs(boolean upperCaseAttrs)

属性变大写

setUpperCaseTags(boolean upperCaseTags)

标记变大写

setWraplen(int wraplen)

多长换行

setXHTML(boolean xhtml)

输出xhtml

setXmlOut(boolean xmlOut)

输出xml

setXmlPi(boolean xmlPi)

文件头输出xml标记

setXmlSpace(boolean xmlSpace)

加入xml名字空间属性

使用方法极为easy,定义输入输出流,用tidy.parse()转换就行了:

BufferedInputStream in;

FileOutputStream out;

Tidy tidy = new Tidy();

tidy.setConfigurationFromFile(configFileName);//配置文件,写入上面的设置参数

try {

in = new BufferedInputStream(new FileInputStream(srcFileName));

out = new FileOutputStream(outFileName);

tidy.parse(in, out);

} catch (IOException e) {

System.out.println(e);

}

 
 
 
免责声明:本文为网络用户发布,其观点仅代表作者个人观点,与本站无关,本站仅提供信息存储服务。文中陈述内容未经本站证实,其真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
2023年上半年GDP全球前十五强
 百态   2023-10-24
美众议院议长启动对拜登的弹劾调查
 百态   2023-09-13
上海、济南、武汉等多地出现不明坠落物
 探索   2023-09-06
印度或要将国名改为“巴拉特”
 百态   2023-09-06
男子为女友送行,买票不登机被捕
 百态   2023-08-20
手机地震预警功能怎么开?
 干货   2023-08-06
女子4年卖2套房花700多万做美容:不但没变美脸,面部还出现变形
 百态   2023-08-04
住户一楼被水淹 还冲来8头猪
 百态   2023-07-31
女子体内爬出大量瓜子状活虫
 百态   2023-07-25
地球连续35年收到神秘规律性信号,网友:不要回答!
 探索   2023-07-21
全球镓价格本周大涨27%
 探索   2023-07-09
钱都流向了那些不缺钱的人,苦都留给了能吃苦的人
 探索   2023-07-02
倩女手游刀客魅者强控制(强混乱强眩晕强睡眠)和对应控制抗性的关系
 百态   2020-08-20
美国5月9日最新疫情:美国确诊人数突破131万
 百态   2020-05-09
荷兰政府宣布将集体辞职
 干货   2020-04-30
倩女幽魂手游师徒任务情义春秋猜成语答案逍遥观:鹏程万里
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案神机营:射石饮羽
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案昆仑山:拔刀相助
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案天工阁:鬼斧神工
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案丝路古道:单枪匹马
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案镇郊荒野:与虎谋皮
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案镇郊荒野:李代桃僵
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案镇郊荒野:指鹿为马
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案金陵:小鸟依人
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案金陵:千金买邻
 干货   2019-11-12
 
推荐阅读
 
 
 
>>返回首頁<<
 
靜靜地坐在廢墟上,四周的荒凉一望無際,忽然覺得,淒涼也很美
© 2005- 王朝網路 版權所有