关于HtmlStreamTokenizer

王朝java/jsp·作者佚名  2006-01-09
窄屏简体版  字體: |||超大  

HtmlStreamTokenizer 是纯java写的html 解析器,把html处理成三种类型tags, comments, and text,类试于StreamTokenizer class,但HtmlStreamTokenizer 处理的是html stream数据流,可以用来处理html文件,

下面是一个例子

import adc.parser.*;

//

HtmlStreamTokenizer tok = new HtmlStreamTokenizer(inputstream);

HtmlTag tag = new HtmlTag();

while (tok.nextToken() != HtmlStreamTokenizer.TT_EOF)

{

int ttype = tok.getTokenType();

if (ttype == HtmlStreamTokenizer.TT_TAG)

{

tok.parseTag(tok.getStringValue(), tag);

System.out.println("tag: " + tag.toString());

}

else if (ttype == HtmlStreamTokenizer.TT_TEXT)

{

System.out.println("text: " + tok.getStringValue());

}

else if (ttype == HtmlStreamTokenizer.TT_COMMENT)

{

System.out.println("comment: <!--" +

tok.getStringValue() + "-->");

}

}

下载地址

http://sourceforge.net/projects/htmltok/

 
 
 
免责声明:本文为网络用户发布,其观点仅代表作者个人观点,与本站无关,本站仅提供信息存储服务。文中陈述内容未经本站证实,其真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
 
 
© 2005- 王朝網路 版權所有 導航