IHtmlViewer元素处理三函数分析
编写:陈希(Alan Chen)
时间:2004年5月13日
平台:BREW 2.0
IHtmlViewer接口可以处理HTML页面,它所能支持的HTML特性如下:
超文本链接
简单表单:文本输入、列表、提交按钮、多项选择框、单选按钮
嵌入的图像(BMP)
水平排列:居左、居中、居右
粗体文本
大字体文本
文本颜色
不支持的特性如下:
Java小程序
框架
脚本
背景颜色
CSS
Unicode编码
HTML页面元素
先分析一下一个HTML页面:
<html>
<HEAD>
<META http-equiv=Content-Type content="text/html; charset=utf-8">
</HEAD>
<body>
<form method="GET" action="submit" name="test">
<input name="fid" type="hidden" id="fid" value="5">number
<input type="text" name="number" size="15" id="number" value="12345678" ><p>
<input type="submit" name="submit" value="send">
</form><p>
<a HREF="index.htm">mainmenu</a><p>
</body>
</html>
其中像html, body, meta, form, input等都是一个元素,同时每个元素都可能含有字符串文本,每一个元素都或多或少的含有属性。
元素处理函数
IHtmlViewer接口有三个处理元素的函数,分别如下:
IHTMLVIEWER_FindElem : 根据给定的元素名称和排列顺序查找元素
IHTMLVIEWER_GetElemText : 获取指定元素的文本内容
IHTMLVIEWER_GetAttrValue : 获得指定元素的某个属性值
原型如下:
int32 IHTMLVIEWER_FindElem(IHtmlViewer * pIHtmlViewer,const char * pszElem,int nIndex)
参数:
pIHtmlViewer指向IHtmlViewer接口对象
pszElem存储要查找的元素名称,是一个零结束符的ASCII字符串,大小写不敏感,如"input"
nIndex指出该元素的排列顺序,(0 => first element, 1=> second element, and so on),比如同样的"input"元素就有三个,那么当
nIndex=0,表示第一个,nIndex=1,表示第二个,依次类推
返回值:
返回一个非负整数,表示该元素在文档中的位置
返回IHTMLVIEWER_NOTFOUND,表示指定的元素未发现
返回IHTMLVIEWER_BADELEMENT,表示pszElem是一个不满足标准规范的元素名,只有经过标准规范认证的元素才能被识别
int32 IHTMLVIEWER_GetElemText(IHtmlViewer * pIHTMLViewer,int32 nElemPos,char * pchBuf,int32 cbBuf)
参数:
pIHtmlViewer指向IHtmlViewer接口对象
nElemPos为文档中元素的位置。该值可由IHTMLVIEWER_FindElem()返回值得到
pchBuf指向buffer的首地址,用来保存元素文本字符串(零结束符)
cbBufbuffer的字节大小
返回值:
返回IHTMLVIEWER_BADELEMENT为失败,表示nElemPos值无效
返回非零非负的整数值,表示结果字符串的字节长度
返回0,表示是一个空元素,或者该元素不包含文本
返回一个比cbBuf大的值,但只有cbBuf个字节写入buffer中
int32 IHTMLVIEWER_GetAttrValue(IHtmlViewer * pIHTMLViewer,int32 monopoles,const char * pszAttr,char * pchBuf,int32 cbBuf)
参数:
pIHtmlViewer指向IHtmlViewer接口对象
nElemPos为文档中元素的位置。该值可由IHTMLVIEWER_FindElem()返回值得到
pszAttr存储要查找的属性名称,是一个零结束符的ASCII字符串,大小写不敏感,如"value"
pchBuf指向buffer的首地址,用来保存元素文本字符串(零结束符)
cbBufbuffer的字节大小
返回值:
返回IHTMLVIEWER_NOTFOUND,表示指定的元素未发现
返回IHTMLVIEWER_BADELEMENT,表示pszElem是一个不满足标准规范的元素名,只有经过标准规范认证的元素才能被识别
返回IHTMLVIEWER_BADATTR,表示pszAttr不是一个规范的属性名称,只有经过标准规范认证的属性才能被识别
返回IHTMLVIEWER_NOVALUE,表示属性是标准规范的,但是确没有赋值
返回一个非负整数,表示拷贝到pchBuf中的字符串字节长度
返回一个比cbBuf大的值,但只有cbBuf个字节写入buffer中
应用例子
比如以上面的HTML页面为例,那么下面的代码的含义如下:
int n = IHTMLVIEWER_FindElem(pApp->m_pHTMLViewer, "INPUT", 1);
代码的含义是:查找当前的HTML页面中是否有"input"元素,并且排在第二个?返回的结果表示有这样的元素。
char chBuf[100];
int n1 = IHTMLVIEWER_GetElemText(pApp->m_pHTMLViewer, n, chBuf, 100);
代码的含义是:查找上述的"input"元素的文本内容。返回的结果为0,表示没有任何文本内容。
int n2 = IHTMLVIEWER_GetAttrValue(pApp->m_pHTMLViewer, n, "VALUE", chBuf, 100);
代码的含义是:查找上述的"input"元素中的"value"属性的值。返回的结果保存在chBuf中,是"12345678",n2的值是字符串的长度。
总结
我所研究的这三个函数的作用,主要是为了根据程序的需要分析HTML页面,比方对于表单的深入分析、对于链接的分析等等,这三个函数将有
利于编写灵活的分析HTML页面的程序,可以更好的利用IHtmlViewer接口的功能。