分享
 
 
 

DOM应用---遍历网页中的元素

王朝vc·作者佚名  2006-01-17
窄屏简体版  字體: |||超大  

DOM应用---遍历网页中的元素

作者:杨老师

下载源代码

一、摘要

在我们编写的程序中,如果想要实现对浏览器打开的网页进行监视、模拟操纵、动态提取用户输入、动态修改......等功能,那么请你抽出宝贵的时间,继续往下阅读。本文介绍的知识和示例程序都是围绕如何遍历

HTML 中的表单(form)并枚举出表单域的属性为目标的,对于网页中的其它元素,比如图象、连接、脚本等等,应用同样的方法都可以轻松实现。

二、网页的文档层次结构

IE 浏览器,采用

DOM(文档对象模型)来管理网页的数据。它通过一个容器(IWebBrowser2/IHTMLWindow2)来装载网页文档(IHTMLDocument2),而一个文档,又可以由

0 或多个贞(frame)组成,管理这些贞的接口叫“框架集合(IHTMLFramesCollection2)”,而每个贞的容器又是IHTMLWindow2,和IWebBrowser2一样,它也装载着各自的文档(IHTMLDocument2)。因此,我们的第一个任务,就是想方设法能够得到IHTMLDocument2的接口。因为文档可能包含贞,而贞又包含着子文档,子文档可能再包含贞......,如此要得到所有的文档,这里有一个递归遍历的处理过程。

得到文档(IHTMLDocument2)后,下一步任务就是要设法取得表单了(IHTMLFormElement)。因为在一个文档中可以包含

0 或多个表单(form),而管理这些表单的又是一个表单集合(IHTMLElementCollection),所以必须先得到集合,然后再枚举出所有的表单条目了。

得到表单(IHTMLFormElement)后,接下来的事情就简单了,逐个提取表单中的元素(也叫表单域

IHTMLInputElement)就可以读写这些域的属性了。

说了半天,我估计初次接触的朋友一定没有听懂:( 呵呵,还是用图的方式表示一下吧,这样比较清晰一些。

三、程序实现

<1> 取得

IHTMLDocument2 的接口指针。根据IE浏览器的运行方式,有多种不同的方式可以获取文档指针。

<1.1> 如果你在程序中使用MFC的

CHtmlView 视来浏览网页。

取得文档的方法最简单,调用

CHtmlView::GetHtmlDocument() 函数。

<1.2> 如果你的程序中使用了“Web

浏览器” 的ActiveX 控件。

取得文档的方法也比较简单,调用

CWebBrowser2::GetDocument() 函数。

<1.3> 如果你的程序是用 ATL 写的 ActiveX

控件。

那么需要调用 IOleClientSite::GetContainer

得到 IOleContainer 接口,然后就可以通过

QueryInterface() 查询得到 IHTMLDocument2

的接口。主要代码如下:

CComPtr spContainer;

m_spClientSite-GetContainer( &spContainer );

CComQIPtr spDoc = spContainer;

if ( spDoc )

{

// 已经得到了 IHTMLDocument2 的接口指针

}

<1.4> 如果你的程序是用 MFC 写的

ActiveX 控件。

那么需要调用

COleControl::GetClientSite() 得到 IOleContainer

接口,然后的操作和<1.3>是一致的了。

<1.5> IE 浏览器作为独立的进程正在运行。

每个运行的浏览器(IE

和 资源浏览器)都会在 ShellWindows 中进行登记,因此我们要通过

IShellWindows 取得实例(示例程序中使用的就是这个方法)。主要代码如下:

#include #include void FindFromShell() {CComPtr spShellWin;HRESULT hr = spShellWin.CoCreateInstance( CLSID_ShellWindows );if ( FAILED( hr ) ) return;long nCount=0;spShellWin-get_Count(&nCount); // 取得浏览器实例个数for(long i=0; i<nCount; i++) { CComPtr<nCount; i++){CComPtr< IDispatch ><nCount; i++) { CComPtr spDisp;hr=spShellWin-Item(CComVariant( i ), &spDisp );if ( FAILED( hr ) ) continue;CComQIPtr spBrowser = spDisp;if ( !spBrowser ) continue;spDisp.Release();hr = spBrowser-get_Document( &spDisp );if ( FAILED ( hr ) ) continue;CComQIPtr spDoc = spDisp;if ( !spDoc ) continue;// 程序运行到此,已经找到了 IHTMLDocument2 的接口指针}} <1.6> IE 浏览器控件被一个进程包装在一个子窗口中。那么你首先要得到那个进程的顶层窗口句柄(使用 FindWindow() 函数,或其它任何可行的方法),然后枚举所有子窗口,通过判断窗口类名是否是“Internet Explorer_Server”,从而得到浏览器的窗口句柄,再向窗口发消息取得文档的接口指针。主要代码如下:#include #include #include #pragma comment ( lib, "oleacc" )BOOL CALLBACK EnumChildProc(HWND hwnd,LPARAM lParam){TCHAR szClassName[100];::GetClassName( hwnd, &szClassName, sizeof(szClassName) );if ( _tcscmp( szClassName, _T("Internet Explorer_Server") ) == 0 ){*(HWND*)lParam = hwnd;return FALSE;// 找到第一个 IE 控件的子窗口就停止}elsereturn TRUE;// 继续枚举子窗口};void FindFromHwnd(HWND hWnd) {HWND hWndChild=NULL;::EnumChildWindows( hWnd, EnumChildProc, (LPARAM)&hWndChild );if(NULL == hWndChild)return;UINT nMsg = ::RegisterWindowMessage( _T("WM_HTML_GETOBJECT") );LRESULT lRes;::SendMessageTimeout( hWndChild, nMsg, 0L, 0L, SMTO_ABORTIFHUNG, 1000, (DWORD*) &lRes );CComPtr spDoc;HRESULT hr = ::ObjectFromLresult ( lRes, IID_IHTMLDocument2, 0 , (LPVOID *) &spDoc );if ( FAILED ( hr ) )return;// 程序运行到此,已经找到了 IHTMLDocument2 的接口指针}<2> 得到了 IHTMLDocument2 接口指针后,如果网页是单贞的,那么转第<4>步骤。如果是多贞(有子框架)则还需要遍历所有的子框架。这些子框架(IHTMLWindow2),被保存在集合中(IHTMLFramesCollection2),取得集合指针的方法比较简单,取属性 IHTMLDocument2::get_frames()。 <3> 首先取得子框架的总数目 IHTMLFramesCollection::get_length(),接着就可以循环调用 IHTMLFramesCollection::item()函数一个一个地取得子框架 IHTMLWindow2 指针,然后转第<1>步。 <4> 一个文档中可能拥有多个表单,因此还是同样的道理,先要取得表单的集合(IHTMLElementCollection,其实这个不光是表单的集合,其他元素的集合,比如图片集合也是用它)。这个操作也很简单,取得属性 IHTMLDocument2::get_forms()。 <5> 属性 IHTMLElementCollection::get_length() 得到表单总数目,就可以循环取得每一个表单指针了 IHTMLElementCollection::item()。 <6> 在第<5>步中的item()函数,得到的是一个IDispatch的指针,你通过QueryInterface()查询,就可以得到 某类型输入的指针,代码如下: // 假设 spDisp 是由IHTMLElementCollection::item() 得到的 IDispatch 指针CComQIPtr spInputText(spDisp);CComQIPtr spInputButton(spDisp);CComQIPtr spInputHidden(spDisp);......if ( spInputText ){ //如果是文本输入表单域}else if ( spInputButton ){ //如果是按纽输入表单域}else if ( spInputHiddent ){ //如果是隐藏输入表单域}else if ........ //其它输入类型 上面的方法,由于使用具体类型的接口指针,因此程序的效率比较高。但是通过 QueryInterface 接口查询,然后再进行条件判断显然是比较烦琐的,所以这个方法适合于特定的已知网页设计内容的程序。在示例程序中,我则是直接使用 IDispatch 接口进行操作的,这个方式执行起来稍微慢一些,但程序比较简单。主要代码和说明如下:#include CComModule _Module;// 由于需要使用 CComDispatchDriver 的 IDispatch 包装类ATL智能指针,所以这个是必须的#include ......long nElemCount=0;//表单域的总数目spFormElement-get_length( &nElemCount );for(long j=0; jitem( CComVariant( j ), CComVariant(), &spInputElement );CComVariant vName,vVal,vType;// 域名称,域值,域类型spInputElement.GetPropertyByName( L"name", &vName );spInputElement.GetPropertyByName( L"value",&vVal );spInputElement.GetPropertyByName( L"type", &vType );// 使用 IDispatch 的智能指针的好处就是:象上面这样读取、设置属性很简单// 另外调用 Invoke 函数也异常方便,Invoke0(),Invoke1(),Invoke2()..........}四、结束语 示例程序在 VC6 下编译执行通过。运行方法:随便启动几个 IE 浏览网页,最好是有表单输入的网页。然后执行示例的 EXE 程序即可。到这里,就到这里了......祝大家学习快乐 ^-^

 
 
 
免责声明:本文为网络用户发布,其观点仅代表作者个人观点,与本站无关,本站仅提供信息存储服务。文中陈述内容未经本站证实,其真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
2023年上半年GDP全球前十五强
 百态   2023-10-24
美众议院议长启动对拜登的弹劾调查
 百态   2023-09-13
上海、济南、武汉等多地出现不明坠落物
 探索   2023-09-06
印度或要将国名改为“巴拉特”
 百态   2023-09-06
男子为女友送行,买票不登机被捕
 百态   2023-08-20
手机地震预警功能怎么开?
 干货   2023-08-06
女子4年卖2套房花700多万做美容:不但没变美脸,面部还出现变形
 百态   2023-08-04
住户一楼被水淹 还冲来8头猪
 百态   2023-07-31
女子体内爬出大量瓜子状活虫
 百态   2023-07-25
地球连续35年收到神秘规律性信号,网友:不要回答!
 探索   2023-07-21
全球镓价格本周大涨27%
 探索   2023-07-09
钱都流向了那些不缺钱的人,苦都留给了能吃苦的人
 探索   2023-07-02
倩女手游刀客魅者强控制(强混乱强眩晕强睡眠)和对应控制抗性的关系
 百态   2020-08-20
美国5月9日最新疫情:美国确诊人数突破131万
 百态   2020-05-09
荷兰政府宣布将集体辞职
 干货   2020-04-30
倩女幽魂手游师徒任务情义春秋猜成语答案逍遥观:鹏程万里
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案神机营:射石饮羽
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案昆仑山:拔刀相助
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案天工阁:鬼斧神工
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案丝路古道:单枪匹马
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案镇郊荒野:与虎谋皮
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案镇郊荒野:李代桃僵
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案镇郊荒野:指鹿为马
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案金陵:小鸟依人
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案金陵:千金买邻
 干货   2019-11-12
 
推荐阅读
 
 
 
>>返回首頁<<
 
靜靜地坐在廢墟上,四周的荒凉一望無際,忽然覺得,淒涼也很美
© 2005- 王朝網路 版權所有