最近网上流行着一些采集程序,更多人拿着这些东西在网上叫卖,很多不太懂的人看着那些程序眼羡,其实如果你懂一些ASP,了解自动采集程序的原理后,你会感觉实现自动化也是那么的简单.
原理及优点:通过XML中的XMLHTTP组件调用其它网站上的网页,然后批量截取或替换原有的信息使其转化成变量后再一一储存到数据库中。其主要的优点便是无需再手工添加大量的信息了,可以指定对某一个站信息的截取进行批量录入,达到省时省力的目的。与其单纯的ASP小偷程序不同的是:它已经不再依赖其目标网站。
简单事例:
1<%
2'声明取得目标信息的函数,通过XML组件进行实现。
3Function GetURL(url)
4Set Retrieval = CreateObject("Microsoft.XMLHTTP")
5With Retrieval
6.Open "GET", url, False
7.Send
8GetURL = bytes2bstr(.responsebody)
9'对取得信息进行验证,如果信息长度小于100则说明截取失败
10if len(.responsebody)<100 then
11response.write "获取远程文件 <a href="&url&" target=_blank>"&url&"</a> 失败。"
12response.end
13end if
14
15End With
16Set Retrieval = Nothing
17End Function
18' 二进制转字符串,否则会出现乱码的!
19function bytes2bstr(vin)
20strreturn = ""
21for i = 1 to lenb(vin)
22thischarcode = ascb(midb(vin,i,1))
23if thischarcode < &h80 then
24strreturn = strreturn & chr(thischarcode)
25else
26nextcharcode = ascb(midb(vin,i+1,1))
27strreturn = strreturn & chr(clng(thischarcode) *