分享
 
 
 

自学SEO教程:网站日志文件分析搜索蜘蛛爬行记录

王朝网站推广·作者佚名  2011-12-05
窄屏简体版  字體: |||超大  

一、网站日志文件在哪里?

【简单说下网站虚拟主机FTP几个文件夹说明】

虚拟主机开通成功之后,会在您的FTP里面自动生成4个文件夹,分别是:"databases","logofiles","others","wwwroot",他们作用如下:

1、wwwroot文件夹:该文件夹内存放可以通过web访问的文件,您需要将您对外发布的网站文件上传到该目录下,输入域名访问到的文件将是该文件夹下的文件。

2、databases文件夹:该文件夹同logofiles、others文件夹一样,属于不可通过web访问的文件夹,即用户无法通过输入网址来访问这些文件夹下的文件,您可以在这些文件夹下上传一些不希望别人能够访问的文件。比如您可以将access数据库存放在databases文件夹下,这样可以最大化的保证您的数据库安全。

3、logofiles文件夹:logofiles文件夹是日志文件,该文件夹存放您的网站日志文件。通过日志文件您可以查询到网站的一些访问记录。(由于各个空间商的不同,本文件夹的命名也有少许差别有都命为:logofiles或者WEBLOG反正一般都会带上LOG这一个字母)

4、others文件夹:该站点存放您自定义的IIS错误文件。IIS默认的一些错误提示,比如404错误,403错误,500错误等等,如果您觉得这些错误提示不够个性化,您可以将您自定义的错误提示上传到该目录下。

二、怎样分析网站日志文件 分析举例说明

下面已IBM笔记本电脑论坛http://www.ebenben.com最近8月份的日志文件为例说明一下,空间日志代码如下:

2009-08-23 16:06:03 W3SVC176 58.61.160.170 GET /nb/html/30/t-12730.html - 80 - 220.181.7.24 Baiduspider+(+http://www.baidu.com/search/spider.htm) 200 0 0 20006

1、首先以百度为例,分析说明:

访问时间:2009-08-23 16:06:03

百度蜘蛛的IP:58.61.160.170

蜘蛛爬这的网址: /nb/html/30/t-12730.html

合来起所表达的意思很明显:IP为58.61.160.170的百度蜘蛛在2009-08-23 16:06:03点43分对此网站上的/nb/html/30/t-12730.html 网页进行收录或更新了。

【补充说明】

2009-08-23 16:06:03是百度蜘蛛来访的日期及时间;

158.61.160.170 是百度蜘蛛的IP

“GET 是服务器的动作,不是GET就是POSP;GET是从服务器上获取内容;/nb/html/30/t-12730.html 使用HTML1.1协议获取相关内容200 是返回状态码,200是成功获取;404是文件没找到;401是需要密码,403禁止查看,500服务器错误。很明显此例子中最后返回是200,为成功获取!

“+(+http://www.baidu.com/search/spider.htm)″表示来路

当然,还有部分空间日志会有这样一些代码,他们表示意思如下:

“Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; Alexa Toolbar)” 表示的是用户所使用的电脑是与Netscape兼容的Mozilla浏览器,Windows NT操作系统,浏览器是IE6.0,装有Alexa Toolbar。

2、接下来说说googlebot,我盼googlebot已经好久了,这几天它终于来了,然后我在www.google.com上输入site:seo.9ilp.com,果然看到了收录文件的更新。

2009-08-23 00:07:20 66.249.65.116 - 218.85.132.68 80 GET /html/down/20070129/550.html - 200 Mozilla/5.0+(compatible;+Googlebot/2.1;++http://www.google.com/bot.html)

218.85.132.68查此IP直接给了结果“美国 GoogleBot 搜寻引擎机器人”,呵呵,goolgebot真出名,也很规范。

3、Yahoo也要说说的:

2009-08-23 00:04:45 202.160.178.195 - 218.85.132.68 80 GET /html/ad/20070131/658.html - 200 Mozilla/5.0+(compatible;+Yahoo!+Slurp+China;+http://misc.yahoo.com.cn/help.html)

查IP得知是雅虎中国,Yahoo!+Slurp+China是雅虎蜘蛛名,以前是Inktomi Slurp;想查询网站在yahoo的收录情况与google和百度不同的是,你直接在www.yahoo.com.cn上输入网址即可。不用加前缀site:,还有一点,觉得这几个月的雅虎中国在技术上有改进,在网站收录和关键词搜索上,大家可以自己去体会。

说完三大搜索爬虫,再来看看别的二流搜索引擎的爬虫及门户搜索的爬虫:

1)msn:msn(msn live search beta)的搜索技术我个人觉得是难入流的,似乎比门户搜索更差,beta说明搜索版在测试阶段,现在电信采用msn的搜索技术,不知道电信的是什么眼光,呵呵。

2009-08-23 08:22:15 65.55.213.7 - 218.85.132.68 80 GET /html/down/20070129/550.html - 200 msnbot-media/1.0+(+http://search.msn.com/msnbot.htm)

2)Alexa:大名鼎鼎的世界排名Alexa,它的蜘蛛比较难记,是ia_archiver。从严格意义上说,它不知道是不是爬虫,它与纯搜索引擎不同,是来侦测流量的居多,并不是来收录网页的。

2009-08-23 01:24:44 209.237.238.226 - 218.85.132.68 80 GET /html/internet/20070130/631.html - 200 ia_archiver

3)Iask爱问:

2009-08-23 11:56:47 60.28.164.44 - 218.85.132.68 80 GET /html/webpromote/20070203/935.html - 200 Mozilla/5.0+(compatible;+iaskspider/1.0;+MSIE+6.0)

4)sogou搜狗:

对于搜狗,我就觉得好笑了。大家记得我说过我的网站是改版过的,Brand是旧网站文件,早被我删除了。而且为了删除除搜索引擎收录的死链接,我在robots.txt文件中写着:Disallow: /Brand ,这当然禁止访问Brand下的文件,我这里想说的是,一、它sogou不遵守robots协议,二、对于已经删除近一个月的文件,它从哪里搜索而来。我真的不太明白了。

2009-08-23 01:34:42 220.181.19.170 - 218.85.132.68 80 GET /404.htm 404;/underwear/Brand/Brand2.htm 200 sogou+spider

5)yodaoice:

对于这个,大家不要感觉惊讶,这是163新开发的搜索引擎,目前处于测试版,界面颇象google风格,但技术年幼,也象搜狗一样乱抓一通。2009-08-23 06:19:29 60.191.80.151 - 218.85.132.68 80 GET /404.htm 404;/underwear/4864.gif 200 yodaoice

那么多爬虫盯上我的网站,一方面高兴的是就爱SEO论坛的发展还得靠它们,另一方面郁闷的是有些不按规则来抓的对网站的访问会有造成不良的影响。看看比前两周增长得多的日志文件就知道了。

版权所有:就爱SEO论坛

如需转载请附就爱SEO学习论坛本贴链接地址:http://seo.9ilp.com/thread-965-1-1.html

 
 
 
免责声明:本文为网络用户发布,其观点仅代表作者个人观点,与本站无关,本站仅提供信息存储服务。文中陈述内容未经本站证实,其真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
2023年上半年GDP全球前十五强
 百态   2023-10-24
美众议院议长启动对拜登的弹劾调查
 百态   2023-09-13
上海、济南、武汉等多地出现不明坠落物
 探索   2023-09-06
印度或要将国名改为“巴拉特”
 百态   2023-09-06
男子为女友送行,买票不登机被捕
 百态   2023-08-20
手机地震预警功能怎么开?
 干货   2023-08-06
女子4年卖2套房花700多万做美容:不但没变美脸,面部还出现变形
 百态   2023-08-04
住户一楼被水淹 还冲来8头猪
 百态   2023-07-31
女子体内爬出大量瓜子状活虫
 百态   2023-07-25
地球连续35年收到神秘规律性信号,网友:不要回答!
 探索   2023-07-21
全球镓价格本周大涨27%
 探索   2023-07-09
钱都流向了那些不缺钱的人,苦都留给了能吃苦的人
 探索   2023-07-02
倩女手游刀客魅者强控制(强混乱强眩晕强睡眠)和对应控制抗性的关系
 百态   2020-08-20
美国5月9日最新疫情:美国确诊人数突破131万
 百态   2020-05-09
荷兰政府宣布将集体辞职
 干货   2020-04-30
倩女幽魂手游师徒任务情义春秋猜成语答案逍遥观:鹏程万里
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案神机营:射石饮羽
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案昆仑山:拔刀相助
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案天工阁:鬼斧神工
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案丝路古道:单枪匹马
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案镇郊荒野:与虎谋皮
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案镇郊荒野:李代桃僵
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案镇郊荒野:指鹿为马
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案金陵:小鸟依人
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案金陵:千金买邻
 干货   2019-11-12
 
推荐阅读
 
 
 
>>返回首頁<<
 
靜靜地坐在廢墟上,四周的荒凉一望無際,忽然覺得,淒涼也很美
© 2005- 王朝網路 版權所有