绿色学院 - Green Institute - 不听人间乐 - 想得到 - 做得到 - Xoops
Apache 另类访问统计 (Google & Yahoo)
从 Apache Access Log 查看, 这个方法比较准确.
CustomLog "|bin/cronolog.exe logs/access_%Y%m%d.log" combined env=!image-request
工具:
Search and Replace 5.1 (这个东东搜索速度飞的快)
cronolog 模块, 这是一个 Apache 日志按天数截断程序.
一. 介绍
1. Google 的访问痕迹
219.134.20.140 - - [09/Apr/2005:00:26:54 +0800] "GET /modules/dictionary/ HTTP/1.1" 200 31780 "http://www.google.com/search?hl=zh-CN&q=%EF%BD%89%EF%BD%8E%EF%BD%95%EF%BD%92%EF%BD%8C%EF%BC%9A%EF%BC%B6%EF%BD%89%EF%BD%85%EF%BD%97%EF%BD%85%EF%BD%92%EF%BC%A6%EF%BD%92%EF%BD%81%EF%BD%8D%EF%BD%85%EF%BC%9F%EF%BC%AD%EF%BD%8F%EF%BD%84%EF%BD%85%EF%BC%9D&btnG=Google%E6%90%9C%E7%B4%A2&lr=" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.0)"
搜索 Google 字符.
2. Yahoo 的访问痕迹
220.200.112.66 - - [09/Apr/2005:17:22:12 +0800] "GET /document/php_gtk_manual_en/tutorials.translation.gettextinphp.html HTTP/1.1" 206 1115 "http://cn.websearch.yahoo.com/search?p=example+of+translation&ei=UTF-8&fl=1&vc=&vl=lang_zh-CN&vl=lang_zh-TW&x=wrt&meta=vl%3Dlang_zh-CN%26vl%3Dlang_zh-TW" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1)"
搜索 yahoo.com/search 字符.
3. 百度
百度...它没光顾我,,,没办法.
4. 3721
218.16.154.244 - - [09/Apr/2005:00:09:30 +0800] "GET /modules/myalbum/viewcat.php?cid=23&orderby=titleA HTTP/1.1" 200 26538 "http://seek.3721.com/right.htm?s_res=1&argse=new3721&p=%CE%F3%C0%D6%D0%C2%CE%C5%CD%BC%C6%AC&page=5&sum_page=111833&sum_bid=0&t_bid=10&c_bid=4&b=1&lang=zh-cn,zh-tw&f=&d=&u=&source=&pid=3721" "Mozilla/4.0 (compatible; MSIE 5.5; Windows 98; Win 9x 4.90)"
搜索 3721.com/right 字符.
PS: 鄙视使用 3721 的少部分人, 至于原因, 弄几个例子( 60/100 以上都是这种搜索).
例一:
http://seek.3721.com/right.htm?argse=new3721&ft3721=5&rl=1&p=%BF%B4%C5%AE%C8%CB%B5%C4%D0%D4%C6%F7%B9%D9&source=3721_right_related
例二.
http://seek.3721.com/right.htm?s_res=1&argse=new3721&p=%D2%F9%BA%D3&page=6&sum_page=105&sum_bid=0&t_bid=10&c_bid=4&b=1&lang=zh-cn,zh-tw&f=&d=&u=&source=3721_right_related&pid=3721
例三.
http://seek.3721.com/right.htm?s_res=1&argse=new3721&p=%B5%B4%C9%D9%B8%BE%B0%D7%BD%E0&page=14&sum_page=707&sum_bid=0&t_bid=10&c_bid=4&b=1&lang=zh-cn,zh-tw&f=&d=&u=&source=3721_right_related&pid=3721
例四.
http://seek.3721.com/right.htm?s_res=1&argse=new3721&p=%C9%AB%C5%AE%C8%CB%C8%CB%B5%C4%B7%E1%C8%E9%B7%CA%CD%CE&page=6&sum_page=2837&sum_bid=0&t_bid=10&c_bid=4&b=1&lang=zh-cn,zh-tw&f=&d=&u=&source=3721_right_top_searchbox&pid=3721
注: 平时偶喜欢翻翻日志.
5. 还有 一搜 中搜 等等, 不过偶只统计 Google 和 Yahoo 的访问...
二. 统计
运行 Search and Replace , 查找 C:\Program Files\Apache Group\Apache2\logs\ 目录里所有 .log 文件.
1. Google 的
2005-4-9 19:49:26
搜索字串: google
替换字串:
路径: C:\Program Files\Apache Group\Apache2\logs
文件过滤: *.log
搜索子目录
搜索了 31 个文件,找到 14412 处在 31 个文件中
2. Yahoo 的
2005-4-9 19:54:44
搜索字串: yahoo.com/search
替换字串:
路径: C:\Program Files\Apache Group\Apache2\logs
文件过滤: *.log
搜索子目录
搜索了 31 个文件,找到 6898 处在 31 个文件中
3. 操作系统有使用 IE 浏览器的页浏览量统计(仅仅是IE, 如果要获得所有页浏览量,可用正则搜索达到目的).
2005-4-9 19:56:47
搜索字串: compatible
替换字串:
路径: C:\Program Files\Apache Group\Apache2\logs
文件过滤: *.log
搜索子目录
搜索了 31 个文件,找到 72791 处在 31 个文件中
4. 计算 Google 和 Yahoo 的访问量 和 IE页浏览量.
4.1 Google
GOOGLE 每天平均访问次数:
14412 / 31 = 464.90322580645161290322580645161
4.2 Yahoo
Yahoo 每天平均访问次数:
6898 / 31 = 222.51612903225806451612903225806
4.3 IE 页浏览量
IE 平均页浏览量
72791 / 31 = 2348.0967741935483870967741935484
5. 按这样计算, 就可以精确知道 两大搜索引擎的访问量了, 至于其它的, 应该采用统计软件, 这个文章是写着玩的:)
PS: 现在大多数的统计软件都采用 script 方法统计, 有点不太准确, 而且严重拖慢速度,
所以偶浏览网页时一般都把 Javascript 关闭(Opera), 所以用 script 统计的话是统计不到我的访问的,
但日志就不同了, 每一个访问都跑不了, 真不错.
/****************************************************************
*
* author : Emerald<btbtd@yahoo.com.cn>
*
* homepage : http://gi.2288.org:88/
*
* Seo-Gi : http://seo.2288.org:88
*
* sitename : 绿色学院 - Green Institute
*
* date : 2005-4-9 20:12:12
*
\****************************************************************/