日志,通常被称为access log,是http服务器在接受到http请求后所记录下来的信息。在http的服务器被安装后,一般情况下,公司的工作人员会对服务器进行必要的设置(大多这一过程都是自动化完成的),这样日志就可以记录下来http访问的IP地址,http头部分等各种各样的相关信息。相信这一部分大多数人都不陌生,那么这样的信息到底有什么重要性呢。在我们讨论这个问题前,我们不妨看看google analytics或者类似产品的原理。众所周知,处于安全因素的考虑,javascript是不能跨域名的发送请求的,所以google analytics的javascript代码就创建一个1×1大小的图像对象,并添加进页面的dom中。这样浏览器就会对这个图片的地址进行请求。由于google analytics事先已经把所要的信息都写入了这个图片的地址中(就是在问好后面的query string部分)。这样在google的服务器上会把这部分的信息保留在google的日志中,然后在对其进行分析。用一句话来概括这一系列的动作——google的服务器上为您保存了一份关于您的服务器的日志,然后在适当的时机对它进行分析。
知道了这一原理,那么我们不禁要问,google花了那么大的心血就是为了得到我们的日志,那么为什么我们不能用自己本来就拥有的日志进行分析呢?答案是完全可以。尽管日志仅仅只简单包含了每条访问的有关信息,但是稍加分析,我们不难得出一些当前网站的概况。比如说,对“http refer”这项分析,可以很容易得到自己网站来自直接访问“direct access”,引用页(“referer”)和搜索引擎(“search engine”)的各个百分比(就是google analytics中的traffic source部分)。如果对来自搜索引擎的referer进行进一步分析的话,你还可以知道带来访问的关键词是什么,再稍加统计就可以知道那些关键词对您是重要的。同样的,如果对“access url”进行分析的话,就可以知道您的网站那些部分是最吸引您的用户的,等等。一句话,只要您能想得到的宏观信息一般都不难得到。
有些读者可能会说,我没有什么c++编程经验等等诸多自身限制。其实如果您熟悉linux命令的话,用cut, sort, uniq等命令就能做很多事情了,如果您进一步熟悉sed和gwk的话,把一些统计计算模块写进脚本里,那么您可以很快的得到你想要的网站信息。
博主感想:我们古话有句说叫“知己知彼”,同样做SEO的话,您对网站自身的了解也就很重要,因为这对您下一步的决策起到很好的参考作用。对于一些大型的网站,一般他们都有自身的分析工具,因为他们的流量与股价是息息相关的,不可能泄露给google analytics等第三方网站。然而对于一些中小网站的话,google analytics还是不错的省时分析工具(不过由于众所周知的原因,在国内可能用其他第三方工具可能更好)。这样不仅是一种了解网站状态的方法,也可以作为判定seo是否成功的重要依据。www.changjin.org