流量认证标准
一、介绍
中国互联网络信息中心(CNNIC)是成立于1997年6月3日的非盈利管理与服务机构,行使国家互联网络信息中心的职责。其宗旨是为我国互联网络用户服务,促进我国互联网络健康、有序地发展。随着互联网络在国内的飞速发展,广大互联网站迫切地需要了解他们的网站的访问量信息,于是他们采用了一些国内或国外的对于网站的访问量进行测算和度量的服务。然而,这些服务面临着一个重要的难题,即缺乏对访问统计指标的权威定义和度量标准,既缺乏官方的标准也缺乏事实上的标准。各个服务提供商提供了不同统计口径的统计指标,出于商业考虑,服务提供商往往也不公开他们的统计度量方法。对于网站来讲,由于使用了不同的网站访问统计服务,因而他们获得的报告无法和其它网站的访问统计报告进行比较。这种报告缺乏对广告客户的吸引力,一方面制约了网站的盈利空间,另一方面也制约了互联网络的发展。对于广告客户来讲,他们同样面临着困惑,因为他们判断不出选择哪一个网站播出他们的广告会收到更好的效果,他们的广告投资应该与网站访问量成正比,而可比较的网站访问统计报告是他们进行投资的依据。
中国互联网络信息中心(CNNIC)建议的网站访问统计术语和度量方法正是希望能够提出一种具有可比性的、可被广泛接受的网站访问统计的标准。我们的任务就是建立一套网站访问统计的术语,并对其度量方法提出建议。我们希望以此文档作为网站访问统计的指导方针,帮助网站的建设者、网站的访问者、网站的广告客户更全面更准确地获得他们想要了解的信息,为他们精确地计划、执行、实现他们的网上商业项目提供依据。
此文档提供了网站访问统计术语的解释和对度量方法的建议,这将有助于网站使用一种通用的语言向外界发布访问统计的信息。
我们起草这个建议是为了促进互联网络事业在国内的发展。我们也希望此文档能够引起互联网络界的注意,使大家关注网站访问信息的度量。因为我们真诚地希望互联网网站能成为广告客户更为友好的媒体平台,使互联网站能够走上持续发展的道路。
二、统计实现方式
对网站的访问信息的统计,我们建议采用如下的实现方式:
这种方式是对Web服务器生成的日志文件进行分析,这种日志文件有时是原始的文件,有时是由第三方统计机构在服务器端加入的模块生成的。这种方式的优点是可以定制自己格式的日志文件,采用加密算法和压缩日志文件的技术,以保证日志文件的真实性和可靠性,并且降低传递日志文件所产生的网络流量,适用于第三方机构进行网站访问量的认证度量工作。当然这种方式也有自己的不足之处,包括难以做到实时的统计分析,而且在服务器端的附加模块有可能降低Web服务器的性能。
在文档中,当提及此方式时,我们称为分析日志文件的方式。
三、标识访问者
标识网站的访问者是网站访问统计的基础。不恰当的对访问者的标识是目前多种访问统计服务提供的报告难以比较的根本原因。目前还没有十全十美的标识访问者的方法,因此多种访问统计服务使用了不同的标识访问者的方法是可以理解的。我们希望能够提出一种具有可比性的、可被广泛接受的网站访问统计度量的标准。
访问者(Visitor)
定义:一个与网站有交互操作的个人。
度量方法:我们建议采用以下方法作为度量、识别访问者的方法。先采用IP地址来标识访问者,不同的IP地址表明不同的访问者。当来访的IP地址相同的时候试图通过跟踪文件(Cookie)来标识访问者,不同的跟踪文件(Cookie)表明不同的访问者。在服务器端加入的模块生成的含有扩展内容的日志文件可识别出访问者的跟踪文件(Cookie),这将弥补原始日志文件未记录跟踪文件(Cookie)的不足。跟踪文件(Cookie)是指由服务器向浏览器发送带有Set-cookie头信息的HTTP响应,支持跟踪文件(Cookie)的浏览器将在本机硬盘上保留一小片用于标识自己身份的信息。不同的跟踪文件(Cookie)可以表明不同的访问者。
评论:
标识网站的访问者是网站访问统计的基础。
用户(User)和访问者是同一术语,它们的含义相同。
1,单纯使用跟踪文件(Cookie)的方法存的问题。
(1)并不是所有浏览器都支持跟踪文件(Cookie)。
(2)支持跟踪文件(Cookie)的浏览器中有些允许采用不接受任何跟踪文件(Cookie)的策略。
(3)跟踪文件(Cookie)可以被某些程序或被手工删除掉。
(4)如果用户同时使用多种浏览器,则每个浏览器会保存不同的跟踪文件(Cookie)。
(5)当用户重新安装操作系统或重新安装浏览器时,跟踪文件(Cookie)都有可能丢失,除非用户手工保存它们。
(6)浏览器只能保存总共300个跟踪文件(Cookie),每个跟踪文件(Cookie)有4K的容量限制,每个域或服务器只可以在客户端放置20个跟踪文件(Cookie)。
(7)存在着关于跟踪文件(Cookie)侵犯访问者隐私权的争论。
跟踪文件(Cookie)存在着种种争议,但它仍然是值得推荐的方法之一,支持使用跟踪文件(Cookie)的意见包括:
(1)由Web服务器响应的包含Set-cookie的头信息不会被代理服务器(Proxy)缓存(Cache),代理服务器(Proxy)将传送Set-cookie头信息给客户浏览器。同样地,包含Cookie的客户请求的头信息也将被代理服务器(Proxy)转发给Web服务器。因此,跟踪文件(Cookie)是目前简单而有效的识别使用代理服务器(Proxy)访问网络的用户的方法。
(2)目前国内使用最广泛的浏览器Internet Explorer 3.x、4.x、5.x、Netscape 3.x、4.x及Opera 3.x均支持跟踪文件(Cookie),只有1%的访问者使用除此之外的其它浏览器。
(3)在默认状态下,上述浏览器都采用接受所有跟踪文件(Cookie)的策略。
(4)对于大多数友善的网站,跟踪文件(Cookie)提供了一种方便访问者访问的机制,而不是一种偷窥用户访问路径的工具。
2,通过IP地址识别访问者是一种很常用而且值得推荐的方法之一,使用IP地址识别访问者的优点是:
(1)对于直接连接在互联网络上具有唯一IP地址的计算机,IP地址可以准确地标识计算机及其来源。
(2)相对跟踪文件(Cookie)来讲,IP地址跟踪到计算机,而跟踪文件(Cookie)跟踪到浏览器。同一IP地址的计算机有可能由于同时使用多种浏览器而保留有多个跟踪文件(Cookie),因此IP地址更好地标识了单独的计算机。
通过IP地址识别用户也存在一些问题。从Web服务器的访问日志中无法全部识别通过代理服务器(Proxy)访问网络的用户。尽管有时可以从HTTP_USER_AGENT环境变量看出访问者使用了某种代理服务器(Proxy),但仍然无法得知他到底是哪个访问者。因此我们选择采用IP地址为主,跟踪文件(Cookie)为辅的方式来标识访问者。
四、网站访问量指标及度量
唯一访问者(Unique Visitor)
定义:唯一访问者是指在一特定时间内第一次进入网站,具有唯一访问者标识(唯一地址)的访问者。这一特定时间建议为一整天。
度量方法:在同一天内,只记录第一次进入网站的具有唯一访问者标识的访问者,在同一天内再次访问该网站则不计数。
评论:也称日唯一访问者(Daily Unique Visitor)。独立访问者、独立访客、独立用户、唯一用户和唯一访问者是同一术语。唯一访问者提供了一定时间内不同观众数量的统计指标,而没有反应出网站的全面活动。
月唯一访问者(Monthly Unique Visitor)
定义:同上。特定时间建议为一整月。
度量方法:在同一月内,只记录第一次进入网站的具有唯一访问者标识的访问者,在同一月内再次访问该网站则不计数。
用户会话(User Session)
定义:用户会话是指具有唯一访问者标识(唯一地址)的访问者进入或再次进入网站的过程。
度量方法:访问者在20分钟内与