用 PHP 使 Web 数据分析进入更高境界

设计您的数据分析，做比简单原始计数更多的事

对 Web 数据进行有效和多层次的分析是许多面向 Web 企业能够生存的关键因素，数据分析检验的设计（和决策）通常是系统管理员和内部应用程序设计人员的工作，而他们可能除了能够把原始计数制成表格之外，对统计学没有更多的了解。在本文中，Paul Meagher 向 Web 开发人员传授了将推论统计学应用到 Web 数据流所需的技能和概念。

动态网站不断生成大量的数据 — 访问日志、民意测验和调查结果、客户概要信息、订单及其它，Web 开发人员的工作不仅是创建生成这些数据的应用程序，而且还要开发使这些数据流有意义的应用程序和方法。

通常，对于由管理站点所产生的不断增长的数据分析需求，Web 开发人员的应对是不够的。一般而言，除了报告各种描述性统计信息之外，Web 开发人员并没有其它更好的方法来反映数据流特征。有许多推论统计步骤（根据样本数据估计总体参数的方法）可以被充分利用，但目前却没有应用它们。

例如，Web 访问统计信息（按当前所编辑的）只不过是以各种方式进行分组的频率计数。以原始计数和百分比表示民意测验和调查结果的情况比比皆是。

开发人员用比较浅显的方法处理数据流的统计分析或许已经足够了，我们不应期望太多。毕竟，有从事较复杂的数据流分析的专业人士；他们是统计师和受过训练的分析师。当组织需要的不仅仅是描述性统计时，可以请他们加入。

但另一种应对是承认对推论统计学日益加深的了解正成为 Web 开发人员工作描述的一部分。动态站点正在生成越来越多的数据，事实表明，设法将这些数据变成有用的知识正是 Web 开发人员和系统管理员的责任。

我提倡采取后一种应对；本文旨在帮助 Web 开发人员和系统管理员学习（或重温，如果知识已遗忘的话）将推论统计学应用到 Web 数据流所需的设计和分析技能。

使 Web 数据与实验设计相关

将推论统计学应用到 Web 数据流需要的不仅仅是学习作为各种统计检验基础的数学知识。将数据收集过程与实验设计中的关键差别关联起来的能力同样很重要：测量尺度是什么？样本的代表性如何？总体是什么？正在检验的假设是什么？

要将推论统计学应用到 Web 数据流，需要先把结果看作是由实验设计生成的；然后选择适用于该实验设计的分析过程。即使您可能认为将 Web 民意测验和访问日志数据看作实验的结果是多此一举，但这样做确实很重要。为什么？

1.这将帮助您选择适当的统计检验方法。

2.这将帮助您从收集的数据中得出适当的结论。

在确定要使用哪些适当的统计检验时，实验设计的一个重要方面是选择数据收集的衡量尺度。

衡量标准的示例

测量尺度只是指定了一个对所感兴趣的现象分配符号、字母或数字的步骤。例如，千克尺度允许您给一个物体分配数字，根据测量仪器的标准化的偏移量指示该物体的重量。

有四种重要的衡量标准：

定比尺度（ratio）— 千克尺度是定比尺度的一个示例 ? 分配给物体属性的符号具有数字意义。您可以对这些符号执行各种运算（如计算比率），而对于通过使用功能不那么强大的衡量标准获得的数值，您不能使用这些运算。

定距尺度（interval）— 在定距尺度中，任意两个相邻测量单位之间的距离（也称为间距）是相等的，但零点是任意的。定距尺度的示例包括对经度和潮汐高度的度量，以及不同年份始末的度量。定距尺度的值可以加减，但乘除则没有意义。

定序尺度（rank）— 定序尺度可应用于一组有顺序的数据，有顺序指的是属于该尺度的值和观察值可以按顺序排列或附带有评级尺度。常见的示例包括“好恶”民意测验，其中将数字分配给各个属性（从 1 = 非常厌恶到 5 = 非常喜欢）。通常，一组有序数据的类别有自然的顺序，但尺度上相邻点之间的差距不必总是相同的。对于有顺序的数据，您可以计数和排序，但不能测量。

定类尺度（nominal）— 衡量标准的定类尺度是衡量标准中最弱的一种形式，主要指将项目分配给组或类别。这种测量不带数量信息，并且不表示对项目进行排序。对定类尺度数据执行的主要数值运算是每一类别中项目的频率计数。

下表对比了每种衡量标准的特征：

衡量标准尺度属性具有绝对的数字含义吗？能执行大多数数学运算吗？

定比尺度是。是。

定距尺度对于定距尺度是这样；零点是任意的。加和减。

定序尺度不是。计数和排序。

定类尺度不是。只能计数。

在本文中，我将主要讨论通过使用测量的定类尺度收集的数据，以及适用于定类数据的推论技术。

使用定类尺度

几乎所有 Web 用户 — 设计人员、客户和系统管理员 — 都熟悉定类尺度。Web 民意测验和访问日志类似，因为它们常常使用定类尺度作为衡量标准。在 Web 民意测验中，用户常常通过请求人们选择回答选项（如“您偏爱品牌 A、品牌 B，还是品牌 C？”）来衡量人们的偏好。通过对各类回答的频率进行计数来汇总数据。

类似的，测量网站流量的常用方法是对一个星期内一天之中的每次点击或访问都划分给这一天，然后对每一天出现的点击或访问的数目计数。另外，您可以（也确实可以）通过浏览器类型、操作系统类型和访问者所在的国家或地区 — 以及任何您想得到的分类尺度 — 对点击计数。

因为 Web 民意测验和访问统计信息都需要对数据归入某一特定性质类别的次数进行计数，所以可以用相似的无参数统计检验（允许您根据分布形状而不是总体参数作出推论的检验）来分析它们。

David Sheskin 在他的 Handbook of Parametric and Non-Parametric Statistical Procedures 一书（第 19 页, 1997）中，是这样区分参数检验和非参数检验的：

本书中将过程分类为参数检验和非参数检验所使用的区别主要基于被分析数据所代表的测量级别。作为通用规则，评估类别／定类尺度数据和顺序／等级-顺序数据的推论统计检验被归类为非参数检验，而那些评估定距尺度数据或定比尺度数据的检验则被归类为参数检验。

当作为参数检验基础的某些假设值得怀疑时，非参数检验也很有用；当不满足参数假设时，非参数检验在检测总体差异时有很大的作用。对于 Web 民意测验的示例，我使用了非参数分析过程，因为 Web 民意测验通常使用定类尺度来记录投票者的偏好。

我并不是在建议 Web 民意测验和 Web 访问统计信息应该始终使用定类尺度衡量标准，或者说非参数统计检验是唯一可用于分析这类数据的方法。不难设想有（譬如）这样的民意测验和调查，它们要求用户对每个选项提供数值评分（从 1 到 100），对此，参数性的统计检验就比较合适。

尽管如此，许多 Web 数据流包括编辑类别计数数据，而且通过定义定距尺度（譬如从 17 到 21）并将每个数据点分配给一个定距尺度（如“年轻人”），可以将这些数据（通过使用功能更强大的衡量标准测量）变成定类尺度数据。频率数据的普遍存在（已经是 Web 开发人员经验的一部分），使得专注于非参数统计学成为学习如何将推论技术应用到数据流的良好起点。

为了使本文保持合理的篇幅，我将把对 Web 数据流分析的讨论局限于 Web 民意测验。但是请记住，许多 Web 数据流都可以用定类计数数据表示，而我讨论的推论技术将使您能做比报告简单的计数数据更多的事情。

从抽样开始

假设您在您的站点 www.NovaScotiaBeerDrinkers.com 上进行每周一次的民意测验，询问成员对各种主题的意见。您已经创建了一个民意测验，询问成员喜爱的啤酒品牌（在加拿大新斯科舍省（Nova Scotia）有三种知名的啤酒品牌：Keiths、Olands 和 Schooner）。为了使调查尽可能范围广泛，您在回答中包括“其它”。

您收到 1,000 条回答，请观察到表 1 中的结果。（本文显示的结果只作为演示之用，并不基于任何实际调查。）

表 1. 啤酒民意测验Keiths Olands Schooner 其它

285（28.50%） 250（25.00%） 215（21.50%） 250（25.00%）

这些数据看上去支持这样的结论：Keiths 是最受新斯科舍省居民欢迎的品牌。根据这些数字，您能得出这一结论吗？换句话说，您能根据从样本获得的结果对新斯科舍省的啤酒消费者总体作出推论吗？

许多与样本收集方式有关的因素会使相对受欢迎程度的推论不正确。可能样本中包含了过多 Keiths 酿酒厂的雇员；可能您没有完全预防一个人投多次票的情况，而这个人可能使结果出现偏差；或许被挑选出来投票的人与没有被挑选出来投票的人不同；或许上网的投票人与不上网的投票人不同。

大多数 Web 民意测验都存在这些解释上的困难。当您试图从样本统计数据得出有关总体参数的结论时，就会出现这些解释上的困难。从实验设计观点看，在收集数据之前首先要问的一个问题是：能否采取步骤帮助确保样本能够代表所研究的总体。

如果对所研究的总体得出结论是您做 Web 民意测验的动机（而不是为站点访问者提供的消遣），那么您应该实现一些技术，以确保一人一票（所以，他们必须用唯一的标识登录才能投票），并确保随机选择投票者样本（例如，随机选择成员的子集，然后给他们发电子邮件，鼓励他们投票）。

最终，目标是消除（至少减少）各种偏差，它们可能会削弱对所研究总体得出结论的能力。

检验假设

假设新斯科舍省啤酒消费者统计样本没有发生偏差，您现在能够得出 Keiths 是最受欢迎品牌这一结论吗？

要回答这个问题，请考虑一个相关的问题：如果您要获得另一个新斯科舍省啤酒消费者的样本，您希望看到完全相同的结果吗？实际上，您会希望不同样本中所观察到的结果有一定的变化。

考虑这个预期的抽样可变性，您可能怀疑通过随机抽样可变性是否比反映所研究总体中的实际差异能更好地说明观察到的品牌偏好。在统计学术语中，这个抽样可变性说明被称为虚假设（null hypothesis）。（虚假设由符号 Ho 表示）在本例中，用公式将它表示成这样的语句：在作出回答的所有类别中，各种回答的期望数目相同。

Ho：# Keiths = # Olands = # Schooner = # Other

如果您能够排除虚假设，那么您在回答 Keiths 是否是最受欢迎品牌这个最初的问题上取得了一些进展。那么，另一个可接受的假设是在所研究的总体中，各种回答所占比例不同。

这个“先检验虚假设”逻辑在民意测验数据分析中的多个阶段都适用。排除这一虚假设，这样数据就不会完全不同，随后您可以继续检验一个更具体的虚假设，即 Keiths 和 Schooner，或者 Keiths 与其它所有品牌之间没有差别。

您继续检验虚假设而不是直接评估另一假设，是因为对于在虚假设条件下人们希望观察到的事物进行统计建模更容易。接下来，我将演示如何对在虚假设下所期望的事物建模，这样我就可以将观察结果与在虚假设条件下所期望的结果加以比较。

对虚假设建模：X 平方分布统计

到目前为止，您已经使用一个报告每种回答选项频率计数（和百分比）的表汇总了 Web 民意测验的结果。要检验虚假设（表单元频率之间不存在差别），计算每个表单元与您在虚假设条件下所期望值的总体偏差度量要容易得多。

在这个啤酒欢迎度民意测验的示例中，在虚假设条件下的期望频率如下：

期望频率 = 观察数目 / 回答选项的数目

期望频率 = 1000 / 4

期望频率 = 250

要计算每个单元中回答的内容与期望频率相差多少的总体度量，您可以将所有的差别总计到一个反映观察频率与期望频率相差多少的总体度量中：(285 - 250) + (250 - 250) + (215 - 250) + (250 - 250)。

如果您这么做，您会发现期望频率是 0，因为平均值的偏差的和永远是 0。要解决这个问题，应当取所有差值的平方（这就是X 平方分布（Chi Square）中平方的由来）。最后，为了使各样本（这些样本具有不同的观察数）的这个值具有可比性（换句话说，使它标准化），将该值除以期望频率。因此，X 平方分布统计的公式如下所示（“O”表示“观察频率”，“E”等于“期望频率”）：

图 1. X 平方分布统计的公式

如果计算啤酒欢迎度民意测验数据的 X 平方分布统计，会得到值 9.80。要检验虚假设，需要知道在假设存在随机抽样可变性的情况下获得这么一个极限值的概率。要得出这一概率，需要理解 X 平方分布的抽样分布是什么样的。

观察 X 平方分布的抽样分布

图 2. X 平方分布图

在每幅图中，横轴表示所得到的 X 平方分布值大小（图中所示范围从 0 到 10）。纵轴显示各 X 平方分布值的概率（或称为出现的相对频率）。

当您研究这些 X 平方分布图时，请注意，当您在实验中改变自由度（即 df）时，概率函数的形状会改变。对于民意测验数据的示例，自由度是这样计算的：记下民意测验中的回答选项（k）的数目，然后用这个值减 1（df = k - 1）。

通常，当您在实验中增加回答选项的数目时，获得较大 X 平方分布值的概率会下降。这是因为当增加回答选项时，就增加了方差值的数目 — (观察值 - 期望值)2 — 您可以求它的总数。因此，当您增加回答选项时，获得大的 X 平方分布值的统计概率应该增加，而获得较小 X 平方分布值的概率会减少。这就是为什么 X 平方分布的抽样分布的形状随着 df 值的不同而变化的原因。

此外，要注意到通常人们对 X 平方分布结果的小数点部分不感兴趣，而是对位于所获得的值右边曲线的总计部分感兴趣。该尾数概率告诉您获取一个象您观察到的极限值是可能（如一个大的尾数区域）还是不可能（小的尾数区域）。（实际上，我不使用这些图来计算尾数概率，因为我可以实现数学函数来返回给定 X 平方分布值的尾数概率。我在本文后面讨论的 X 平方分布程序中会采用这种做法。）

要进一步了解这些图是如何派生出来的，可以看看如何模拟与 df = 2（它表示 k = 3）对应的图的内容。想象把数字 1、2 和 3 放进帽子里，摇一摇，选一个数字，然后记录所选的数字作为一次尝试。对这个实验进行 300 次尝试，然后计算 1、2 和 3 出现的频率。

每次您做这个实验时，都应当期望结果有稍微不同的频率分布，这一分布反映了抽样的可变性，同时，这个分布又不会真正偏离可能的概率范围。

下面的 Multinomial 类实现了这一想法。您可以用以下值初始化该类：要做实验的次数、每个实验中所做尝试的次数，以及每次试验的选项数目。每个实验的结果记录在一个名为 Outcomes 的数组中。

清单 1. Multinomial 类的内容

<?php

// Multinomial.php

// Distributed under LGPL

class Multinomial {

var $NExps;

var $NTrials;

var $NOptions;

var $Outcomes = array();

function Multinomial($NExps, $NTrials, $NOptions) {

$this->NExps = $NExps;

$this->NTrials = $NTrials;

$this->NOptions = $NOptions;

for ($i=0; $i < $this->NExps; $i++) {

$this->Outcomes[$i] = $this->runExperiment();

}

function runExperiment() {

$Outcome = array();

for ($i = 0; $i < $this->NExps; $i++){

$choice = rand(1,$this->NOptions);

$Outcome[$choice]++;

}

return $Outcome;

}

请注意，runExperiment 方法是该脚本中非常重要的一部分，它保证在每次实验中所做出的选择是随机的，并且跟踪到目前为止在模拟实验中做出了哪些选择。

为了找到 X 平方分布统计的抽样分布，只需获取每次实验的结果，并且计算该结果的 X 平方分布统计。由于随机抽样的可变性，因此这个 X 平方分布统计会随实验的不同而不同。

下面的脚本将每次实验获得的 X 平方分布统计写到一个输出文件以便稍后用图表表示。

清单 2. 将获得的 X 平方分布统计写到输出文件

<?php

[1] [2] [3] 下一页