学过一点统计质量管理或有过六西格玛管理培训经历的人都知道“统计区间Statistical Interval”的概念,有的还在实际工作对其有所应用。但根据笔者的观察发现,绝大多数工程技术人员对这个统计概念的理解似是而非,导致根据统计推断做出的判断与实际情况相悖,产生了不必要的质量损失。更有甚者,由于认识上的明显偏差,对于同一组数据,不同的人用各自认为正确的统计分析方法,得出了截然相反的结论,双方因此争论不休,大大降低了工作效率。这些现象显然违背了我们“由数据驱动,用量化的方法进行客观公正的决策”的初衷,因此有必要对这一概念做一个全面明确的阐述,并结合实际介绍如何有效地应用统计区间。
总体而言,统计区间分为三类:置信区间Confidence Interval,预测区间Prediction Interval,容忍区间Tolerance Interval。相对而言,置信区间是大家最熟悉的,但它的真正含义是什么?预测区间和容忍区间又有什么作用?让我们用一个实际案例来说明吧。
背景介绍:假定您在一个生产同轴电缆的公司负责质量管理工作,有一种主要产品的规格是:目标值=50欧姆,标准差=2欧姆。从上月(六月份)生产的所有产品中随机抽取了40个电缆并测量其阻值,发现此样本的平均值=49.86欧姆,标准差=1.96欧姆(具体分布参见用专业统计分析软件JMP制作的图一)。除了已经获得的样本统计量,您还能提炼出什么信息呢?对于下列问题,您会如何解答呢?
图一 同轴电缆的样本信息
1. 如果以总体均值作为衡量质量的指标,六月份产品的总体均值可能是多少?总体质量水平又大致如何?
2. 在已知六月份质量水准的情况下,能否预测下个月(七月份)生产1个同轴电缆,电阻会是多少?生产10个同轴电缆,电阻均值又会是多少?
3. 样本中电阻的最小值、最大值可以直接读取,那么占六月份所有产品99.73%的产品电阻的波动范围该如何预测?
问题1
置信区间可以用来解释类似“问题1”类型的问题。置信区间是用样本信息来估算表示总体参数(如平均值)的不确定程度的。一般情况下,总体平均值的置信区间可以用下列公式表示:
由上式可见,置信区间的取值范围是在样本均值(即总体均值的估计值)的基础上增加一定比例的误差构成的,而误差值是由样本大小n、t分布的分位数和样本标准差s(即总体标准差的估计值)决定的。具体地,我们可以用JMP软件快速计算出置信区间的大小,结果如图二所示。
图二 同轴电缆的置信区间
由图二可知,95%的均值置信区间的下限为49.23,上限为50.49。也就是说,我们认为所有六月份产品的电阻均值有95%的可能性落在[49.23欧姆,50.49欧姆]的范围之内。因为这个范围内包含了目标值50欧姆,所以我们有95%的把握相信六月份的产品质量与目标还是很接近的。
问题2
预测区间可以用来解释类似“问题2”类型的问题。预测区间是用已经发生事件的样本信息来估算表示未来发生事件的参数(如单个值、平均值)的不确定程度的。一般情况下,总体未来平均值的预测区间可以用下列公式表示:
由上式可见,预测区间的定义公式和置信区间很相似,只是取值范围更大一些。原因很简单:预测区间需要考虑置信区间不用考虑的预测噪音。同样,我们可以用JMP软件快速计算出预测区间的大小,结果如图三所示。
图三 同轴电缆的预测区间
由图三可知,当未来事件数为1时,95%的均值预测区间的下限为45.84,上限为53.88;当未来事件数为10时,95%的均值预测区间的下限为48.46,上限为51.26。也就是说,我们有95%的把握认为:如果七月份生产1个同轴电缆的话,产品的电阻值将落在[45.84欧姆,53.88欧姆]的范围之内;如果七月份生产10个同轴电缆的话,产品的电阻均值将落在[48.46欧姆,51.26欧姆]的范围之内。
问题3
容忍区间可以用来解释类似“问题3”类型的问题。容忍区间是用样本数据来估算表示指定比例的总体上下限(而不是平均值)的不确定程度的。一般情况下,总体的容忍区间可以用下列公式表示:
由上式可见,容忍区间的定义公式前两者有较大不同,使用了相对比较复杂的g函数,具体的数学推导过程在此不做介绍,只是强调其值与置信度?、指定比例p和样本大小n密切相关。我们依然用JMP软件快速计算出容忍区间的大小,结果如图四所示。
图四 同轴电缆的容忍区间
由图四可知,置信度为95%、指定比例为99.73%的容忍区间的下限为42.52,上限为57.20。也就是说,我们有95%的把握认为:所有六月份产品的电阻有99.73%落在[42.52欧姆,57.20欧姆]的范围之内。
通过上述案例的演示,我们可以比较清晰地了解置信区间、预测区间和容忍区间这三个容易张冠李戴的统计概念的现实意义以及各自适用的场合。笔者谨以此抛砖引玉,希望越来越多已经建立精细化管理意识的工程技术人员无论是在日常的质量改进工作,还是在六西格玛项目的实施中,都能够在明确问题实质的前提下,选用最具针对性的统计工具更加精准地揭示产品或流程的客观规律。
本文之所以选用JMP作为实现载体,是由于一般的统计软件只能实现置信区间之类的初级计算,无法满足预测区间和容忍区间等高级统计区间的深入应用,专业质量管理统计分析软件JMP能完整地实现上述统计概念的分析应用。出于统计分析的整体一致性和长期发展性的考虑,笔者运用JMP软件做了统一格式的分析说明。希望读者在专业统计分析工具的帮助下,也能享受到现代化统计分析给我们带来的轻松和快乐。