相关系数(Correlation coefficient)
相关表和相关图可反映两个变量之间的相互关系及其相关方向,但无法确切地表明两个变量之间相关的程度。
著名统计学家卡尔·皮尔逊设计了统计指标——相关系数。相关系数是用以反映变量之间相关关系密切程度的统计指标。相关系数是按积差方法计算,同样以两变量与各自平均值的离差为基础,通过两个离差相乘来反映两变量之间相关程度;着重研究线性的单相关系数。
依据相关现象之间的不同特征,其统计指标的名称有所不同。如将反映两变量间线性相关关系的统计指标称为相关系数(相关系数的平方称为判定系数);将反映两变量间曲线相关关系的统计指标称为非线性相关系数、非线性判定系数;将反映多元线性相关关系的统计指标称为复相关系数、复判定系数等。
相关系数的公式
相关系数用r表示,它的基本公式为:
r=frac{nsum xy-sum xsum y}{sqrt{nsum x^2-(sum x)^2}sqrt{nsum y^2-(sum y)^2}}
相关系数的值介于–1与+1之间,即–1≤r≤+1。其性质如下:
* 当r>0时,表示两变量正相关,r<0时,两变量为负相关。
* 当|r|=1时,表示两变量为完全线性相关,即为函数关系。
* 当r=0时,表示两变量间无线性相关关系。
* 当0<|r|<1时,表示两变量存在一定程度的线性相关。且|r|越接近1,两变量间线性关系越密切;|r|越接近于0,表示两变量的线性相关越弱。
* 一般可按三级划分:|r|<0.4为低度线性相关;0.4≤|r|<0.7为显著性相关;0.7≤|r|<1为高度线性相关。
例:某财务软件公司在全国有许多代理商,为研究它的财务软件产品的广告投入与销售额的关系,统计人员随机选择10家代理商进行观察,搜集到年广告投入费和月平均销售额的数据,并编制成相关表,见表1:
表1广告费与月平均销售额相关表单位:万元
年广告费投入 月均销售额
12.5
15.3
23.2
26.4
33.5
34.4
39.4
45.2
55.4
60.9 21.2
23.9
32.9
34.1
42.5
43.2
49.0
52.8
59.4
63.5
参照表1,可计算相关系数如表2:
序号 广告投入(万元)
x 月均销售额(万元)
y x^2 y2 xy
1
2
3
4
5
6
7
8
9
10 12.5
15.3
23.2
26.4
33.5
34.4
39.4
45.2
55.4
60.9 21.2
23.9
32.9
34.1
42.5
43.2
49.0
52.8
59.4
63.5 156.25
234.09
538.24
696.96
1122.25
1183.36
1552.36
2043.04
3069.16
3708.81 449.44
571.21
1082.41
1162.81
1806.25
1866.24
2401.00
2787.84
3528.36
4032.25 265.00
365.67
763.28
900.24
1423.75
1486.08
1930.60
2386.56
3290.76
3867.15
合计 346.2 422.5 14304.52 19687.81 16679.09
r=frac{nsum xy-sum xsum y}{sqrt{nsum x^2-(sum x)^2}sqrt{nsum y^2-(sum y)^2}}
=frac{10imes 16679.09-346.2imes 422.5}{sqrt{10imes 14304.52-346.2^2}sqrt{10imes 19687.81-422.5^2}}
=0.9942
相关系数为0.9942,说明广告投入费与月平均销售额之间有高度的线性正相关关系。