第8章方差分析 课件(共42张PPT)-《统计学(微课版)》同步教学(人民邮电版)

资源下载
  1. 二一教育资源

第8章方差分析 课件(共42张PPT)-《统计学(微课版)》同步教学(人民邮电版)

资源简介

(共42张PPT)
1
统计学
Statistics
2
第 8 章 方差分析
8.1 方差分析的一般问题
8.2 单因素方差分析
8.3 双因素方差分析
8.4 小结
3
第 8 章 方差分析
8.1 方差分析的一般问题
4
方差分析的一般问题
方差分析(analysis of variance,简称ANOVA)是通过比较不同类别所对应的数值变量的总体均值是否相等来判断该类别变量对数值变量是否存在显著影响。
在实验中,常常把可能影响数值变量的类别变量称为因子或因素(factor)。
因子的不同取值(类别)称为水平(level)或处理(treatment)。
因素对数值变量的影响称为效应(effect)。
5
方差分析的一般问题
如果只分析一个因素对数值变量的影响,就称为单因素方差分析(one-way analysis of variance)。
有时候可能会同时研究两个因素对数值变量的影响。如果只单独分析两个因素对数值变量各自的影响,就称为只考虑主效应(main effect)的双因素方差分析(two-way analysis of variance),或称为无重复双因素方差分析(two-way analysis of variance without replication);如果一个因素对数值变量的影响效应会随着另一个因素的不同水平而发生变化,则称两个因素存在交互效应(interaction),此时就需要进行考虑交互效应的双因素方差分析,或称为可重复双因素方差分析(two-way analysis of variance with replication)。
6
方差分析的一般问题
方差分析的目的是要检验各个因子不同水平下的数值变量的总体均值是否都相等,而这一检验过程则是通过对数据的误差分解来实现的。
以单因素方差分析为例,首先计算所有观测数据的总样本均值,将每个观测值减去总样本均值的差值求平方后再加总,得到总平方和(sum of squares for total,记为SST),反映所有观测数据的总误差(total error)大小,即数据总的离散程度;
然后,计算同一因子水平下观测值的样本均值,每一个样本均值与总样本均值的差值求平方后再加总,得到组间平方和(between-group sum of squares),也称为因子平方和(sum of squares for factor,记为SS因子),反映不同因子水平下样本均值之间的差异程度,即组间误差(between-group error);
7
方差分析的一般问题
最后,将同一因子水平下的每个观测值减去该因子水平下的样本均值,差值求平方后再加总,得到组内平方和(within-group sum of squares),反映同一因子水平下样本数据之间的离散程度,即组内误差(within-group error)。
由于同一因子水平下的组内误差主要来源是随机因素的影响,因此也将其称为随机误差(random error)或残差(error) 。
而组间误差的来源除了随机因素的影响,更主要的是因子不同水平(处理)对数值变量可能产生的影响,因此,组间误差也称为处理误差(treatment error) 。
8
方差分析的一般问题
方差分析的基本原理就是要比较处理误差(因子均方)和随机误差(残差均方)的大小。
可以证明,总误差=处理误差+随机误差。
由于各平方和的大小与观测值的多少有关,为消除其影响,通常还需要将各平方和除以相应的自由度,得到的结果称为均方(mean square,记为MS)或方差(variance)。
9
方差分析的一般问题
单因素方差分析的原假设是不同因子水平下的总体均值都相等,备择假设是不同因子水平下的总体均值不全相等。
如果类别变量对数值变量没有显著影响,即因子不同水平下的数值变量总体均值都相等,那么处理误差和随机误差的主要来源都只有随机因素的影响,二者的比值应该接近于1;否则,处理误差中除了随机误差,还包含因子不同水平的影响,处理误差与随机误差的比值应该大于1 。
因此,方差分析构造的检验统计量就是因子均方与残差均方的比值。
10
方差分析的一般问题
(2)正态性。方差分析要求各因子不同水平下数值变量的总体均服从正态分布,即不同水平下的样本数据都是来自于正态分布总体的简单随机样本。
理论上,方差分析有三个基本假定:
(1)独立性。方差分析要求各因子不同水平下的数据都是来自于相应总体的独立随机样本。
(3)方差齐性。方差分析要求各因子不同水平下数值变量总体分布的方差相等。
11
第 8 章 方差分析
8.2 单因素方差分析
12
一般模型
设因子的水平数为k,分别用 1、 2、…、 k表示不同水平下数值变量的总体均值,单因素方差分析的原假设和备择假设为:
H0: 1= 2=…= k;
H1: i不全相等(i=1,2,…,k)
更一般地,可以将单因素方差分析表示为下面的线性模型:
yij= i+ ij
其中,yij表示因子第i个水平下的第j个观测值; ij表示因子第i个水平下的第j个观测值的随机误差。显然,同一水平下的各个观测值是在该水平下总体均值的基础上附加了随机误差后得到的。
13
一般模型
进一步地,假设不考虑因子和随机因素的影响时,数值变量的总体均值为 ,那么因子第i个水平的附加效应为( i- ),记为αi,即αi = i- ,代入上述模型得到
yij= +αi+ ij
因此,要检验单个因子不同水平下数值变量的总体均值是否相等,等同于检验如下假设:
H0:α1=α2=…=αk=0;
H1:αi至少有一个不等于0(i=1,2,…,k)
按照方差分析的三个假定条件,要求上述模型中的误差项 i是均值为0、方差相等的独立同分布正态随机变量。
14
效应检验
在原假设成立的前提下,构造的检验统计量
结合指定的显著性水平α,临界值即为F(k-1, n-k)分布的α上侧分位数(Fα),根据样本数据计算出检验统计量F的实际取值,与临界值进行比较,若F> Fα,则拒绝原假设。
服从自由度为k-1和n-k的F分布。
利用计算机也可以直接计算p-值,通过比较p-值与α的大小,做出决策。
15
效应检验
实际应用时,计算机输出的单因素方差分析表的一般形式如表8-3所示。其中,ni是因子第i个水平下的观测值个数, 表示第i个水平下的样本均值,
表示总样本均值。
误差来源 平方和 自由度 均方 F统计量 p-值
组间 k-1
组内 n-k
总计 n-1
表8-3 单因素方差分析表
16
效应检验
【例7.4】刚刚大学毕业的小王选择回到家乡创业,经营了一家农场。由于黑猪生长周期长,为提高养殖效率,小王按照不同的比例配备了四种饲料(A、B、C、D),并随机挑选了农场新购进的体重相同的20头仔猪进行分组实验。在其他饲养条件相同的情况下,一段时间后,记录下四组黑猪的体重数据如表8-1所示。试在0.05的显著性水平下,检验不同配比的饲料对黑猪体重是否有显著影响?
饲 料
A B C D
66.90 72.40 96.70 110.20
60.65 80.50 106.90 115.86
71.55 78.90 91.40 120.70
81.40 82.30 87.50 106.15
78.60 92.10 99.30 90.72
表8-1 四种饲料喂养的黑猪体重 单位:千克
17
效应检验
解:根据题意,分别用 1、 2、 3、 4表示不同饲料喂养的黑猪的总体平均体重,建立该问题的原假设和备择假设:
H0: 1= 2= 3= 4;
H1: i不全相等(i=1,2,3,4)
计算可知,SS因子=3987.5167,SS残差=1240.2721,SST=5227.7889,显然,SST=SS因子+SS残差。
总平方和、因子平方和、残差平方和的自由度分别为n-1=20-1=19,k-1=4-1=3,n-k=20-4=16,因此,计算得到MS因子=3987.5167/3=1329.1722,MS残差=1240.2721/16=77.5170,代入公式得到F统计量的值为
18
效应检验
指定的显著性水平α=0.05,使用Excel中的【F.INV.RT】函数可以计算得到F0.05 (3,16)=3.239,该检验的拒绝域即为F>3.239。
由于F的值落入了拒绝域,因此,拒绝原假设,即有理由认为不同配比的饲料对黑猪体重有显著影响。
也可以利用Excel中的【数据分析】工具,直接实现单因素方差分析,输出结果如下:
差异源 SS df MS F P-value F crit
组间 3987.517 3 1329.172 17.14685 2.98E-05 3.238872
组内 1240.272 16 77.51701
总计 5227.789 19
表8-5 饲料对黑猪体重影响的方差分析表
表8-5的结果显示与上述计算过程完全一致,检验的p-值接近于0,拒绝原假设,结论一致。
19
多重比较
当单因素方差分析的结果显示拒绝了原假设,则意味着有理由认为因子不同水平下数值变量的总体均值不全相等,该因子对数值变量有显著影响,此时自然会产生另一个问题:到底哪些因子水平下数值变量的总体均值存在显著差异呢?这就需要进行两两总体均值的多重比较(multiple comparisons)。
一般地,多重比较的原假设和备择假设为:
H0: i= j;H1: i≠ j
(i=1,2,…,k;j=1,2,…,k;i≠j)
20
多重比较
【例8.2】沿用例8.1,试在0.05的显著性水平下,进一步对不同饲料喂养的黑猪平均体重进行多重比较。
解:由例8.1的分析结果已知,不同饲料喂养的黑猪平均体重不全相等,为进一步确认哪些饲料喂养的黑猪平均体重之间存在显著差异,建立该问题的原假设和备择假设:
H0: i= j;H1: i≠ j
(i=1,2,3,4;j=1,2,3,4;i≠j)
21
多重比较
利用SPSS软件中的LSD法输出的多重比较结果如下:
(I) 饲料 (J) 饲料 均值差 (I-J) 标准误 显著性 95% 置信区间
下限 上限
LSD dimension2 A B -9.42000 5.56838 .110 -21.2244 2.3844
C -24.54000* 5.56838 .000 -36.3444 -12.7356
D -36.90600* 5.56838 .000 -48.7104 -25.1016
B A 9.42000 5.56838 .110 -2.3844 21.2244
C -15.12000* 5.56838 .015 -26.9244 -3.3156
D -27.48600* 5.56838 .000 -39.2904 -15.6816
C A 24.54000* 5.56838 .000 12.7356 36.3444
B 15.12000* 5.56838 .015 3.3156 26.9244
D -12.36600* 5.56838 .041 -24.1704 -.5616
D A 36.90600* 5.56838 .000 25.1016 48.7104
B 27.48600* 5.56838 .000 15.6816 39.2904
C 12.36600* 5.56838 .041 .5616 24.1704
*. 均值差的显著性水平为 0.05。
表8-6 四种饲料对黑猪体重影响的多重比较(LSD法)
22
多重比较
表8-7给出了SPSS软件中S-N-K法输出的多重比较结果:
饲料 N alpha=0.05的子集
1 2 3
Student-Newman-Keulsa A 5 71.8200
B 5 81.2400
C 5 96.3600
D 5 108.7260
显著性 .110 1.000 1.000
将显示同类子集中的组均值。
a. 将使用调和均值样本大小 = 5.000。
表8-7 四种饲料对黑猪体重影响的多重比较(S-N-K法)
23
第 8 章 方差分析
8.3 双因素方差分析
24
一般模型
当考虑两个因素A、B对数值变量的影响时,假定因素A有I个水平,因素B有J个水平,总样本量为n。
如果只单独分析两个因素对数值变量的主效应,而不考虑交互效应,属于无重复双因素方差分析,可以建立一般线性模型:
yijk= +αi+βj+ ijk
其中,yijk表示因素A第i个水平和因素B第j个水平组合下的第k个观测值; 是不考虑两个因素和随机因素的影响时,数值变量的总体均值;αi是因素A第i个水平对数值变量的附加效应;βj是因素B第j个水平对数值变量的附加效应; ijk表示因素A第i个水平和因素B第j个水平组合下的第k个观测值的随机误差。对误差项 ijk的假定条件与单因素方差分析相同。
25
一般模型
要检验两个因素的主效应是否显著,等同于检验如下假设:
因素A:
H0:α1=α2=…=αI=0;
H1:αi至少有一个不等于0(i=1,2,…,I)
因素B:
H0:β1=β2=…=βJ=0;
H1:βj至少有一个不等于0(j=1,2,…,J)
26
一般模型
如果两个因素存在交互效应,就需要进行考虑交互效应的双因素方差分析,即可重复双因素方差分析,模型可进一步扩展为:
yijk= +αi+βj+γij+ ijk
其中,γij表示因素A第i个水平和因素B第j个水平组合产生的交互效应。
在可重复双因素方差分析中,除了要检验两个因素的主效应,还需要检验交互效应是否显著,等同于检验如下假设:
H0:γij都等于0;
H1:γij至少有一个不等于0
(i=1,2,…,I;j=1,2,…,J)
27
无重复双因素方差分析
服从自由度为I-1和n-I-J+1的F分布。
在原假设成立的前提下,检验因素A主效应的统计量
在只考虑两个因素的主效应情形下,将样本数据的总平方和拆分成三部分:因素A平方和(反映因素A的处理误差)、因素B平方和(反映因素B的处理误差)、残差平方和;然后除以相应的自由度(三个平方和的自由度分别为I-1、J-1和n-I-J+1)得到均方;最后分别利用因素A的均方和残差均方的比值、因素B的均方和残差均方的比值构造两个F检验统计量。
检验因素B主效应的统计量
服从自由度为J-1和n-I-J+1的F分布。
28
无重复双因素方差分析
nij是因素A第i个水平和因素B第j个水平组合下的观测值个数(对于只考虑主效应的无重复双因素方差分析,各因子不同水平组合下的观测值可以只有一个,即nij=1,此时n=IJ);
为便于表述,定义如下符号:
,表示因素A第i个水平下所有观测值的样本均值;
,表示因素B第j个水平下所有观测值的样本均值;
,表示因素A第i个水平和因素B第j个水平组合下观测值的样本均值;
,表示所有观测值的样本均值,即总样本均值。
29
无重复双因素方差分析
实际应用时,计算机输出的无重复双因素方差分析表的一般形式如表8-8所示。
误差来源 平方和 自由度 均方 F统计量 p-值
因素A I-1
因素B J-1
残差 n-I-J+1
总计 n-1
表8-8 无重复双因素方差分析表
30
无重复双因素方差分析
【例8.3】某医学机构研究年龄(分组)和不同补钙剂量(分组)对骨密度的影响,首先将志愿者按照年龄分为7组,每个年龄组的4个志愿者随机接受4组不同剂量(A、B、C、D)的补钙实验,一年后测量的骨密度值如表8-9所示。假定其他可能影响骨密度的因素均被控制,试在0.05的显著性水平下,检验不同剂量的补钙和年龄对骨密度是否有显著影响?
骨密度 补钙剂量
A B C D
年龄组 1 2.42 1.65 2.75 3.35
2 1.99 1.76 2.58 3.12
3 2.03 1.64 2.91 2.99
4 1.87 0.85 2.26 1.43
5 1.35 1.28 2.14 2.68
6 2.12 1.90 2.35 0.52
7 0.38 0.09 0.25 0.63
表8-9 不同年龄和不同补钙剂量下骨密度值 单位:克/立方厘米
31
无重复双因素方差分析
解:根据题意,该医学机构同时研究年龄(因素A)和补钙剂量(因素B)对骨密度的影响,因素A的水平(处理)有7个,因素B的水平(处理)有4个。由于两个因子不同水平组合下的观测值都只有1个,该问题属于无重复双因素方差分析。用αi表示因素A第i个水平对骨密度的主效应,βj表示因素B第j个水平对骨密度的主效应,依据前文,建立的原假设和备择假设为:
因素A:
H0:α1=α2=…=α7=0;
H1:αi至少有一个不等于0(i=1,2,…,7)
因素B:
H0:β1=β2=β3=β4=0;
H1:βj至少有一个不等于0(j=1,2,3,4)
32
无重复双因素方差分析
利用Excel中的【数据分析】工具实现无重复双因素方差分析,数据录入格式与表8-9相同。Excel将分别以年龄为行因素、补钙剂量为列因素,输出如表8-10所示的方差分析表:
差异源 SS df MS F P-value F crit
行 13.59809 6 2.266348 7.745339 0.000318 2.661305
列 3.317782 3 1.105927 3.779554 0.028993 3.159908
误差 5.266943 18 0.292608
总计 22.18281 27
表8-10 年龄(行)和补钙剂量(列)对骨密度影响的方差分析表
在α=0.05的显著性水平下,行因素(年龄)检验的p-值(0.000318)和列因素(补钙剂量)检验的p-值(0.028993)均小于α,通过了检验,说明有理由相信两个因素对骨密度都存在显著的影响效应。
33
无重复双因素方差分析
利用SPSS软件实现无重复双因素方差分析,需要先分别定义因素A(年龄)、因素B(补钙剂量)和数值变量(骨密度)三个变量,然后录入相应的因子水平和观测值。SPSS软件输出的方差分析结果为:
源 III 型平方和 df 均方 F Sig.
校正模型 16.916a 9 1.880 6.423 .000
截距 93.952 1 93.952 321.086 .000
年龄 13.598 6 2.266 7.745 .000
补钙剂量 3.318 3 1.106 3.780 .029
误差 5.267 18 .293
总计 116.135 28
校正的总计 22.183 27
表8-11 年龄和补钙剂量对骨密度影响的一般线性模型方差分析结果
34
可重复双因素方差分析
在原假设成立的前提下,检验因素A主效应的统计量 服从自由度为I-1和n-IJ的F分布。
如果除了考虑两个因素的主效应,还需要考虑二者可能存在的交互效应,那么两个因素不同水平组合下至少要有2个观测值(即nij≥2)。将样本数据的总平方和拆分成四部分:因素A平方和、因素B平方和、交互效应平方和、残差平方和;然后除以相应的自由度得到均方;最后分别利用因素A的均方和残差均方的比值、因素B的均方和残差均方的比值、交互效应的均方和残差均方的比值构造三个F检验统计量。
检验因素B主效应的统计量 服从自由度为J-1和n-IJ的F分布。
检验因素A和因素B交互效应的统计量 服从自由度为(I-1)(J-1)和n-IJ的F分布。
35
可重复双因素方差分析
实际应用时,计算机输出的可重复双因素方差分析表的一般形式如表8-12所示。
误差来源 平方和 自由度 均方 F统计量 p-值
因素A I-1
因素B J-1
交互效应 (I-1)(J-1)
残差 n-IJ
总计 n-1
表8-12 可重复双因素方差分析表
36
可重复双因素方差分析
【例8.4】某连锁超市研究不同促销方式(无促销、赠送礼品、打折和返券)和不同门面位置(商业区、居民小区和写字楼)对超市月销售额的影响。首先在不同位置分别选取了3家超市,每家超市先后采取4种不同的促销方式进行实验,记录下当月的销售额数据如表8-13所示。假定其他可能影响销售额的条件均相同,试在0.05的显著性水平下,检验不同促销方式和门面位置对超市月销售额是否有显著影响?两个因素之间是否存在交互效应?
销售额 门面位置
商业区 居民小区 写字楼
促销方式 无促销 410 265 180
305 310 290
450 220 330
赠送礼品 380 290 220
310 350 170
390 300 256
打折 590 445 290
480 480 283
510 500 260
返券 470 430 246
415 428 275
390 530 320
表8-13 不同门面位置的超市在不同促销方式下的月销售额 单位:万元
37
可重复双因素方差分析
解:根据题意,该超市同时研究促销方式(因素A)和门面位置(因素B)对销售额的影响,并且需要考虑两个因素的交互效应。因素A的水平(处理)有4个,因素B的水平(处理)有3个,两个因子不同水平组合下的观测值都有3个,该问题属于可重复双因素方差分析。用αi表示因素A第i个水平对销售额的主效应,βj表示因素B第j个水平对销售额的主效应,γij表示因素A第i个水平和因素B第j个水平组合产生的交互效应。依据前文,建立的原假设和备择假设为:
因素A: H0:α1=α2=α3=α4=0;
H1:αi至少有一个不等于0(i=1,2,3,4)
因素B: H0:β1=β2=β3=0;
H1:βj至少有一个不等于0(j=1,2,3)
交互效应: H0:γij都等于0;
H1:γij至少有一个不等于0
(i=1,2,3,4;j=1,2,3)
38
可重复双因素方差分析
利用Excel中的【数据分析】工具实现可重复双因素方差分析,数据录入格式与表8-13相同。Excel将分别以促销方式为行因素、门面位置为列因素,输出如表8-14所示的方差分析表:
在α=0.05的显著性水平下,行因素(促销方式)检验的p-值(1.1E-05)、列因素(门面位置)检验的p-值(6.31E-08)以及二者交互效应检验的p-值(0.016749)均小于α,通过了检验,说明有理由相信两个因素对销售额都存在显著的影响效应,并且不同促销方式和门面位置搭配在一起还会对销售额产生交互影响。
差异源 SS df MS F P-value F crit
样本 108662.2 3 36220.74 14.89204 1.1E-05 3.008787
列 174008 2 87004 35.7714 6.31E-08 3.402826
交互 47922.44 6 7987.074 3.283859 0.016749 2.508189
内部 58373.33 24 2432.222
总计 388966 35
表8-14 促销方式和门面位置对销售额影响的方差分析表
39
可重复双因素方差分析
利用SPSS软件实现可重复双因素方差分析,同样需要先分别定义因素A(促销方式)、因素B(门面位置)和数值变量(销售额)三个变量,然后录入相应的因子水平和观测值。SPSS软件输出的方差分析结果如表8-15所示:
源 III 型平方和 df 均方 F Sig.
校正模型 330592.667a 11 30053.879 12.357 .000
截距 4528384.000 1 4528384.000 1861.830 .000
促销方式 108662.222 3 36220.741 14.892 .000
门面位置 174008.000 2 87004.000 35.771 .000
促销方式 * 门面位置 47922.444 6 7987.074 3.284 .017
误差 58373.333 24 2432.222
总计 4917350.000 36
校正的总计 388966.000 35
表8-15 促销方式和门面位置对销售额影响的一般线性模型方差分析结果
40
第 8 章 方差分析
8.4 小结
41
小结
方差分析研究类别变量对数值变量的影响,其实质是通过对数值变量观测值的误差分解检验多个总体均值是否相等。
可能影响数值变量的类别变量称为因子或因素,因子的不同取值(类别)称为水平或处理,因子对数值变量的影响也称为效应。
有时候,人们只分析一个因素对数值变量的影响,属于单因素方差分析;但如果同时研究两个因素对数值变量的影响,则属于双因素方差分析。
42
小结
当两个因素不同水平组合下的观测值至少有2个,既可以分析两个因素对数值变量的主效应,还可以分析一个因素对数值变量的影响效应是否会随着另一个因素的不同水平而发生变化,即两个因素是否存在交互效应,这属于可重复双因素方差分析;否则,只能进行不考虑交互效应的无重复双因素方差分析。
如果效应检验结果是显著的,说明因子不同水平下数值变量的总体均值不全相等,为了进一步确定到底哪些总体均值之间存在显著差异,则需要进行多重比较。

展开更多......

收起↑

资源预览