资源简介 (共40张PPT)统计学:思想、方法与应用第7章 方差分析7.1 单因素方差分析7.2 方差分析回顾7.3 双因素方差分析学习目标了解方差分析的一般思想;明白单因素方差分析能解决什么问题;了解为什么要介绍双因素方差分析;相关理论在统计学软件中的应用。相应统计分析结果的解读。方差分析(Analysis of Variance,ANOVA)是英国统计学家罗纳德·费歇尔(Ronald Fisher)20世纪年代发展起来的一种在实践中被广泛运用的统计方法。从形式上看,方差分析是比较多个总体的均值是否相等,但本质上,它所研究的是分类型自变量对数量型因变量的影响,这使得它同后面一章介绍的回归分析关系密切,但是又不完全相同。如果有一个人们感兴趣的指标(因变量),其变化可能受到众多离散型因素(如性别、种族、职业等)而不是连续型因素(如年龄、收入、价格等)的影响,我们可以考虑使用方差分析。这些影响因变量的离散型因素称为因素或因子(factor),因素的取值称为水平(level)或处理(treatment)。这里,因素就是变量,水平就是该变量的取值,这些名词是分类或属性变量所特有的。为了了解哪些因素对感兴趣的指标(因变量)有影响,我们必须在众多因素中确定哪些因素影响大些,哪些影响小些,以便于进一步研究对因变量的预测和控制。为什么我们要学习方差分析为什么不能用前几章讨论的检验来比较总体的均值差异呢?可以每次比较两组均值,但是会累加了第一类错误。假设我们采用中不同的方法(A,B,C,D)训练新射击手。在训练结束后,我们用普通的检验方法比较不同射击技巧的成绩。研究问题:4组射击成绩的均值是否存在差异?回答这个问题我们需要比较4种训练方法。为什么我们要学习方差分析用t分布比较4组总体均值,需要进行6次不同的t检验。也就是说,我们需要分别比较4种方法的平均成绩:A和B,A和C,A和D,B和C,B和C,以及C和D。如果显著性水平设为0.05,那么正确判断的概率为0.95。因为我们分别进行6次独立的检验,任何一次检验都不做错误判断的概率为:P(都正确)=0.956=0.735因此,至少一次错误的概率为1-0.735=0.265。总之,如果我们用t分布分别做6次独立的检验,至少有一样本错误发生的概率从0.05上升到了0.265。显然我们需要用更好的办法来而非6次t检验,方差分析允许我们同时比较多个处理的均值并且避免了第一类错误概率的增加。7.1 单因素方差分析例7.1 研究员想挑选出能使小麦亩产量最大的化肥,选了三个品牌的化肥:A,B和C。开始,他将土地分成大小相同的24块。小麦在同时以相同的方式播种,唯一差别就是所施的肥料不同,8块地用A,8块地用B,其余8块地用C。在收割的季节,记下每块地的小麦产量。这里三种不同的肥料就是三种不同的处理。产量用公斤表示。数据见表7.1。A B C570 660 540560 760 580610 670 530580 710 550590 630 520580 730 560630 640 510600 680 5307.1.1小麦产量与化肥品牌之间的关系为了显示平均产量是否随化肥品牌不同而不同,我们首先看散点图7.1。这里的散点图与前面介绍的散点图有一些不一样,其横轴是分类变量。7.1.1小麦产量与化肥品牌之间的关系从散点图可以发现,不同品牌的化肥所导致的小麦平均产量的确是有明显差别的。而且即使是同一品牌,小麦的产量也明显不同。这些区别至少说明,小麦的产量与化肥的品牌之间是有关系的。如果这三块地的小麦产量差不多,则可以认为小麦的产量与化肥的品牌之间是没有关系的。7.1.1小麦产量与化肥品牌之间的关系为了更容易的找出各化肥品牌的小麦平均产量的不同,我们对每个化肥品牌做一个箱线图。7.1.1小麦产量与化肥品牌之间的关系比较基于数据的箱线图可以揭示小麦产量的哪些信息呢?首先应该来对比不同化肥品牌的中位数,因为它们代表中心值。当我们仔细看盒子中间代表中位数的横线时,就会注意到品牌B的中位数最高。因此可以断定这个品牌的化肥的小麦产量最高。类似的,品牌C的中位数最低,则品牌C的化肥的小麦产量最低。品牌B的化肥的小麦产量居中。箱线图的另一个特征是盒子的高度不同。例如品牌A和品牌C的盒子高度接近,都比品牌B盒子要矮,这就意味着品牌A和品牌C这两种化肥下的小麦产量波动性都小比品牌B的化肥下的小麦产量。7.1.2关系强度有多大?箱线图比散点图更能显示各地区之间小麦产量的不同和两个变量间存在关系。但我们还想知道这两个变量之间关系的强度,以及这个关系是否可能出于偶然。要回答这些问题我们还需要做进一步的工作,即利用方差分析。我们的兴趣在均值上,但在判断均值之间是否有差异时要借助于方差。7.1.2关系强度有多大?原理为:把因变量的值随着自变量的不同取值而得到的变化进行分解,使得每一个自变量都有一份贡献,最后剩下无法用已知的原因解释的则看成随机误差的贡献。然后用各自变量的贡献和随机误差的贡献进行比较(F检验),以判断该自变量的不同水平是否对因变量的变化有显著贡献。输出就是F-值和检验的一些p-值。方差分析原理模型中的假定:涉及的检验: H0: m1=…=mp线性模型:公式:总平方和=组间平方和+组内平方和其中, SST 有自由度 n-1, SSB有自由度 p-1, SSE 有自由度 n-p,在正态分布的假设下, 如果各组增重均值相等(零假设), 则有自由度为 p-1 和n-p 的F 分布.7.1.3在总体中的关系如何?由SPSS可以得到方差分析表:来源 平方和 比例 自由度 均方 F-比 p-值化肥 86800 0.802 2 43400 42.6 0.00000004残差 21400 0.198 21 1019总计 108200 1.000 23该表说明我们要拒绝零假设,各化肥品牌导致的小麦产量之间有显著不同.方差分析表的说明: Sum of Squares(平方和)Df自由度Mean Square(均方)FSig.Between Groups(处理)SSBP-1MSB=SSB/(p-1)F=MSB/MSEP(F>Fa)Within Groups(误差)SSEn-pMSE=SSE/(n-p) Total(总和)SSTn-1 这里n 为观测值数目p 为水平数,Fa满足 P(F>Fa)=a.这是自由度为 p-1和n-p 的 F-分布的概率7.1.4 F检验:比较均值虽然方差分析拒绝了零假设,但是我们可能还有一些疑惑,比如(1)到底哪两种品牌化肥的小麦平均产量不相同?(2)如果两种化肥的小麦平均产量不同,那么它们的平均产量底有多大差别?7.1.4 F检验:比较均值为了找到是哪一个均值与众不同,我们在图7.3中列出了每种化肥得到的小麦产量的均值。从图中可以看出中化肥品牌B的小麦产量均值最高,而品牌A的小麦产量均值居中,品牌C的小麦产量均值最低。但是仍然很难说哪一组均值在统计意义上不同,哪一个相同。进一步的问题...当方差分析拒绝了原假设时,即认为至少有两个总体的均值存在显著性差异时,须进一步确定是哪两个或哪几个均值显著不同,则需要进行多重比较来检验。多重比较是指在因变量的三个或这三个以上水平下均值之间进行的两两比较检验。多重比较问题:多重比较方法SPSS提供了各种不同的多重比较方法,包括最小显著差异LSD法、Bonferroni法、Tukey法、Scheff法,如下图所示。由SPSS可以得到多重比较结果此时我们在SPSS的输出结果选择LSD方法输出的多重比较结果。如果设定的显著性水平为 α=0.10,由于0.057<0.10,那么不具有方差齐性,此时我们可以选择Tamhane方法的输出结果,见表7.5的第三部分的下边。多重比较因变量:小麦产量(I) 化肥品牌 (J) 化肥品牌 均值差 (I-J) 标准误 显著性 95% 置信区间下限 上限LSD dimension2 1 dimension3 2 -95.000* 15.961 .000 -128.19 -61.813 50.000* 15.961 .005 16.81 83.192 dimension3 1 95.000* 15.961 .000 61.81 128.193 145.000* 15.961 .000 111.81 178.193 dimension3 1 -50.000* 15.961 .005 -83.19 -16.812 -145.000* 15.961 .000 -178.19 -111.81Tamhane dimension2 1 dimension3 2 -95.000* 17.829 .001 -145.67 -44.333 50.000* 11.339 .002 19.28 80.722 dimension3 1 95.000* 17.829 .001 44.33 145.673 145.000* 17.829 .000 94.33 195.673 dimension3 1 -50.000* 11.339 .002 -80.72 -19.282 -145.000* 17.829 .000 -195.67 -94.33*. 均值差的显著性水平为 0.05。做了以下三对比较:品牌A~品牌B、品牌A~品牌C和品牌B~品牌C。每一对比较都有相应的p-值。应用方差分析需要的假设条件有:(1)各总体是正态分布。(2)各总体的有相同的标准差。(3)样本互相独立。当满足上述条件时,可以用F分布作为检验统计量的分布。在研究分类型自变量和数量型因变量之间关联的过程中的一部分是方差分析。在这里,我们在此研究的是化肥品牌和小麦产量两个变量。其它还有诸如职业与收入的关系、不同教育方法与学生的学的关系等例子。方差分析是基于计算因变量在按照自变量的各类的均值之间的差异程度和每一类中观测值的差异程度。我们所得到方差分析的结果是基于各种平方和的大小。表7.4是一个典型的计算机输出的结果(当然,对不同的计算程序,方差分析表的形式也许会发生变化)。7.2 方差分析回顾F检验及其p-值告诉我们因变量在各类中的均值是否有显著差异。如果F值大而因此p-值小,我们就拒绝无区别的零假设,并认为在实际中两个变量之间是有关系的。通常当p-值小于0.05时就可以拒绝零假设了。有时我们会看到p值下面的数值显示*和**。在脚注中会解释一个星号表示它的p值小于0.05,而两个星号则表示p-值小于0.01。统计表的缺点是它无法提供精确的p-值;它一般只能给出p是小于某些值的。但是,我们可以用统计软件求出精确的p-值。比如可以在Excel中通过“=FDIST(42.6,2,21)”命令求得小麦产量方差分析的p-值就为0.00000004。精确的p-值能够提供更多的信息,因为我们能知道它究竟比0.05或比0.01小多少,也可以知道在拒绝零假设时的把握有多大。7.2 方差分析回顾7.3 双因素方差分析在小麦产量的例子中,我们将总效应分为两类:化肥变量的效应和残差变量的效应。换句话说,我们只考虑了效应的两个来源,即来自化肥变量和随机误差。但是影响小麦产量的因素除了所用化肥的品牌,可能还有土壤、天气等等因素的影响。考虑其他因素的好处是降低残差的效应,即降低F统计量的分母,F值会变大,使我们拒绝均值相等的零假设,或者说我们可以解释更多的效应,从而减少误差。下列例子说明了误差变差的减少。本节讨论双因素方差分析(Two-Way ANOVA),其分析方法可以很容易地被推广到多因素方差分析(Multi-Way ANOVA)。7.3 双因素方差分析例7.2一个地区的交通管理局正准备扩大从郊区到商业中心的公车服务,考虑四条路线:1号线、2号线、3号线、4号线。交管局想进行检验判断四条路线的平均行驶时间是否存在差异。因为可能存在不同司机,检验时让每一名司机都分别行驶四条路线。下面是每个司机在每条路线上所需的行驶时间。在0.05的显著性水平下,四条路线的行驶时间的均值是否有差异?如果不考虑司机的影响,行驶时间的均值是否有差异?司机 1号线 2号线 3号线 4号线小张 33 35 35 37小李 36 37 39 39小王 35 38 40 38小刘 40 36 43 40小杨 41 39 43 407.3 双因素方差分析首先,我们用单因素方差分析的假设检验,即只考虑四条路线。在这种情况下,效应来源于因素或者随机误差。比较四条路线平均行驶时间的零假设和备择假设为:因为共有四条路线,所以分子的自由度为4-1=3,分母的自由度为20-4=16。此时对应于0.05的显著性水平下的临界值是3.24,因此,如果计算的F值大于3.24,则拒绝零假设。各处理均值不全相等。7.3 双因素方差分析行驶时间平方和 df 均方 F 显著性组间 32.400 3 10.800 1.618.225组内 106.800 16 6.675总数 139.200 19F值的计算结果是1.618,比临界值3.24小,实际上p-值0.225远大于0.05,所以不能拒绝零假设。交管局得出结论四条路线的平均行驶时间无差异,没有某条路线行驶速度快而被选择的理由。7.3.1 无交互效应的双因素方差分析如果上例中我们只考虑路线引起的效应而将其余的都归为随机效应,那么我们没有必要让五名司机分别行驶四条路线。如果我们考虑不同司机的影响,我们就能减少残差平方和,从而得到更大的F值。我们把本例中的司机因素称为区组因素(blocking variable),即在方差分析中能减少残差平方和的第二个处理因素。在本例中将司机作为区组因素,从残差平方和中提取出司机的影响能够影响处理的F比值。这里介绍无交互作用的双因素方差分析。7.3.1 无交互效应的双因素方差分析因为我们考虑不同司机行使时间的差异,所以要对区组做假设检验。两组假设分别为:1. 不同路线均值都相等( ), 各路线均值不全相等2. 区组均值都相等( ), 各区组均值不全相等两因素方差分析表的格式与单因素方差分析的格式一致,唯一的区别是加了一行区组变差。7.3.1 无交互效应的双因素方差分析因变量:行驶时间源 III 型平方和 df 均方 F Sig.模型 29295.400a 8 3661.925 1536.472 .000路线 32.400 3 10.800 4.531 .024司机 78.200 4 19.550 8.203 .002误差 28.600 12 2.383总计 29324.000 20a. R 方 = .999(调整 R 方 = .998)从该表可以看出,关于对司机的零假设的p-值是0.002,对路线的零假设的p-值是0.024。可以得知在0.05的显著性水平下,路线和区组的零假设都被拒绝。因此,路线和司机这两个因素都对行驶时间有显著作用,也就是说这两个因素的不同水平的确造成了行驶时间的不同。这表明司机这个因素的引进,使得路线对行驶时间从没有影响变成有显著影响。7.3.2 有交互效应的双因素方差分析值得注意的是,对于上面的例子,我们仅仅分析了路线和司机这两个因素分别对行驶时间的影响。也就是说因为司机变化所带来的行驶时间的变化是同行驶的路线是无关的。这显然是值得斟酌的。对于一个实际问题,仅考虑因素各自的作用是不是合理?能不能回答我们关心的问题?那就得视具体问题而论了。因此,我们接下来简单介绍带交互作用的双因素方差分析。要说明的是,如果每一种因素水平的组合只有一个观测值,那么由于数据量不够会导致无法判断是否有交互作用。这时即使有交互作用,也混在误差项中而无法分离出来。7.3.2 有交互效应的双因素方差分析例7.3 该地区的交管局还想研究司机变化所带来的行驶时间的变化与行驶的路线是否有关?因此,我们假设对这个地区的交管局进行了2次测试。获得数据如下表所示。司机 1号线 2号线 3号线 4号线小张 33 35 35 37 35 37 37 39小李 36 38 37 39 39 41 39 41小王 35 37 38 40 40 42 38 40小刘 40 42 36 38 43 45 40 42小杨 41 43 39 41 43 45 40 427.3.2 有交互效应的双因素方差分析从数据表可以看出,司机因素有5个水平,路线因素有4个水平,每个水平组合重复数n=2,共有=5×4×2=40个观测值。我们仍然可以像前面那样讨论行驶时间和作为因素(自变量)的路线类型和司机之间的关系,还由于路线类型和司机的每种组合都有2个观测值,因此还可以考虑路线类型和司机之间的交互效应行驶时间的影响。7.3.2 有交互效应的双因素方差分析因变量:行驶时间源 III 型平方和 df 均方 F Sig.模型 61906.000a 20 3095.300 1629.105 .000司机 * 路线 61.000 12 5.083 2.675 .025司机 155.000 4 38.750 20.395 .000路线 67.500 3 22.500 11.842 .000误差 38.000 20 1.900总计 61944.000 40a. R 方 = .999(调整 R 方 = .999)从中可以看到,与无交互的双因素方差分析结果一样,路线和司机因素的p-值都小于0.05,检验是高度显著的。交互项“司机*路线”反映的是司机因素和路线因素联合产生的对行驶时间的附加效应。由于p-值0.025小于0.05,因此,检验高度显著,这表明司机因素和路线因素联合产生的交互作用对行驶时间有显著影响。换句话说,也就是不同路线的行驶时间差异会因为所使用的司机的不同而不同,或者说不同司机的行驶时间差异会因为所经过的路线不同而不同。7.3.2 有交互效应的双因素方差分析交互作用的模型可以从点图中直观看出。图7.4中的五条折现分别表示了每名司机行驶不同路线所需的平均时间。如果在有交互作用的模型中,这样五条线还是平行的,那就说明司机因素和路线因素之间没有交互作用。从该图可以看出,这五条线并不平行,这从直观上说明这两个因素的主效应不是简单可加的,是有交互作用的。还要说明的是,如果每一种因子水平的组合只有一个观测值(这里例中每个组合有四个观测值),那么,无法对是否有交互作用进行判断;这是由于数据量不够,交互作用即使有也混在误差项中,无法剥离出来进行分析。附:一般方差分析表的数学意义而计算机的方差分析表的输出的意义为(这里包含在SSM中还有一个SS和1个自由度属于截距的(没有用处)没有列出):方差分析表公式的意义为: 展开更多...... 收起↑ 资源预览