资源简介 (共61张PPT)第七章 方差分析《统计学原理与应用》提纲 (Outline)7.1 问题的提出7.2 方差分析的基本内涵7.3 单因素方差分析7.4 双因素方差分析7.1 问题的提出方差分析是在20世纪20年代,由英国统计学家费希尔首先提出并发展起来的一种统计方法。从形式上看,方差分析是比较多个总体的均值是否相等,但本质上它所研究的是变量之间的关系。7.1 问题的提出案例7.1 不同的机器对于产品的次品数量有没有影响?某工厂经理最近发现厂里螺栓生产的次品数量有所增加。他想知道螺栓生产的次品数量与机器有没有关系。目前厂里只用4台机器(A、B、C、D)分两个班组生产螺栓,为此他设计了如下实验:在一周内,记录两个班组每天每台机器生产的次品数量,见表7.1。为了回答经理的问题,我们可以利用实验数据检验不同机器下次品数量的总体均值是否相等,如果相等,则认为机器对次品数量没有影响,否则认为有影响。7.1 问题的提出表7.1 4台机器两个班组生产的次品数量数据班组 机器 A B C D班组1 6 10 7 84 8 5 45 7 6 65 7 5 54 9 9 5班组2 5 7 9 77 9 7 94 12 5 76 8 4 108 8 6 57.1 问题的提出案例7.2 轮胎的磨损程度与生产厂家有没有关系?一家汽车制造商准备购进一批轮胎,考虑的因素主要有供应商和磨损程度。为了对磨损程度进行测试,分别在低速(40km/h)、中速(80km/h)和高速(120km/h)下进行试验。下面的数据是从5家供应商抽取的轮胎随机样本在行驶1000 km后的磨损程度,见表7.2。利用样本数据检验不同供应商的轮胎磨损程度的总体均值是否相等,如果相等,则认为供应商对轮胎磨损程度没有影响,否则认为有影响。7.1 问题的提出供应商 车速 低速 中速 高速1 3.7 4.5 9.72 3.4 3.9 9.63 3.5 4.1 11.14 3.2 3.5 12.05 3.9 4.8 11.4表7.2 5家供应商轮胎在不同速度下的磨损程度数据7.1 问题的提出什么是方差分析?方差分析(Analysis of Variance,ANOVA)就是用来检验以某一分类变量得到的多个分类总体的均值是否相等的统计方法。方差分析可以用于研究分类型自变量对数值型因变量的影响。7.2 方差分析的基本概念7.2.1 方差分析的基本术语因素因素变量也称控制变量,如例7.1和例7.2中的机器和供应商。根据控制变量的多少可以把方差分析分为单因素方差分析(一个控制变量)和多因素方差分析(两个及以上控制变量)。7.2.1 方差分析的基本术语水平因素的具体表现称为水平。如例7.1中机器分为四种,即机器A、机器B、机器C和机器D四个水平。不同水平代表一类总体。观测值在因素的不同水平下得到的具体样本数据(比如次品数或磨损程度)为观测值。不同水平得到的样本观测值的个数可以不同。7.2.2 方差分析的基本思想方差分析的基本思想:通过分析不同水平的样本均值之间的差异来回答各个水平总体均值之间是否存在差异,从而得出分类变量(因素)是否对因变量产生影响的结论。7.2.2 方差分析的基本思想观察值个数 机器 A B C D1 6 10 7 82 4 8 5 43 5 7 6 64 5 7 5 55 4 9 9 56 5 7 9 57 7 9 7 78 4 12 5 99 6 8 4 710 8 8 6 10均值 5.4 8.5 6.3 6.6表7.3 不同机器下产生的次品数量的均值7.2.2 方差分析的基本思想对于案例7.1的机器效率问题,我们可以通过对比不同机器下的次品数量的样本均值的差异,来回答机器是否对次品数量产生影响。设4台机器下的样本平均次品数量为各样本均值不可能完全相等,它们之间的差异可能来自两个方面:组间差异和组内差异。7.2.2 方差分析的基本思想组间差异总体均值的不同而导致样本均值的不同组内差异由随机因素所致,即使样本是来自同一个总体,由于随机原因,也会导致它们之间存在差异如果样本均值之间的差异主要来源于第一个方面,则认为不同水平之间的总体均值不完全相等,即机器对次品数量有影响;如果它们之间的差异主要来源于第二个方面,则认为不同水平之间的总体均值完全相等,即认为机器对次品数量没有影响。7.2.3 方差分析中的基本假定(1)抽取数据的随机性与独立性假定随机抽取样本,确保一组数据一定独立于实验中的任何其他数据。(2)抽取数据的正态性假定在正态总体中抽取数据。(3)抽取数据方差的一致性假定正态总体的同方差假定。7.3 单因素方差分析7.3.1 单因素方差分析的步骤在单因素方差分析中,我们用A表示因素,因素的k个水平(总体)分别用A1,A2… Ak表示,每个观测值用表示(第i个水平的第j个观测值)。从不同水平中所抽取的样本容量可以相等,也可以不相等。7.3.1 单因素方差分析的步骤单因素方差分析的数据结构观测值 (j) 因素(i) A1 A2 Ak1 X11 X21 Xk12 X12 X22 Xk2┆ ┆ ┆ ┆ ┆N X1n X2n Xkn7.3.1 单因素方差分析的步骤单因素方差分析按照以下步骤进行:(1) 提出假设 i为第i个总体的均值。如果H0成立,则意味着因素的不同水平间的均值没有差异,因素对因变量不构成影响;如果拒绝H0,则因素的不同水平间的均值存在差异,因素对因变量构成影响。7.3.1 单因素方差分析的步骤(2)构造检验统计量根据方差分析的原理,构造检验统计量的形式为:式中:表示第i个总体的样本均值,表示第i个总体的样本观测值个数,表示第i个总体的第j个观测值。7.3.1 单因素方差分析的步骤表示总样本均值,它是全部观测值的总和除以观测值的总个数,则有:7.3.1 单因素方差分析的步骤组间误差平方和(SSA):又称为水平项误差平方项。其计算公式为:组内误差平方和(SSE),其计算公式为:7.3.1 单因素方差分析的步骤总误差平方和(SST):全部观测值与总平均值的误差平方和,反映了全部观测值的离散状况。其计算公式为:总误差平方和与组间误差平方和、组内误差平方和之间的关系:SST=SSA+SSE7.3.1 单因素方差分析的步骤当原假设H0成立时,由于MSA(组间均方)与MSE(组内均方)都是总体方差的无偏估计,检验统计量F(MSA/MSE)应接近1;当原假设不成立时,由于MSA偏大,因此检验统计量F应明显地大于1。由此,我们便可以根据F检验统计量的大小来判断原假设是否成立。7.3.1 单因素方差分析的步骤检验统计量F作为随机变量,服从以下分布:可通过查询F分布表,可得知F 的值。当F检验统计量的值大于F 时,可以认为检验统计量F的值显著大于1,从而有理由认为MSA明显地比MSE大,拒绝原假设,得到因素的不同水平下均值不完全相等的结论。7.3.1 单因素方差分析的步骤拒绝原假设H0的临界值为F 7.3.1 单因素方差分析的步骤(3)方差分析表(Analysis of Variance Table)单因素方差分析表的一般形式误差来源 平方和 自由度 均方和 F值 P值组间(因素影响) SSA V1=k-1 MSA=SSA/V1 MSA/MSE组内(误差) SSE V2=n-k MSE=SSE/V2 总和 SST n-17.3.2 单因素方差分析的应用使用Excel进行方差分析例7.1 根据表7.1数据分析不同的机器是否会对次品数量产生影响( =0.05)。(1)提出假设原假设H0:u1=u2=u3=u4备择假设H1:u1,u2,u3,u4不完全相等7.3.2 单因素方差分析的应用(2)用Excel计算方差分析表在【工具】菜单下,选择【数据分析】。在分析工具中选择【单因素方差分析】,然后单击【确定】。7.3.2 单因素方差分析的应用(3)分析和结论单因素方差分析表误差来源 平方和 自由度 均方和 F值 P值组间(因素影响) 51.000 3 17.000 6.157 0.002组内(误差) 99.400 36 2.761总和 150.400 39查表可知:F(3,36,0.05)=2.95。由于F=6.157 > F =2.95 ,所以拒绝H0。7.4 双因素方差分析7.4.1双因素方差分析概述当方差分析中涉及两个分类型自变量时,称为双因素方差分析(Two-Way Analysis of Variance)。双因素方差分析又可以分为无交互作用的方差分析和有交互作用的方差分析两种类型。7.4.1 双因素方差分析概述无交互作用双因素方差分析:或称为无重复双因素分析(Two-Factor Without Replication),两个影响因素对因变量的影响是相互独立的。有交互作用的双因素方差分析:或称为可重复双因素分析(Two-Factor with Replication),除了对因变量有单独影响外,两个因素的搭配还会对因变量产生新的影响效应。7.4.2无交互作用的双因素方差分析一、无交互作用的双因素方差分析的步骤双因素方差分析中有两个因素,一个因素为数据的行分类变量,称为行因素;另一个因素为数据的列分类变量,称为列因素。设行因素有k个水平,列因素有r个水平。由于双因素方差分析需要判断这两个因素是否都对因变量产生影响,因此需要分别计算行因素和列因素各水平下的样本均值(行列因素下只有一个数据)。7.4.2无交互作用的双因素方差分析(1)提出假设对行因素提出的假设为:H0:u1=u2=…=ui=…=uk,即行因子(自变量)对因变量没有显著影响H1:ui(i=1,2,…k)不完全相等,即行因子(自变量)对因变量有显著影响式中, i表示行因子的第i个水平(总体)的均值。7.4.2无交互作用的双因素方差分析对列因素提出的假设为:H0:u1=u2=…=uj=…=ur ,即列因子(自变量)对因变量没有显著影响H1:uj(j=1,2,…r)不完全相等,即列因子(自变量)对因变量有显著影响式中, j表示列因子的第j个水平(总体)的均值。7.4.2无交互作用的双因素方差分析双因素方差分析的数据结构列因子(j) 平均值列1 列2 列r ig行因子(i) 行1 X11 X12 X1r 1g行2 X21 X22 X2r 2g┆ ┆ ┆ ┆ ┆ ┆行k Xk1 Xk2 Xkr kg平均值 gj g1 g2 gr7.4.2无交互作用的双因素方差分析(2)构造检验统计量为检验原假设是否成立,需要分别确定检验行因素和列因素的统计量。与单因素方差分析一样,从总误差平方和的分解入手:SST=SSR+SSC+SSESST为总误差平方和:7.4.2无交互作用的双因素方差分析分解后的等式右边的第一项是行因素所产生的误差平方和,记为SSR,即:第二项是列因素所产生的误差平方和,记为SSC,即:第三项是除行因子和列因子之外的剩余因子影响产生的误差平方和,称为随机误差项平方和,记为SSE,即:7.4.2无交互作用的双因素方差分析与各误差平方和相对应的自由度和均方分别为:总误差平方和SST的自由度为kr-1;行因子的误差平方和SSR的自由度为k-1,均方为:列因子的误差平方和SSC的自由度为r-1,均方为:随机误差平方和SSE的自由度为(k-1)(r-1),均方为:7.4.2无交互作用的双因素方差分析为检验行因子对因变量的影响是否显著,采用如下统计量:为检验列因子对因变量的影响是否显著,采用如下统计量:7.4.2无交互作用的双因素方差分析(3)统计决策若FR>F ,则拒绝原假设,即u1=u2=…=ui=…=uk不成立,表明ui(i=1,2,…k)之间的差异是显著的。可以认为所检验的行因子对观测值有显著影响。若FC>F ,则拒绝原假设,即u1=u2=…=uj=…=ur不成立,表明uj(j=1,2,…r)之间的差异是显著的,可以认为检验的列因子对观测值有显著影响。7.4.2无交互作用的双因素方差分析双因素方差分析表误差来源 平方和 自由度 均方和 F值 P值行因子 SSR k-1 MSR MSR/MSE列因子 SSC r-1 MSC MSC/MSE误差 SSE (k-1)(r-1) MSE总和 SST kr-17.4.2无交互作用的双因素方差分析二、无交互作用的双因素方差分析的应用例7.2 根据表7.2数据分析供应商和车速是否会对轮胎的磨损程度产生影响。(1)提出假设为了检验供应商和车速两个因素的影响,需要对两个因素分别提出假设。7.4.2无交互作用的双因素方差分析分析供应商是否对轮胎的磨损程度产生影响的一对假设:原假设H0:5家供应商的轮胎平均磨损度完全相等,即u1=u2=u3=u4=u5.备择假设H1:5家供应商的轮胎平均磨损度不完全相等,即 ui (i=1,2,3,4,5) 不完全相等。分析车速是否对平均磨损度产生影响的一对假设:原假设H0:三种车速的平均磨损度完全相等,即u1=u2=u3备择假设H1:三种车速的平均磨损度不完全相等,即uj (j=1,2,3)不完全相等7.4.2无交互作用的双因素方差分析(2)计算方差分析表无交互作用双因素方差分析的Excel操作视图7.4.2无交互作用的双因素方差分析误差来源 平方和 自由度 均方和 F值 P值供应商 1.549 4 0.387 21.720 0.000车速 3.484 2 1.742 97.682 0.000误差 0.143 8 0.018总和 5.176 14无交互作用双因素方差分析SPSS输出结果:7.4.2无交互作用的双因素方差分析(3)分析和结论从无交互作用双因素方差分析输出结果中可以得到以下结论:a、第一行检验供应商的轮胎平均磨损度是否完全相等的F统计量等于21.720,大于临界值3.84,对应的p值等于0.000,小于显著性水平0.05。说明:有证据认为供应商对轮胎平均磨损度有影响。b、第二行检验三种车速的轮胎平均磨损度是否完全相等的F统计量等于97.682,远远大于临界值4.26,对应的p值等于0.000,小于显著性水平0.05。说明:有证据认为车速对轮胎平均磨损度有影响。7.4.2无交互作用的双因素方差分析例7.3 根据表7.1数据分析不同机器和不同班组是否会对次品数量产生影响无交互作用双因素方差分析SPSS输出结果误差来源 平方和 自由度 均方和 F值 P值机器 51.000 3 17.000 6.517 0.001班组 8.100 1 8.100 3.105 0.087误差 91.300 35 2.609总和 150.400 397.4.2无交互作用的双因素方差分析从输出结果中可以得到以下结论:a、第一行检验机器的平均次品数量是否完全相等的F统计量等于6.517,大于临界值2.874,对应的p值等于0.001小于显著性水平0.05。说明:没有证据认为机器对次品数量没有影响,也就是认为机器对产品次品数是有影响。b、第二行检验班组的平均次品数量是否完全相等的F统计量等于3.105,小于临界值4.121,对应的p值等于0.087,大于显著性水平0.05。说明:有证据认为班组对次品数量没有影响。7.4.3 有交互作用的双因素方差分析一、有交互作用的双因素方差分析步骤设行因素有k个水平,列因素有r个水平,行列共有kr个水平,每个水平下有n个数据。(1)提出假设检验两个因素及交互因素对因变量是否有影响,需提出三对假设,它们分别是:分析行因素对因变量的影响的假设:原假设:行因素的k个水平的均值完全相等备择假设:行因素的k个水平的均值不完全相等7.4.3 有交互作用的双因素方差分析分析列因素对因变量的影响时的假设:原假设:列因素的r个水平的均值完全相等备择假设:列因素的r个水平的均值不完全相等分析行列交互因素作用对因变量的影响时的假没:原假设:行因素与列因素交互影响的kr个水平的均值完全相等备择假设:行因素与列因素交互影响的kr个水平的均值不完全相等7.4.3 有交互作用的双因素方差分析(2)有交互作用的双因素方差分析表误差来源 平方和 自由度 均方和 F值 P值行因子 SSR k-1 MSR MSR/MSE列因子 SSC r-1 MSC MSC/MSE行列交互因子 SSRC (k-1)(r-1) MSRC MSRC/ MSE误差 SSE Kr(n-1) MSE总和 SST nkr-17.4.3 有交互作用的双因素方差分析表中各平方和的表达式和关系如下:7.4.3 有交互作用的双因素方差分析各平方和之间的关系为:7.4.3 有交互作用的双因素方差分析二、有交互作用的双因素方差分析的应用例7.4 根据表7.1数据分析机器、班组以及两个因素的交互作用是否会对次品数量产生影响。(1)提出假设分析机器是否对次品数量产生影响的一对假设:原假设H0:4台机器的平均次品数量完全相等,即u1=u2=u3=u4备择假设H1:4台机器的平均次品数量不完全相等,即uk(k=1,2,3,4)不完全相等7.4.3 有交互作用的双因素方差分析分析班组是否对次品数量产生影响的一对假设:原假设H0:两个班组的平均次品数量完全相等,即u1=u2备择假设H1:两个班组的平均次品数量不完全相等,即ur (r=1,2)不完全相等分析机器与班组搭配对次品数量有无影响的假设:原假设H0:机器与班组搭配对次品数量无影响,即u1=u2=u3=u4=u5=u6=u7=u8备择假设H1:机器与班组搭配对次品数量有影响,即ukr (k=1,2,3,4;r=1,2)不完全相等7.4.3 有交互作用的双因素方差分析(2)计算方差分析表有交互作用双因素方差分析的Excel操作视图7.4.3 有交互作用的双因素方差分析有交互作用的双因素方差分析输出结果:误差来源 平方和 自由度 均方和 F值 P值机器 51.000 3 17.000 6.517 0.001班组 8.100 1 8.100 3.057 0.090班组*机器 6.500 3 2.617 0.818 0.494误差 84.800 32 2.609总和 150.400 397.4.3 有交互作用的双因素方差分析(3)分析和结论从有交互作用双因素方差分析输出结果中可以得到以下结论:a、第一行检验机器的平均次品数量是否完全相等的F统计量等于6.517,大于临界值2.90,对应的p值等于0.001,小于显著性水平0.05。说明:有证据认为机器对次品数量有影响。b、第二行检验两个班组的平均次品数量是否完全相等的F统计量等于3.057,小于临界值4.15,对应的p值等于0.090,大于显著性水平0.05。说明:有充分的证据认为班组对次品数量没有影响。7.4.3 有交互作用的双因素方差分析c、第三行检验两者交互作用是否有影响的F统计量等于0.818小于临界值2.90,对应的p值等于0.494大于显著性水平0.05。说明:有充分的证据认为机器和班组的交互作用对次品数量没有影响。本章小结1.方差分析的概念与术语2.方差分析的基本思想3.方差分析中的基本假定4.单因素方差分析5.双因素方差分析谢谢! 展开更多...... 收起↑ 资源预览