资源简介 (共46张PPT)统 计 学第九章 方差分析第九章 方差分析§1 基本问题§2 单因素方差分析§3 双因素方差分析2§1 基本问题§1.1 方差分析概念§1.2 方差分析的思想§1.3 方差分析中的假定3§1.1 方差分析概念方差分析方差分析是通过检验各总体的均值是否相等来判断分类型自变量对数值型因变量是否有显著影响。方差分析不仅可以提高检验的效率,同时由于它是将所有的样本信息结合在一起,也增加了分析的可靠性。4§1.1 方差分析概念【例9.1】某饮料生产企业研制出一种新型饮料。饮料的颜色共有四种,分别为橘黄色、粉分、绿色和无色透明。这四种饮料的营养含量、味道、价格、包装等可能影响销售量的因素全部相同。现从地理位置相似、经营规模相仿的五家超市收集了前一时期该饮料的销售情况,如表9—1所示。试分析饮料的颜色是否对销售量产生影响。表9—1 不同颜色饮料在五家超市的销售情况 单位:箱5§1.1 方差分析概念解题思路:要判断“颜色”对“销量”是否有显著影响,实际上就是要分析四种颜色之间销量是否有显著差异,最终被归结为检验这四种颜色饮料销量的均值是否相等。如果它们的均值相等,即四种不同颜色饮料之间的销售量没有显著差异,就意味着“颜色”对销售量没有显著影响;反之,如果它们的均值不全相等,则意味着“颜色”对销售量是有显著影响。6§1.1 方差分析概念因素(因子)在方差分析中,被检验是否有影响作用的对象称为因素或因子。水平(处理)因素的不同表现称为水平或处理。观测值每个因子水平下得到的样本数据称为观测值。7§1.2 方差分析的思想1.两类误差方差分析名称来源方差分析两类误差(从误差来源的角度)随机误差系统误差方差分析两类误差(从总误差分解的角度)组内误差组间误差通常数据误差分解是从总误差分解的角度来研究的。8§1.2 方差分析的思想总平方和如果用平方和表示数据的误差,那么反映全部数据误差大小的平方和称为总平方和,记为SST。误差平方反映组内误差大小的平方和称为组内平方和,也称为误差平方和或残差平方和,记为SSE。因素平方和反映组间误差大小的平方和称为组间平方和,也称为因素平方和,记为SSA。9§1.2 方差分析的思想数据误差分解过程如图9—1所示。10图9—1 误差分解示意图§1.2 方差分析的思想2.误差分析组间均方、组内均方组间误差、组内误差经过平均后的数值分别称为组间均方、组内均方。因素(自变量)与因变量的关系判定如果因素(自变量)对因变量没有影响,那么在组间误差中只包含随机误差,而没有系统误差,这时组间均方与组内均方之比就会接近1;如果因素(自变量)对因变量有影响,则组间误差中除包含随机误差外,还会包含系统误差,这时组间均方就会大于组内均方,二者的比值就会大于1。当比值大至某种程度时,就认为因素的不同水平之间存在着显著差异,也就是自变量对因变量有显著影响。11§1.3 方差分析中的假定方差分析三个假定1. 每个总体都应服从正态分布2. 每个总体的方差相等3. 观测值彼此独立12§2 单因素方差分析§2.1 数据结构§2.2 分析步骤13§2.1 数据结构首先引入单因素方差分析的数据结构问题。进行单因素方差分析时,所要求的数据结构形如下表9—2:表9—2 单因素方差分析的数据结构14§2.2 分析步骤单因素方差分析的步骤1.提出假设,即设立原假设与备择假设2.构造检验统计量及确定分布3.依据样本信息汁算该检验统计量的实际值4.设定检验的显著性水平 并确定临界值5.比较理论值(临界值)与实际值大小,进行决策15§2.2 分析步骤1.提出假设,即设立原假设与备择假设各因子水平下因变量的均值相等(因子影响作用不显著)不全相等各因子水平下因变量均值不全相等(因子的影响作用显著)其中, 为因素第 个水平下的总体均值。16§2.2 分析步骤2.构造检验统计量及确定分布总平方和反映全部数据误差大小的平方和称为总平方和,记为SST。组间平方和反映组间误差大小的平方和称为组间平方和,也称为因素平方和,记为SSA.。组内平方和反映组内误差大小的平方和称为组内平方和,也称为误差平方和或残差平方和,记为SSE。17§2.2 分析步骤下式可以用于验证计算的正确性:自由度SST的自由度为n-1;SSA的自由度为r-1;SSE的自由度为n-r。n=rm为总观测值个数r 为因素水平数m为每个水平下的观测值个数18§2.2 分析步骤组间均方MSA计算公式组内均方MSE计算公式19§2.2 分析步骤F统计量将MSA与MSE进行对比,得到的比值即为需要的检验统计量F统计量。当原假设 为真时,该比值服从分子自由度为r-1、分母自由度为 n-r的F分布,即20§2.2 分析步骤3.依据样本信息计算该检验统计量的实际值(1)计算各个因素水平下的样本均值(2)计算所有因素水平下全部样本的总均值(3)计算误差平方和(4)计算组间均方和组内均方及检验统计量的样本值21§2.2 分析步骤(1)计算各个因素水平下的样本均值( )(2)计算所有因素水平下全部样本的总均值( )其中: 表示第i个水平下的第j个样本观测值;m为该水平下的样本观测值个数;r为所有因素水平个数,且 。22§2.2 分析步骤(3)计算误差平方和23§2.2 分析步骤(4)计算组间均方和组内均方及检验统计量的样本值24§2.2 分析步骤4.设定检验的显著性水平 并确定临界值根据事先设定的显著性水平 ,在F分布表中查找分子自由度为 、分母自由度为 所对应的临界值 。5.比较理论值(临界值)与实际值大小,进行决策通过比较检验统计量的样本值和理论值(临界值)的大小判断原假设的拒绝情况。具体判断原则为:如果 ,则拒绝原假设;如果 ,则不能拒绝原假设。25§2.2 分析步骤这个分析步骤可以用表格9—3表示,通常称该表格为方差分析表,具体格式如下:表9—3 单因素方差分析表的一般格式26§2.2 分析步骤【例9.2】某新品药进入效果测试阶段,测试人员希望了解该药品在不同年龄段人群身上的药效是否相同,因该药对骨骼生长发育具有强烈抑制作用,故未成年人不在试验范围内,因而将试药人群分为21~30、31~40、41~50和51~ 60四个年龄段,每个年龄段有10名受试者,在其他各项条件都相同情况下开展试验。试验开始后,分别测量每个受试者某项身体指标值,数据见表9—4。根据上面的实验数据,请分析该新药在不同年龄段人群的药效是否相同,即年龄是否影响该药品效果的一个因素?( )27§2.2 分析步骤表9—4 新品药效果试验数据28受试者序号 21~30年龄段 31~40年龄段 41~50年龄段 51~60年龄段1 41 40 39 382 40 39 41 373 41 42 42 394 38 39 40 355 39 41 39 366 37 42 42 387 41 40 39 368 42 42 47 409 43 39 35 4110 38 41 36 35§2.2 分析步骤解:首先,根据题意设定原假设与备择假设:不全相等接下来,依据样本数据信息汁算检验统计量的实际值:已知: , , 。(1)计算各个因素水平下的样本均值29§2.2 分析步骤(2)计算所有因素水平下全部样本的总均值(3)计算误差平方和显然有:30§2.2 分析步骤(4)计算组间均方和组内均方及检验统计量的样本值根据事先设定的显著性水平 ,在F分布表中查找分子自由度为 、分母自由度为 所对应的临界值 在 之间,显然, ,因此拒绝原假设,即 不成立,表明该新药在各个不同年龄段水平下的药效存在显著差异,即年龄是影响该新药药效的一个显著因素。31§3 双因素方差分析§3.1 数据结构§3.2 分析步骤32§3.1 数据结构在无交互作用的双因素方差分析中,获取数据时,往往将两个因素分别作为试验数据表的行因素和列因素。假如要考虑A因素和B因素对考察对象的影响作用,设试验中,A因素有r个水平,B因素有k个水平,则进行双因素方差分析的试验数据表结构应形如表9—6。表9—6双因素方差分析的数据结构33§3.2 分析步骤双因素方差分析的步骤1.提出原假设与备择假设2.构造检验统计量及确定分布3.依据样本信息汁算该检验统计量的实际值4.设定检验的显著性水平 并确定临界值5.比较理论值(临界值)与实际值大小,进行决策34§3.2 分析步骤1.提出原假设与备择假设对行因素提出的原假设应为:不全相等其中, 为行因素第 个水平下的总体均值。对列因素提出的原假设应为: 不全相等其中, 为列因素第 个水平下的总体均值。35§3.2 分析步骤2.构造检验统计量及确定分布SST是全部样本观察值 ( ; )与总的样本均值 的误差平方和,用公式表示为:其中,表示行因素第i个水平下的样本均值;表示列因素第j个水平下的样本均值;表示所有样本的均值。36§3.2 分析步骤总误差平方和的分解部分1. 行因素角度SSR:2. 列因素角度SSC:3. 随机因素影响造成的误差平方和SSE:用于验证的关系:各平方和的自由度SST的自由度为n-1;SSR的自由度为r-1;SSC的自由度为k-1;SSE的自由度为(r-1)*(k-1)。其中,n=rk为总观测值个数,r为行因素水平数,k为列因素水平数。37§3.2 分析步骤各均方计算公式行因素的均方:行因素的均方:随机误差项的均方:构造行因素和列因素检验统计量F统计量检验行因素的统计量:检验列因素的统计量:38§3.2 分析步骤3.依据样本信息计算该检验统计量的实际值(1)分别计算行因素、列因素各个水平下的样本均值(2)计算所有因素水平下全部样本的总均值(3)计算误差平方和(4)计算行因素、列因素检验统计量的样本值39§3.2 分析步骤4.设定检验的显著性水平 并确定临界值根据事先设定的显著性水平 ,在F分布表中查找行因素、列因素统计量相对应的临界值 、 。5.比较理论值(临界值)与实际值大小,进行决策分别比较行、列因素检验统计量的样本值与其相对应的理论值(临界值)大小,判断原假设的拒绝情况,进行决策。40§3.2 分析步骤双因素方差分析的步骤可以用表格9—7表示,该表也称为方差分析表,具体格式如下:表9—7 双因素方差分析表的一般格式41§3.2 分析步骤【例9.3】某品牌饮料生厂商要分析饮料颜色和销售地区对该饮料销售量的影响作用,分别将该品牌的饮料调制成四种颜色后,在五个地区进行销售,通过一周的销售试验,得到以下数据(表9—8):请在置信度 的水平下,分析饮料颜色和地区这两个因素对于销售量是否有显著影响?表9—8 饮料销售试验数据42§3.2 分析步骤解:根据题意: , , ,对行、列因素分别建立假设:行因素:列因素:43§3.2 分析步骤依据样本数据信息计算检验统计量的实际值:(1)计算各个因素水平下的样本均值,用表格形式表示为:注:右下角的灰色底纹单元格内表示全部样本观测值的均值,即 。44§3.2 分析步骤(2)计算各项误差平方和(3)计算各均方及检验统计量的样本值45§3.2 分析步骤(4)行因素和列因素的检验统计量样本值根据事先设定的显著性水平 ,在 分布表中分别查找对应的的临界值 , ,显然, ,因此拒绝行因素的原假设,即 不成立,说明饮料的颜色是影响饮料销售量的一个显著因素; ,因此不能拒绝列因素的原假设,即不能拒绝 ( )均相等,表明地区因素并不是影响饮料销售量的显著因素。46 展开更多...... 收起↑ 资源预览