资源简介 (共101张PPT)应用统计学假设检验与方差分析55.1假设检验5.2方差分析概述5.3常用术语5.4单因素方差分析5.5双因素方差分析5.6 Excel在方差分析中的应用学习目标1.理解假设检验的原理和计算方法,学会辩证地看待现实问题;2.理解方差分析的基本原理;3.理解试验因素、试验水平的内涵;4.理解组间误差、组内误差、总误差之间的关系和区别,培养严谨的学习态度和资料分析能力;5.掌握单因素方差分析的基本原理和计算过程,树立科学精神;6.理解双因素方差分析的基本原理和计算过程,树立科学精神。5.1 假设检验055.1假设检验5.1.1 假设检验的原理及步骤5.1.2 总体均值的检验5.1.3 总体成数的检验5.1.4 利用p值进行决策什么是 假设 (hypothesis) ——对总体参数的的数值所作的一种陈述。总体参数包括总体均值、比例、方差等。分析之前必需陈述。5.1.1假设检验的原理及步骤什么是 假设检验 (hypothesis testing)事先对总体参数或分布形式作出某种假设,然后利用样本信息来判断原假设是否成立。有参数假设检验和非参数假设检验。采用逻辑上的反证法,依据统计上的小概率原理。5.1.1假设检验的原理及步骤★ 什么是原假设?(null hypothesis)1. 待检验的假设,又称“0假设”2. 研究者想收集证据予以反对的假设3. 总是有等号: =,≤ 或 ≥4. 表示为 H0H0: =某一数值指定为 = 号,即 ≤ 或 ≥例如,H0: =3190(克)★ 什么是备择假设?(alternative hypothesis)1. 与原假设对立的假设,也称“研究假设”2. 研究者想收集证据予以支持的假设,3. 总是有不等号:≠,< 或 >4. 表示为 H1H1: <某一数值,或 >某一数值例如,H1: < 3910(克),或 >3910(克)提出原假设和备择假设第一步,依据所研究问题的不同情况,建立原假设 和备择假设 。第二步,在原假设 成立条件下,依据总体服从的分布,构建一个合适的样本统计量,该统计量不包含任何的未知参数,然后将各样本值代入该统计量,从而算得一个关于样本的统计量值。第三步,给定显著性水平α以及相应的自由度,查表求出临界值。第四步,将第二步求得的样本统计量值与第三步查表求得的临界值进行比较,做出拒绝或接受原假设或对立假设的判断。5.1.1假设检验的原理及步骤假设检验的一般步骤检验统计量总体 是否已知?用样本标准差S代替t 检验小样本量n否是z 检验z 检验大5.1.2 总体均值的检验 2 已知 或 2 未知大样本1. 假定条件总体服从正态分布若不服从正态分布, 可用正态分布来近似(n 30)2. 使用Z-统计量已知:未知:5.1.2 总体均值的检验 2 已知均值的检验(例题分析)【例】某机床厂加工一种零件,根据经验知道,该厂加工零件的椭圆度近似服从正态分布,其总体均值为 0 = 0.081mm,总体标准差为 = 0.025 。今换一种新机床进行加工,抽取 n =200 个零件进行检验,得到的椭圆度为 0.076mm 。试问新机床加工零件的椭圆度的均值与以前有无显著差异?( =0.05)双侧检验5.1.2 总体均值的检验H0: = 0.081H1: 0.081 = 0.05n = 200临界值(s):检验统计量:Z01.96-1.960.025拒绝 H0拒绝 H00.025决策:结论:在 = 0.05的水平上拒绝H0有证据表明新机床加工的零件的椭圆度与以前有显著差异。5.1.2 总体均值的检验 2 已知均值的检验(例题分析)第1步:进入Excel表格界面,选择“插入”下拉菜单;第2步:选择“函数”点击;第3步:在函数分类中点击“统计”,在函数名的菜单下选择字符“NORMSDIST”然后确定;第4步:将Z 的绝对值2.83录入,得到的函数值为0.997672537;P值=2(1-0.997672537)=0.004654P值远远小于 ,故拒绝H05.1.2 总体均值的检验 2 已知均值的检验(P值的计算与应用)【例】根据过去大量资料,某厂生产的灯泡的使用寿命服从正态分布N~(1020,1002)。现从最近生产的一批产品中随机抽取16只,测得样本平均寿命为1080小时。试在0.05的显著性水平下判断这批产品的使用寿命是否有显著提高?( =0.05)单侧检验5.1.2 总体均值的检验 2 已知均值的检验(小样本例题分析)H0: 1020H1: > 1020 = 0.05n = 16临界值(s):在 = 0.05的水平上拒绝H0有证据表明这批灯泡的使用寿命有显著提高。Z0拒绝域0.051.6455.1.2 总体均值的检验 2 已知均值的检验(小样本例题分析)检验统计量:决策:结论:【例】某电子元件批量生产的质量标准为平均使用寿命1200小时。某厂宣称他们采用一种新工艺生产的元件质量大大超过规定标准。为了进行验证,随机抽取了100件作为样本,测得平均使用寿命1245小时,标准差300小时。能否说该厂生产的电子元件质量显著地高于规定标准? ( =0.05)单侧检验5.1.2 总体均值的检验 2 未知均值的检验(大样本例题分析)H0: 1200H1: >1200 = 0.05n = 100临界值(s):在 = 0.05的水平上不拒绝H0不能认为该厂生产的元件寿命显著地高于1200小时。Z0拒绝域0.051.6455.1.2 总体均值的检验 2 未知均值的检验(大样本例题分析)检验统计量:决策:结论:1. 假定条件总体为正态分布 2未知,且小样本2. 使用t 统计量5.1.2 总体均值的检验 2 未知小样本均值的检验【例】某机器制造出的肥皂厚度为5cm,今欲了解机器性能是否良好,随机抽取10块肥皂为样本,测得平均厚度为5.3cm,标准差为0.3cm,试以0.05的显著性水平检验机器性能良好的假设。双侧检验5.1.2 总体均值的检验 2 未知小样本均值的检验(例题分析)H0: = 5H1: 5 = 0.05df = 10 - 1 = 9临界值(s):在 = 0.05的水平上拒绝H0说明该机器的性能不好。t02.262-2.2620.025拒绝 H0拒绝 H00.0255.1.2 总体均值的检验 2 未知小样本均值的检验(例题分析)检验统计量:决策:结论:第1步:进入Excel表格界面,选择“插入”下拉菜单第2步:选择“函数”点击,并在函数分类中点击“统计”,然后,在函数名的菜单中选择字符“TDIST”确定第3步:在弹出的X栏中录入计算出的t 值 3.16在自由度(Deg-freedom)栏中录入 9在 Tails 栏中录入 2,表明是双侧检验(单测检验则在该栏内录入1)P 值的结果为 0.01155<0.025,拒绝 H05.1.2 总体均值的检验 2 未知小样本均值的检验(P 值的计算与应用)【例】一个汽车轮胎制造商声称,某一等级的轮胎的平均寿命在一定的汽车重量和正常行驶条件下大于40000公里,对一个由20个轮胎组成的随机样本作了试验,测得平均值为41000公里,标准差为5000公里。已知轮胎寿命的公里数服从正态分布,我们能否根据这些数据作出结论,该制造商的产品同他所说的标准相符?( = 0.05)单侧检验5.1.2 总体均值的检验 2 未知小样本均值的检验(例题分析)H0: 40000H1: < 40000 = 0.05df = 20 - 1 = 19临界值(s):在 = 0.05的水平上不拒绝H0不能认为制造商的产品同他所说的标准不相符。-1.7291t0拒绝域0.055.1.2 总体均值的检验 2 未知小样本均值的检验(例题分析)检验统计量:决策:结论:1. 假定条件有两类结果总体服从二项分布可用正态分布来近似2. 比例检验的 Z 统计量 0为假设的总体比例一个总体成数的检验5.1.3 总体成数的检验(Z 检验)【例】一项统计结果声称,某市老年人口(年龄在65岁以上)的比重为14.7%,该市老年人口研究会为了检验该项统计是否可靠,随机抽选了400名居民,发现其中有57人年龄在65岁以上。调查结果是否支持该市老年人口比重为14.7%的看法?( = 0.05)双侧检验一个总体成数的检验(例题分析)5.1.3 总体成数的检验(Z 检验)H0: = 14.7%H1: 14.7% = 0.05n = 400临界值(s):在 = 0.05的水平上不拒绝H0该市老年人口比重为14.7%。Z01.96-1.960.025拒绝 H0拒绝 H00.025一个总体成数的检验(例题分析)5.1.3 总体成数的检验(Z 检验)检验统计量:决策:结论:什么是P 值 (P-value)是一个概率值如果原假设为真,P-值是抽样分布中大于或小于样本统计量的概率左侧检验时,P-值为曲线上方小于等于检验统计量部分的面积右侧检验时,P-值为曲线上方大于等于检验统计量部分的面积被称为观察到的(或实测的)显著性水平H0 能被拒绝的最小值5.1.4 利用P值进行决策双侧检验的P 值 / 2 / 2Z拒绝拒绝H0值临界值计算出的样本统计量计算出的样本统计量临界值1/2 P 值1/2 P 值5.1.4 利用P值进行决策H0值临界值a样本统计量拒绝域抽样分布1 - 置信水平计算出的样本统计量P 值5.1.4 利用P值进行决策左侧检验的P 值H0值临界值a拒绝域抽样分布1 - 置信水平计算出的样本统计量P 值5.1.4 利用P值进行决策右侧检验的P 值单侧检验若p-值 > ,不拒绝 H0若p-值 < , 拒绝 H0双侧检验若p-值 > /2, 不拒绝 H0若p-值 < /2, 拒绝 H05.1.4 利用P值进行决策利用 P 值进行检验(决策准则)假设 研究的问题 双侧检验 左侧检验 右侧检验H0 m = m0 m m0 m m0H1 m ≠m0 m < m0 m > m05.1.4 利用P值进行决策双侧检验和单侧检验 (假设的形式)属于决策中的假设检验不论是拒绝H0还是不拒绝H0,都必需采取相应的行动措施例如,某种零件的尺寸,要求其平均长度为10cm,大于或小于10cm均属于不合格我们想要证明(检验)大于或小于这两种可能性中的任何一种是否成立建立的原假设与备择假设应为:H0: = 10 H1: 105.1.4 利用P值进行决策双侧检验(原假设与备择假设的确定)抽样分布H0值临界值临界值a/2a/2样本统计量拒绝域拒绝域1 - 置信水平5.1.4 利用P值进行决策双侧检验(显著性水平与拒绝域 )H0值临界值a样本统计量拒绝域抽样分布1 - 置信水平单侧检验(显著性水平与拒绝域)5.1.4 利用P值进行决策Z 检验(单尾和双尾)t 检验(单尾和双尾)Z 检验(单尾和双尾) 2检验(单尾和双尾)均值一个总体比例方差5.1.4 利用P值进行决策一个总体参数的检验5.2 方差分析概述055.2方差分析概述5.2.1 方差分析的基本概念5.2.2 方差分析的基本思想5.2.3 两类误差检验多个总体均值是否相等通过分析数据的误差判断各总体均值是否相等研究分类型自变量对数值型因变量的影响一个或多个分类型自变量两个或多个 (k 个) 处理水平或分类一个数值型因变量有单因素方差分析和双因素方差分析单因素方差分析:涉及一个分类的自变量双因素方差分析:涉及两个分类的自变量5.2.1 方差分析的基本概念什么是方差分析(ANOVA) (analysis of variance)消费者对四个行业的投诉次数 行业 观测值 零售业 旅游业 航空公司 家电制造业1 2 3 4 5 6 7 57 66 49 40 34 53 44 68 39 29 45 56 51 31 49 21 34 40 4451657758【例】为了对几个行业的服务质量进行评价,消费者协会在4个行业分别抽取了不同的企业作为样本。最近一年中消费者对总共23家企业投诉的次数如下表:5.2.1 方差分析的基本概念分析4个行业之间的服务质量是否有显著差异,也就是要判断“行业”对“投诉次数”是否有显著影响;2. 作出这种判断最终被归结为检验这四个行业被投诉次数的均值是否相等;3. 若它们的均值相等,则意味着“行业”对投诉次数是没有影响的,即它们之间的服务质量没有显著差异;若均值不全相等,则意味着“行业”对投诉次数是有影响的,它们之间的服务质量有显著差异。5.2.1 方差分析的基本概念图形分析——散点图零售业 旅游业 航空公司 家电制造5.2.2 方差分析的基本思想从散点图上可以看出不同行业被投诉的次数有明显差异同一个行业,不同企业被投诉的次数也明显不同家电制造被投诉的次数较高,航空公司被投诉的次数较低行业与被投诉次数之间有一定的关系如果行业与被投诉次数之间没有关系,那么它们被投诉的次数应该差不多相同,在散点图上所呈现的模式也就应该很接近。5.2.2 方差分析的基本思想散点图观察不能提供充分的证据证明不同行业被投诉的次数之间有显著差异这种差异可能是由于抽样的随机性所造成的需要有更准确的方法来检验这种差异是否显著,也就是进行方差分析所以叫方差分析,因为虽然我们感兴趣的是均值,但在判断均值之间是否有差异时则需要借助于方差这个名字也表示:它是通过对数据误差来源的分析判断不同总体的均值是否相等。因此,进行方差分析时,需要考察数据误差的来源5.2.2 方差分析的基本思想每个总体都应服从正态分布对于因素的每一个水平,其观察值是来自服从正态分布总体的简单随机样本比如,每个行业被投诉的次数必须服从正态分布各个总体的方差必须相同各组观察数据是从具有相同方差的总体中抽取的比如,4个行业被投诉次数的方差都相等观察值是独立的比如,每个行业被投诉的次数与其他行业被投诉的次数独立5.2.2 方差分析的基本思想方差分析中的基本假定在上述假定条件下,判断行业对投诉次数是否有显著影响,实际上也就是检验具有同方差的4个正态总体的均值是否相等如果4个总体的均值相等,可以期望4个样本的均值也会很接近4个样本的均值越接近,推断4个总体均值相等的证据也就越充分样本均值越不同,推断总体均值不同的证据就越充分5.2.2 方差分析的基本思想方差分析中的基本假定如果原假设成立,即 H0: m1 = m2 = m3 = m44个行业被投诉次数的均值都相等意味着每个样本都来自均值为 、方差为 2的同一正态总体Xf(X) 1 2 3 4方差分析中的基本假定5.2.2 方差分析的基本思想若备择假设成立,即H1: mi (i=1,2,3,4)不全相等至少有一个总体的均值是不同的4个样本分别来自均值不同的4个正态总体Xf(X) 3 1 2 4方差分析中的基本假定5.2.2 方差分析的基本思想设因素有k个水平,每个水平的均值分别用 1 , 2, , k 表示要检验k个水平(总体)的均值是否相等,需要提出如下假设:H0 : 1 2 … kH1 : 1 , 2 , , k 不全相等设 1为零售业被投诉次数的均值, 2为旅游业被投诉次数的均值, 3为航空公司被投诉次数的均值, 4为家电制造业被投诉次数的均值,提出的假设为:H0 : 1 2 3 4H1 : 1 , 2 , 3 , 4 不全相等问题的一般提法5.2.2 方差分析的基本思想随机误差因素的同一水平(总体)下,样本各观察值之间的差异比如,同一行业下不同企业被投诉次数之间的差异这种差异可以看成是随机因素的影响,称为随机误差系统误差因素的不同水平(不同总体)之间观察值的差异比如,不同行业之间的被投诉次数之间的差异这种差异可能是由于抽样的随机性所造成的,也可能是由于行业本身所造成的,后者所形成的误差是由系统性因素造成的,称为系统误差5.2.3 两类误差数据的误差用平方和(sum of squares)表示组内平方和(within groups)因素的同一水平下数据误差的平方和比如,零售业被投诉次数的误差平方和只包含随机误差组间平方和(between groups)因素的不同水平之间数据误差的平方和比如,4个行业被投诉次数之间的误差平方和既包括随机误差,也包括系统误差5.2.3 两类误差误差平方和:SS平方和除以相应的自由度若原假设成立,组间均方与组内均方的数值就应该很接近,它们的比值就会接近1若原假设不成立,组间均方会大于组内均方,它们之间的比值就会大于1当这个比值大到某种程度时,就可以说不同水平之间存在着显著差异,即自变量对因变量有影响判断行业对投诉次数是否有显著影响,也就是检验被投诉次数的差异主要是由于什么原因所引起的。如果这种差异主要是系统误差,说明不同行业对投诉次数有显著影响5.2.3 两类误差均方:MS5.3 常用术语055.3常用术语5.3.1 试验指标5.3.2 试验因素5.3.3 因素水平5.3.4 试验处理方差分析中的有关术语因素或因子(factor)所要检验的对象分析行业对投诉次数的影响,行业是要检验的因子水平或处理(treatment)因子的不同表现零售业、旅游业、航空公司、家电制造业观察值在每个因素水平下得到的样本数据每个行业被投诉的次数试验这里只涉及一个因素,因此称为单因素4水平的试验总体因素的每一个水平可以看作是一个总体零售业、旅游业、航空公司、家电制造业是4个总体样本数据被投诉次数可以看作是从这4个总体中抽取的样本数据方差分析中的有关术语5.4 单因素方差分析055.4单因素方差分析5.4.1 单因素方差分析基本概念5.4.2 问题描述5.4.3 分析步骤5.4.4 方差试验表当方差分析只涉及一个分类试验因素对试验指标的影响差异性时,则可称为单因素方差分析。如要检验不同地区的某商品的市场销售潜力是否相等,或要检验不同区域某品牌连锁店的服务认可度是否相等,两个例子中均只涉及“区域”一个因素,故其属于单因素方差分析。5.4.1 单因素方差分析基本概念单因素方差分析的数据结构(one-way analysis of variance)观察值 ( j ) 因素(A) i水平A1 水平A2 … 水平Ak1 2 : : n x11 x21 … xk1x12 x22 … xk2: : : :: : : :x1n x2n … xkn5.4.2 问题描述提出假设构造检验统计量统计决策5.4.3 单因素方差分析步骤123提出假设一般提法H0 :m1 = m2 =…= mk自变量对因变量没有显著影响H1 :m1 ,m2 ,… ,mk 不全相等自变量对因变量有显著影响注意:拒绝原假设,只表明至少有两个总体的均值不相等,并不意味着所有的均值都不相等5.4.3 单因素方差分析步骤构造检验的统计量构造统计量需要计算水平的均值全部观察值的总均值误差平方和均方(MS)5.4.3 单因素方差分析步骤构造检验的统计量(计算水平的均值)假定从第 i 个总体中抽取一个容量为 ni 的简单随机样本,第 i 个总体的样本均值为该样本的全部观察值总和除以观察值的个数计算公式为式中: ni 为第 i 个总体的样本观察值个数xij 为第 i 个总体的第 j 个观察值5.4.3 单因素方差分析步骤构造检验的统计量(计算全部观察值的总均值)全部观察值的总和除以观察值的总个数计算公式为5.4.3 单因素方差分析步骤构造检验的统计量(例题分析)5.4.3 单因素方差分析步骤全部观察值 与总平均值 的离差平方和反映全部观察值的离散状况其计算公式为前例的计算结果SST = (57-47.869565)2+…+(58-47.869565)2=115.92955.4.3 单因素方差分析步骤构造检验的统计量(计算总误差平方和SST)各组平均值 与总平均值 的离差平方和反映各总体的样本均值之间的差异程度该平方和既包括随机误差,也包括系统误差计算公式为前例的计算结果 SSA = 1456.6086965.4.3 单因素方差分析步骤构造检验的统计量(计算组间平方和SSA)每个水平或组的各样本数据与其组平均值的离差平方和反映每个样本各观察值的离散状况该平方和反映的是随机误差的大小计算公式为前例的计算结果 SSE = 27085.4.3 单因素方差分析步骤构造检验的统计量(计算组内平方和SSE)总离差平方和(SST)、误差项离差平方和(SSE)、水平项离差平方和 (SSA) 之间的关系SST = SSA + SSE前例的计算结果:4164.608696=1456.608696+27085.4.3 单因素方差分析步骤构造检验的统计量(三个平方和的关系)各误差平方和的大小与观察值的多少有关,为消除观察值多少对误差平方和大小的影响,需要将其平均,这就是均方,也称为方差由误差平方和除以相应的自由度求得三个平方和对应的自由度分别是SST 的自由度为n-1,其中n为全部观察值的个数SSA的自由度为k-1,其中k为因素水平(总体)的个数SSE 的自由度为n-k5.4.3 单因素方差分析步骤构造检验的统计量(计算均方MS)组间方差:SSA的均方,记为MSA,计算公式为组内方差:SSE 的均方,记为MSE,计算公式为5.4.3 单因素方差分析步骤构造检验的统计量(计算均方MS)将MSA和MSE进行对比,即得到所需要的检验统计量F当H0为真时,二者的比值服从分子自由度为k-1、分母自由度为 n-k 的 F 分布,即5.4.3 单因素方差分析步骤构造检验的统计量(计算检验统计量 F )如果均值相等,F=MSA/MSE 1aF 分布F (k-1,n-k)0拒绝H0不能拒绝H0F5.4.3 单因素方差分析步骤构造检验的统计量(F分布与拒绝域)将统计量的值F与给定的显著性水平 的临界值F 进行比较,作出对原假设H0的决策根据给定的显著性水平 ,在F分布表中查找与第一自由度df1=k-1、第二自由度df2=n-k 相应的临界值 F 若F>F ,则拒绝原假设H0 ,表明均值之间的差异是显著的,所检验的因素对观察值有显著影响若F5.4.3 单因素方差分析步骤统计决策误差来源 平方和 (SS) 自由度 (df) 均方 (MS) F值 P值 F临界值组间 (因素影响) SSA k-1 MSA MSA MSE组内 (误差) SSE n-k MSE总和 SST n-1单因素方差分析表(基本结构)5.4.4 方差试验表单因素方差分析表(例题分析)5.4.4 方差试验表拒绝原假设表明因素(自变量)与观测值之间有显著关系组间平方和(SSA)度量了自变量(行业)对因变量(投诉次数)的影响效应只要组间平方和SSA不等于0,就表明两个变量之间有关系(只是是否显著的问题 )当组间平方和比组内平方和(SSE)大,而且大到一定程度时,就意味着两个变量之间的关系显著,大得越多,表明它们之间的关系就越强。反之,就意味着两个变量之间的关系不显著,小得越多,表明它们之间的关系就越弱关系强度的测量变量间关系的强度用自变量平方和(SSA)占总平方和(SST)的比例大小来反映自变量平方和占总平方和的比例记为R2 ,即其平方根 R 就可以用来测量两个变量之间的关系强度关系强度的测量R=0.591404结论行业(自变量)对投诉次数(因变量)的影响效应占总效应的34.9759%,而残差效应则占65.0241%。即行业对投诉次数差异解释的比例达到近35%,而其他因素(残差变量)所解释的比例近为65%以上R=0.591404,表明行业与投诉次数之间有中等以上的关系例题分析关系强度的测量5.5 双因素方差分析055.5双因素方差分析5.5.1 双因素方差分析基本概念5.5.2 问题描述5.5.3 分析步骤5.5.4 方差试验表双因素方差分析(two-way analysis of variance)分析两个因素(行因素Row和列因素Column)对试验结果的影响如果两个因素对试验结果的影响是相互独立的,分别判断行因素和列因素对试验数据的影响,这时的双因素方差分析称为无交互作用的双因素方差分析或无重复双因素方差分析(Two-factor without replication)如果除了行因素和列因素对试验数据的单独影响外,两个因素的搭配还会对结果产生一种新的影响,这时的双因素方差分析称为有交互作用的双因素方差分析或可重复双因素方差分析 (Two-factor with replication )5.5.1 双因素方差分析基本概念双因素方差分析的基本假定每个总体都服从正态分布对于因素的每一个水平,其观察值是来自正态分布总体的简单随机样本各个总体的方差必须相同对于各组观察数据,是从具有相同方差的总体中抽取的观察值是独立的5.5.2 问题描述【例】有4个品牌的彩电在5个地区销售,为分析彩电的品牌(品牌因素)和销售地区(地区因素)对销售量的影响,对每显著个品牌在各地区的销售量取得以下数据。试分析品牌和销售地区对彩电的销售量是否有显著影响?( =0.05)不同品牌的彩电在5个地区的销售量数据 品牌因素 地区因素 地区1 地区2 地区3 地区4 地区5品牌1 品牌2 品牌3 品牌4 365 345 358 288 350 368 323 280 343 363 353 298 340 330 343 260 323333308298无重复双因素分析5.5.2 问题描述数据结构5.5.2 问题描述是全部 kr 个样本数据的总平均值5.5.2 问题描述数据结构是行因素的第i个水平下各观察值的平均值是列因素的第j个水平下各观察值的平均值对行因素提出的假设为H0:m1 = m2 = … = mi = …= mk (mi为第i个水平的均值)H1:mi (i =1,2, … , k) 不全相等对列因素提出的假设为H0: m1 = m2 = … = mj = …= mr (mj为第j个水平的均值)H1: mj (j =1,2,…,r) 不全相等5.5.3 分析步骤\提出假设计算平方和(SS)总误差平方和行因素误差平方和列因素误差平方和随机误差项平方和5.5.3 分析步骤\构造检验的统计量总误差平方和(SST )、行因素平方和 (SSR)、列因素平方和(SSC) 、误差项平方和(SSE) 之间的关系SST = SSR +SSC+SSE5.5.3 分析步骤\构造检验的统计量计算均方(MS)误差平方和除以相应的自由度三个平方和的自由度分别是总误差平方和SST的自由度为 kr-1行因素平方和SSR的自由度为 k-1列因素平方和SSC的自由度为 r-1误差项平方和SSE的自由度为 (k-1)×(r-1)5.5.3 分析步骤\构造检验的统计量计算均方(MS)行因素的均方,记为MSR,计算公式为列因素的均方,记为MSC ,计算公式为误差项的均方,记为MSE ,计算公式为5.5.3 分析步骤\构造检验的统计量计算检验统计量(F)检验行因素的统计量检验列因素的统计量5.5.3 分析步骤\构造检验的统计量将统计量的值 F 与给定的显著性水平 的临界值 F 进行比较,作出对原假设 H0 的决策根据给定的显著性水平 在 F 分布表中查找相应的临界值 F 若FR > F ,拒绝原假设 H0 ,表明均值之间的差异是显著的,即所检验的行因素对观察值有显著影响若FC > F ,拒绝原假设 H0 ,表明均值之间有显著差异,即所检验的列因素对观察值有显著影响5.5.3 分析步骤\统计决策双因素方差分析表(基本结构)5.5.4 方差试验表误差来源 平方和 (SS) 自由度 (df) 均方 (MS) F值 P值 F临界值行因素 SSR k-1 MSR MSR MSE列因素 SSC r-1 MSC MSC MSE误差 SSE (k-1)(r-1) MSE总和 SST kr-1双因素方差分析(例题分析)提出假设对品牌因素提出的假设为H0:m1=m2=m3=m4 (品牌对销售量无显著影响)H1:mi (i =1,2, … , 4) 不全相等 (有显著影响)对地区因素提出的假设为H0:m1=m2=m3=m4=m5 (地区对销售量无显著影响)H1:mj (j =1,2, … , 5) 不全相等 (有显著影响)5.5.4 方差试验表结论:FR=18.10777>F =3.4903,拒绝原假设H0,说明彩电的品牌对销售量有显著影响FC=2.100846< F =3.2592,不拒绝原假设H0,无证据表明销售地区对彩电的销售量有显著影响双因素方差分析(例题分析)5.5.4 方差试验表差异源 SS df MS F P-value F crit行(品牌) 13004.55 3 4334.85 18.10777 9.46E-05 3.4903列(地区) 2011.7 4 502.925 2.100846 0.143665 3.2592误差 2872.7 12 239.3917 总和 17888.95 19 行平方和(SSR)度量了品牌这个自变量对因变量(销售量)的影响效应列平方和(SSC)度量了地区这个自变量对因变量(销售量)的影响效应这两个平方和加在一起则度量了两个自变量对因变量的联合效应联合效应与总平方和的比值定义为R2其平方根R反映了这两个自变量合起来与因变量之间的关系强度关系强度测量例题分析品牌因素和地区因素合起来总共解释了销售量差异的83.94%其他因素(残差变量)只解释了销售量差异的16.06%R=0.9162,表明品牌和地区两个因素合起来与销售量之间有较强的关系关系强度测量5.6 Excel在方差分析中的应用055.6Excel在方差分析中的应用5.6.1 单因素方差分析5.6.2 实例应用用Excel进行方差分析步骤:第1步:选择“工具 ”下拉菜单第2步:选择【数据分析】选项第3步:在分析工具中选择【单因素方差分析】,然后选择【确定】第4步:当对话框出现时在【输入区域 】方框内键入数据单元格区域在【 】方框内键入0.05(可根据需要确定)在【输出选项 】中选择输出区域5.6.1 单因素方差分析【例】为比较不同肥料对树苗生长有无显著影响,某农场施用四种不同肥料进行育苗试验并得到相关的试验结果,假设苗高服从正态分布,且方差相等,。5.6.2 实例应用肥料品种 1 2 3 4 5 6肥料A 62 64 60 61 59 60肥料B 52 46 53 48 50 46肥料C 53 55 48 44 46 50肥料D 48 52 58 60 52 51实例的操作步骤(1)新建Excel工作簿,命名为“不同肥料与树苗高度的单因素方差分析”,并将数据和相关文字输入到工作表中。(2)点击“数据”→“数据分析”→“方差分析:单因素方差分析”,点击“确定”按钮,弹出对话框,如图5.1。(3)在“方差分析:单因素方差分析”对话框中,在“输入区域”选中单元格区域B2:G5,由于输入区域的数据是按行排列的,所以“分组方式”选择“行”,因为“输入区域”不包括标志列,所以“标志位于第一列”不勾选,α 是默认的0.05;单击“输出区域”,选中单元格“A8”,则生成计算结果,见图5.2。5.6.2 实例应用图5.1“方差分析:单因素方差分析”对话框图5.2 单因素方差的输出结果实例的结果分析在进行决策的时候,可将统计量 F 的统计值与给定的显著性水平 α 下的临界值 Fα 进行比较,也可以直接利用方差分析表中的 P 值与显著性水平 α 的值进行比较。由图5.2可以看出,计算的 F 值为14.64459,大于 F 临界值 3.098391,同时 P 值为2.81E-05,小于显著性水平0.05,说明拒绝原假设,即:不同肥料对树苗高度有显著影响。5.6.2 实例应用本章的重点掌握假设检验的计算方法掌握单因素方差分析的计算理解双因素方差分析的原理Excel在方差分析中的应用归纳小结本章小结谢谢观看! 展开更多...... 收起↑ 资源预览