资源简介 (共59张PPT)第8章 我们生活在信息时代,信方差分析是统计。第8章 8.1 F 分布8.2 比较两个总体的方差8.3 方差分析引论8.4 单因素方差分析8.5 双因素方差分析8.6 用Stata软件进行方差分析第8章 方差分析第8章掌握F分布的特征;通过假设检验来确定两个总体的方差是否相等;理解方差分析的一般思想;掌握单因素方差分析的原理、方法及应用条件;掌握多因素方差分析的原理、方法及应用。本章教学目的第8章方差分析的原理、方法及应用条件;理解各平方和与自由度的剖分方法,F检验及多种比较的应用。本章重点和难点第8章 方差分析第8章F分布是以统计学家R.A.Fisher姓氏的第一个字母命名的.F分布具有以下特征:F分布是一族分布。F分布是连续的。F分布是非负的。F分布是正偏分布。F分布是渐进分布8.1 F 分布第8章8.1 F 分布第8章F分布可用于检验两个正态总体的方差。双侧检验的原假设和备择假设为:单侧检验的原假设和备择假设为:8.2 比较两个总体的方差第8章比较两个总体方差的检验统计量为:其中, 为样本1(容量为n1)的样本方差;为样本2(容量为n2)的样本方差;如果原假设为真,则检验统计量服从自由度为n1-1和n2-1的F分布。8.2 比较两个总体的方差第8章F临界值来自F表有两个自由度:分子和分母其中在F表中,分子自由度确定列分母自由度确定行df1 = n1 – 1 ; df2 = n2 – 18.2 比较两个总体的方差第8章H0: σ12 = σ22H1: σ12 ≠ σ22H0: σ12 ≤ σ22H1: σ12 > σ22F0 Fα拒绝 H0不拒绝H0拒绝 H0 如果 FSTAT > FαF0 /2拒绝 H0不拒绝H0Fα/2拒绝H0 如果 FSTAT > Fα/2确定拒绝域8.2 比较两个总体的方差第8章线 路 1 线 路 252 67 56 45 70 54 64 5960615156635765表8-1 不同线路的开车时间【例8-1】王先生从家到公司的驾车线路有两条,他想要研究每条线路的开车时间并比较结果。他收集的样本数据如表8-1所示(单位:分钟)。线间在0.10的显著性水平下,两条线路驾驶时间的变异性是否有差异。8.2 比较两个总体的方差第8章解:经计算两条线路驾驶时间的均值几乎相等。经过线路1的平均时间为58.29分钟,经过线路2的平均时间为59分钟。然而,在评估平均驾驶时间的同时,王先生还考虑了驾驶时间的变异性。根据题意,要比较两条线路所需时间的变异性是否存在差异,是双侧检验问题,原假设和备择假设分别为:8.2 比较两个总体的方差第8章根据样本数据,计算可得两条线路的样本均值和方差分别为:8.2 比较两个总体的方差第8章计算两个样本的方差的比值,得到检验统计量的值,从而做出关于原假设的决策。由于计算出的F值(4.23)大于临值(3.87),因此拒绝原假设。结论:两条线路驾驶时间的变异性存在差异。分子自由度为 ,分母自由度为 。在0.05 ( ) 的显著性水平的F分布临界值表中,查得临界值为3.87。因此,决策准则是:如果样本方差的比值大于3.87,则拒绝原假设8.2 比较两个总体的方差第8章方差分析(Analysis of Variance,ANOVA),又称“变异数分析”或“F 检验”,用于两个及两个以上样本均数差别的显著性检验。方差分析即是通过推断在控制变量各水平下观测变量的总体分布是否有显著差异来实现其分析目标的。使用方差分析,需要做如下假设:(1)各样本是相互独立的随机样本;(2)各总体服从正态分布;(3)各总体有相同的标准差。8.3 方差分析引论第8章研究者控制一个观察因素该观察因素分为多个水平不同的水平生成不同的组(组别)把每一个组作为来自不同总体的样本检验每组参数是否存在差异8.4 单因素方差分析第8章1.明确观测变量和控制变量2.分析观测变量的方差单因素方差分析将观测变量总离差平方和(SST)分解为组间离差平方和(SSA)与组内离差平方和(SSE)两部分,用数学形式表述为:SST=SSA+SSE其中,SST表示观测变量总离差平方和;SSA表示组间离差平方和,是由控制变量的不同水平造成的变差;SSE表示组内离差平方和,是由抽样误差引起的变差。8.4.1 单因素方差分析的基本思想8.4 单因素方差分析第8章因素产生的差异 (SSA)随机误差产生的差异 (SSW)总离差 (SST)=+8.4 单因素方差分析第8章式中:表示全局均值;表示控制变量第j个平下的第i个观值;表示控制量第j个水平下的观测值的数量;n表示所有组别合在一起的观测值的数量(即r表示控制变量的水平数(组别数)。总离差平方和的计算8.4 单因素方差分析第8章式中:表示所比较组别数;表示控制变量个平下的观测值的数量;表示水平组的样本均值;表示全局均值。组间离差平方和的计算8.4 单因素方差分析第8章不同组间的差异间均方 = SSA/自由度(续)组间离差8.4 单因素方差分析第8章式中:表示控制变量第个水平下第个观测值;表示水平组的样本均值。组内离差平方和的计算8.4 单因素方差分析第8章每组间离差相加知道所有的组内均方 = SSE/自由度(续)组内离差8.4 单因素方差分析第8章均值平方通过相关的自由度划分多方面的均值平方和得到间均方(d.f. = r-1)内均方(d.f. = n-r)总均方(d.f. = n-1)求均值平方8.4 单因素方差分析第8章在观测变量总离差平方和中,如果组间离差平方和所占比例较大,则说明观测变量的变动主要是由控制变量引起的,可以主要由控制变量来解释,控制变量给观测变量带来了显著影响;反之,如果组间离差平方和所占比例较小,则说明观测变量的变动不是主要由控制变量引起的,不可以主要由控制变量来解释,控制变量的不同水平没有给观测变量带来显著影响,观测变量的变动是由随机变量因素引起的。3.比较观测变量总离差平方和各部分的比例8.4 单因素方差分析第8章1.提出原假设和备择假设所有的总体均值是相同的即, 不受因素影响 (每组间的均值没有变化)H1:不是所有的总体均值都是一样的至少一个总体均值是不一样的即,有因素影响不意味着所有的总体均值是不同的 (有些可能是一样的)8.4.2 单因素方差分析的基本步骤8.4 单因素方差分析第8章零假设是真的所有的均值是一样的:(没有因素影响)8.4 单因素方差分析第8章零假设不是真的至少一个均值是不一样的(影响因素存在)or8.4 单因素方差分析第8章8.4 单因素方差分析2.选择显著性水平3.确定检验统计量方差分析的检验统计量是F统计量,公式如下:式中,n表示样本总量;分别表示SSA和SSE的自由度;第8章F统计量是组间离差估计与组内离差估计的比率比率必须是正的df1 = r-1 代表小的df2 = n-r 代表大的决策:拒绝 H0如果F > Fα, 否则不拒绝H00 拒绝 H0不拒绝H0Fα4.建立决策准则8.4 单因素方差分析第8章5.做出决策离差来源平方和自由度均方(方差)组间r - 1MSA =组内SSEn - rMSE =总离差SSTn – 1SSAMSAMSEFr = 组别数n = 所有组的样本容量和df = 自由度SSAr - 1SSEn - rFSTAT =单因素方差分析表8.4 单因素方差分析第8章表8-4 不同类型商店出售的玩具价格统计试问在0.05的显著性水平下,上述3种类型商店出售的玩具价格是否有差异?【例8-2】某玩具生产商想知道在不同类型的商店出售的玩具价格是否存在差异。随机抽取5家折扣商店、5家杂货商店和5家百货商店进行调查,结果如表8-4所示。8.4 单因素方差分析第8章解:并非所有均值都相等要做出ANOVA总结表,首先要计算每组的样本均值,然后加总所有的观测值并除以观测值的数量,从而得到全局均值:8.4 单因素方差分析第8章利用公式(8-2)~(8-4)得到平方和:8.4 单因素方差分析第8章从而,运用公式(8-6)计算得检验统计量的值为:当α=0.05,查F 分布表可查右侧临界值,因为所以拒绝原假设,即不同类型的商店出售的玩具价格存在显著差异。8.4 单因素方差分析第8章说出哪个总体均值是显著不同的例: μ1 = μ2 μ3在单因素方差分析中拒绝同等均值可以成对比较绝对均值差异与临界极差的对比xμ1=μ2μ38.4.3 多重比较检验8.4 单因素方差分析第8章LSD方法Bonferroni方法Turkey方法常用的多重比较检验方法8.4 单因素方差分析第8章LSD方法称为最小显著性差异(Least Significance Difference)法。最小显著性差异法体现了其检验敏感性高的特点,即水平间的均值只要存在一定程度的微小差异就可能被检验出来。LSD方法的检验统计量为t统计量,其定义为:式中,MSE表示观测变量的组内方差;以及分别表示第i个和第j个水平下观测变量的样本均值和样本量。1.LSD方法8.4 单因素方差分析第8章Bonferroni方法与LSD方法基本相同。不同的是Bonferroni方法对犯第一类错误的概率进行了控制。两总体均值差的置信区间为:2.Bonferroni方法8.4 单因素方差分析第8章与LSD方法有所不同,Tukey方法中采用的检验统计量是q统计量,其定义为式中,MSE表示观测变量的组内方差;k表示各水平下观测值的个数,即样本量。3.Turkey方法8.4 单因素方差分析第8章8.5.1 问题的提出8.5.2 无交互作用的双因素方差分析8.5.3 有交互作用的双因素方差分析8.5 双因素方差分析第8章在许多实际问题中,往往需要同时考察几个因素对指标的影响,这种同时研究两个因素对试验指标影响的方差分析,就是双因素方差分析问题。由于存在两个因素的影响,就产生一个新问题,两因素对指标的影响是否正好是它们每个因素对指标的影响的迭加?这种各个因素的不同水平的搭配所产生的新的影响在统计上称为交互作用,各因素是否存在交互作用是多因素方差分析新产生的问题。8.5.1 问题的提出8.5 双因素方差分析第8章双因素方差分析无交互作用的双因素方差分析有交互作用的双因素方差分析8.5 双因素方差分析第8章设有A、B两个因素影响试验结果,即有两个控制变量。因素A有r个水平,因素B有s个水平,因素A、B的不同水平的每种组合都只做一次试验(观察),在这种情况下,因素A、B之间没有交互作用。其数据结构如下:8.5.2 无交互作用的双因素方差分析8.5 双因素方差分析第8章在无交互作用的双因素方差分析中,观测变量值的变动受因素A、因素B及随机因素的影响。观测变量的总变差分解为:式中,SST表示观测变量的总变差;SSA、SSB分别表示控制变量A、B独立作用引起的变差;SSE表示随机因素引起的变差。8.5 双因素方差分析第8章无交互作用的双因素方差分析的主要任务是:分析因素A和因素B对观测变量的影响大小。这一问题等价于以下两种假设。在总体分布的正态性、等方差性条件满足时,可用F统计量进行检验。8.5 双因素方差分析第8章对于 ,检验统计量为:对于 ,检验统计量为:对于选定的显著性水平α,查找F分布临界值表,得临界值,将FA与临界值进行比较,如果,则拒绝原假设,认为因素A 对观测变量有显著影响。同理,查找临界值,将FB与临界值进行比较,如果,则拒绝原假设,即认为因素B对观测变量有显著影响。8.5 双因素方差分析第8章来源 平方和 自由度 均方和 FA B 误差 合计 SSA SSB SSE SST r-1 s-1 (r-1)(s-1) nT-1无交互作用的双因素方差分析表8.5 双因素方差分析第8章Ⅰ Ⅱ Ⅲ甲 乙 丙 丁 50 63 52 47 54 42 47 57 41 53 58 48 55.047.748.353.049.3 58.0 45.8机器B工人A【例8-3】设甲、乙、丙、丁四个工人操作机器Ⅰ、Ⅱ、Ⅲ各一天,其产品产量如表8-8所示,问在0.05的显著性水平下,工人和机器对产品产量是否有显著影响。8.5 双因素方差分析第8章解:利用公式(8-11)~(8-13),求解得:8.5 双因素方差分析第8章由公式(8-14)和(8-15),计算可得检验统计量的值分别为:对于显著性水平0.05,查F分布表,得F分布的右侧临界值分别为:显然有因此,在0.05的显著性水平下,工人和机器对产量均有显著影响。8.5 双因素方差分析第8章如果因素A和因素B没有交互作用,则只需要在各个组合水平下各做一次试验就可以进行方差分析。但是,如果因素A和因素B有交互作用,这时必须在各个组合水平下做重复试验方可进行方差分析。对于有交互作用的方差分析,与无交互作用的方差分析思想完全相同,只是对离差总平方和进行分解时增加交互项的影响。8.5.3 有交互作用的双因素方差分析8.5 双因素方差分析第8章有交互作用的双因素方差分析数据结构8.5 双因素方差分析第8章在有交互作用的双因素方差分析中,观测变量值的变动受因素A、因素B、因素A和因素B交互作用及随机因素的影响。观测变量的总变差的分解式为:8.5 双因素方差分析第8章有交互作用的双因素方差分析的主要任务是:分析因素A和因素B对观测变量取值的影响大小,以及因素A、B交互作用对观测变量取值的影响大小。检验统计量分别为:8.5 双因素方差分析第8章来源 平方和 自由度 均方和 FA SSAB SSBAB SSAB误差 SSE合计 SST有交互作用的双因素方差分析表8.5 双因素方差分析第8章【例8-4】为了提高某产品的得率,研究了提取温度(A)和提取时间(B)对产品得率的影响。提取温度(A)有3个水平,A1为80℃、A2为90℃、A3为100℃;提取时间B有3个水平,B1为40min,B2为30min,B3为20min,共组成9个水平处理组合,每个水平组合含3个重复。实验结果如表8-12所示,试分析提取温度和提取时间对该产品得率的影响。提取时间提取温度 B1 B2 B3A1 8 8 8 7 7 6 6 5 6A2 9 9 8 7 9 6 8 7 6A3 7 7 6 8 7 8 10 9 9提取温度和提取时间对产品得率的影响8.5 双因素方差分析第8章方差来源 SS df MS F P-value时间 1.555556 2 0.777778 1.3125 0.293702温度 交互 内部 6.22222222.2222210.66667 2 4 18 3.1111115.5555560.592593 5.25 9.375 0.015990.000281总计 40.66667 26时间要素P值=0.293702 > 0.05,说明不同处理时间之间无显著差异。温度要素P值=0.015 99,,说明不同处理温度之间有差异。时间要素与温度要素交互P值=0.000 281< 0.01,说明不同时间与温度的交互作用对得率有极显著差异。解:因素A“提取温度”有3个水平,每个水平有9例,因素B“提取时间”有3个水平,每个水平有9例。由于有交互作用的双因素方差分析计算量较大,所以此处省略计算过程,其计算结果如下表所示:8.5 双因素方差分析第8章1.方差分析实现的是多个总体均值是否相等的检验,此方法为什么称作方差分析?2.方差分析的假设条件是什么?3.什么是总平方和?组间平方和?组内平方和?4.方差分析的一般步骤是什么? 展开更多...... 收起↑ 资源预览