资源简介 (共32张PPT)第四节 总体分布的假设检验----拟合优度检验在前面的课程中,我们已经了解了假设检验的基本思想,并讨论了当总体分布为正态时,关于其中未知参数的假设检验问题 .然而可能遇到这样的情形,总体服从何种理论分布并不知道,要求我们直接对总体分布提出一个假设 .例如,从1500到1931年的432年间,每年爆发战争的次数可以看作一个随机变量,椐统计,这432年间共爆发了299次战争,具体数据如下:战争次数X0123422314248154发生 X次战争的年数在概率论中,大家对泊松分布产生的一般条件已有所了解,容易想到,每年爆发战争的次数,可以用一个泊松随机变量来近似描述.也就是说,我们可以假设每年爆发战争次数分布X近似泊松分布.上面的数据能否证实X 具有泊松分布的假设是正确的?现在的问题是:又如,某钟表厂对生产的钟进行精确性检查,抽取100个钟作试验,拨准后隔24小时以后进行检查,将每个钟的误差(快或慢)按秒记录下来.问该厂生产的钟的误差是否服从正态分布?再如,某工厂制造一批骰子,声称它是均匀的.为检验骰子是否均匀,要把骰子实地投掷若干次,统计各点出现的频率与1/6的差距.也就是说,在投掷中,出现1点,2点,…,6点的概率都应是1/6.得到的数据能否说明“骰子均匀”的假设是可信的?问题是:K.皮尔逊这是一项很重要的工作,不少人把它视为近代统计学的开端. 2-检验法.解决这类问题的工具是英国统计学家K.皮尔逊在1900年发表的一篇文章中引进的所谓 2检验法是在总体X 的分布未知时,根据来自总体的样本,检验关于总体分布的假设的一种检验方法.H0:总体X的分布函数为F(x)然后根据样本的经验分布和所假设的理论分布之间的吻合程度来决定是否接受原假设.这种检验通常称作拟合优度检验,它是一种非参数检验.使用 2-检验对总体分布进行检验时,我们先提出原假设:似然估计法估计参数,然后作检验.类型已知,但其参数未知,这时需要先用极大分布拟合的 2-检验的基本原理和步骤如下:在用 2-检验法检验假设H0时,若在H0下分布3.根据所假设的理论分布,可以算出总体X的值落入每个Ai的概率pi,于是npi就是落入Ai的样本值的理论频数.1. 将总体X的取值范围分成k个互不重迭的小区间,记作A1, A2, …, Ak .2.把落入第i个小区间Ai的样本值的个数记作ni , 称为实测频数. 所有实测频数之和n1+ n2+ …+ nk等于样本容量n.标志着经验分布与理论分布之间的差异的大小.皮尔逊引进如下统计量表示经验分布与理论分布之间的差异:统计量 2的分布是什么 在理论分布已知的条件下,npi是常量实测频数理论频数皮尔逊证明了如下定理:若原假设中的理论分布F(x)已经完全给定,那么当n 时,统计量如果理论分布F(x)中有r个未知参数需用相应的估计量来代替,那么当n 时,统计量 2 的分布渐近服从 (k-r-1)个自由度的 2分布.的分布渐近k-1个自由度的 2 分布.为了便于理解,我们对定理作一点直观的说明.在理论分布F(x)完全给定的情况下,每个pi 都是确定的常数. 由棣莫佛-拉普拉斯中心极限定理,当n充分大时,实测频数 fi 渐近正态.因此是k个近似正态的变量的平方和.这些变量之间存在着一个制约关系:故统计量 2渐近服从(k-1)个自由度的 2分布。在F(x)尚未完全给定的情况下,每个未知参数用相应的估计量代替,就相当于增加一个制约条件,因此,自由度也随之减少一个.若有r个未知参数需用相应的估计量来代替,自由度就减少r个.故统计量 2渐近服从(k-r-1)个自由度的 2分布。如果根据所给的样本值 X1,X2, …,Xn算得统计量 2的实测值落入拒绝域,则拒绝原假设,否则就认为差异不显著而接受原假设.得拒绝域:(不需估计参数)(估计r 个参数)根据这个定理,对给定的显著性水平 ,查 2 分布表可得临界值 2 ,使得皮尔逊定理是在n无限增大时推导出来的,因而在使用时要注意n要足够大,以及npi 不太小这两个条件.根据计算实践,要求n不小于50,以及npi 都不小于 5. 否则应适当合并区间,使npi满足这个要求 .让我们回到开始的一个例子,检验每年爆发战争次数分布是否服从泊松分布.将有关计算结果列表如下:提出假设H0: X服从参数为 的泊松分布根据观察结果,得参数 的极大似然估计为按参数为0.69的泊松分布,计算事件X=i 的概率pi ,,i=0,1,2,3,4pi的估计是因H0所假设的理论分布中有一个未知参数,故自由度为4-1-1=2.x 0 1 2 3 4ni 223 142 48 15 40.58 0.31 0.18 0.01 0.02n 216.7 149.5 51.6 12.0 2.16战争次数实测频数14.160.1830.3760.251 1.6232.43将n <5的组予以合并,即将发生3次及4次战争的组归并为一组.故认为每年发生战争的次数X服从参数为0.69的泊松分布.按 =0.05,自由度为4-1-1=2查 分布表得=5.991=2.43<5.991,由于统计量的实测值未落入否定域.奥地利生物学家孟德尔进行了长达八年之久的豌豆杂交试验, 并根据试验结果,运用他的数理知识, 发现了遗传的基本规律.在此,我们以遗传学上的一项伟大发现为例,说明统计方法在研究自然界和人类社会的规律性时,是起着积极的、主动的作用.孟德尔子二代子一代…黄色纯系…绿色纯系他的一组观察结果为:黄70,绿27近似为2.59:1,与理论值相近.根据他的理论,子二代中, 黄、绿之比 近似为3:1,由于随机性,观察结果与3:1总有些差距,因此有必要去考察某一大小的差异是否已构成否定3:1理论的充分根据,这就是如下的检验问题.这里,n=70+27=97, k=2,检验孟德尔的3:1理论:提出假设H0: p1=3/4, p2=1/4理论频数为: np1=72.75, np2=24.25实测频数为70,27.由于统计量的实测值统计量~自由度为k-1=1=0.4158<3.841,按 =0.05,自由度为1,查 分布表得=3.841未落入否定域.故认为试验结果符合孟德尔的3:1理论.这些试验及其它一些试验,都显 示孟德尔的3: 1理论与实际是符合的. 这本身就是统计方法在科学中的一项 重要应用.用于客观地评价理论上的某个结论是否与观察结果相符,以作为该理论是否站得住脚的印证.在对总体的分布进行检验时经常使用。这一讲我们介绍了拟合优度的检验法,例8 从按某工艺条件生产的针织品用纤维中随机地抽取了120件,测得其断裂强力的数据如下(单位:N)20.3 19.1 21.0 19.5 19.9 20.7 21.5 19.6 19.4 20.5 21.8 19.7 20.3 20.5 19.2 20.6 21.4 18.9 20.4 20.7 21.0 20.3 19.8 20.2 20.6 20.3 21.1 19.6 20.5 20.8 20.2 20.9 21.2 20.4 19.7 20.8 21.3 18.0 19.4 20.9 20.0 19.8 20.4 20.9 21.4 22.3 21.2 20.2 20.0 21.4 20.4 20.9 20.6 21.7 18.8 19.7 20.6 20.7 21.1 19.5 19.8 20.5 20.9 22.1 21.2 19.9 19.3 20.1 20.4 21.3 20.1 19.8 18.6 21.3 20.5 19.6 20.3 20.9 21.8 20.6 19.2 20.4 22.4 21.2 20.8 21.0 20.0 19.7 20.2 19.9 21.0 20.3 20.1 19.6 20.2 20.4 20.8 19.0 20.7 20.5 18.5 20.0 20.6 20.1 21.1 20.1 20.9 21.4 20.0 20.6 19.9 21.0 20.5 20.8 20.4 19.4 20.2 20.7 21.5 20.3试以显著性水平检验针织品用纤维的断裂强力是否服从正态分布.解 将所得数据从小到大依次排列,可得样本频数分布和样本频率分布如下表参考教材。例12 掷一颗骰子60次,每次出现的点数为随机变量,测得如下数据:出现点数 1 2 3 4 5 6频 数 13 19 11 8 5 4在显著性水平下检验这颗骰子是否是均匀的?解 待检假设:所以应拒绝H0,即认为这骰子不是均匀的. 展开更多...... 收起↑ 资源预览