资源简介 (共50张PPT)第一节 假设检验问题第二节 正态总体均值的假设检验第三节 正态总体方差的检验第四节 大样本检验法第五节 p值检验法第六节 假设检验的两类错误第七节 非参数假设检验第八章 假设检验*第七节 非参数假设检验前面我们讨论了参数假设检验问题,所检验的对象是总体分布中的未知参数,而总体分布函数的函数形式是已知的.若总体分布未知,对总体分布或有关参数所作的检验称为非参数假设检验.本节将讨论几种重要的非参数检验问题.一、分布拟合检验问题对某对象(产品、元件,农作物等)的某特性指标进行测试,获得一大批实验数据,如何利用这些数据(样本)确定此指标(总体)的概率分布.要解决此问题,一般需要做以下两方面的工作:用极大似然估计法求出 的估计值第一步拟合总体分布形式如果事先没有任何关于总体分布的经验或依据,对连续型总体,一般先把抽样所获得的数据进行整理,然后作出样本分组频数分布直方图.由此确定总体分布函数形式其中是未知参数从而猜测总体的分布函数为第二步 拟合好坏的检验设总体的真实分布为F(x),给定显著水平及样本观测值x1,x2,…,xn,检验假设1.样本频率分布直方图第六章已经介绍了直方图及其作法,为下面讨论方便起见,对此再作一些介绍.设总体X为连续型随机变量,下面利用样本数值来拟合总体分布密度函数 f(x).根据样本值的情况,将其分为l组,各组范围为其中记mi=落在[ai-1,ai)内的样本数,则事件Ai发生的频率为Ai发生的概率为作表此表称为样本分组频数分布表在每个区间[ai-1,ai)上,以此区间为底,以为高作一矩形(i=1,2, …,l),这样的图形称为样本组频率分布直力图,见图8-2因而每个小区间上的小矩形的面积接近于概率密度曲线之下该区间之上的曲边梯形的面积.一般来说,n越大且分组越细,则直方图的外廓曲线越接近于总体的概率密度曲线.对离散型总体,虽然不能画样本分组频率直方图,但仍可给出样本分组频数分布表.第i个小区上矩形的面积为 ,由大数定律可知,当n很大时,频率接近于概率2.拟合优度检验要检验假设H0,必须利用样本建立用以衡量F(x)与F0(x)差异的统计量这种统计量有多种选择,下面介绍皮尔逊(Person)检验法在H0为真的前提下,事件Ai的概率为npi称为事件Ai的理论频数,作表此表称为分组理论频数分布表它与样本分组频数分布表的差异反映了F(x)与F0(x)的差异用统计量来衡量皮尔逊证明了以下定理显然,H0的拒绝域形式为(k待定)若n很大( ),则当H0成立时,定理于是得到H0的拒绝域为皮尔逊 检验法是基于上述定理得到的在使用时必须注意n要足够大,以及每个否则应适当合并组,以满足这一要求。例1 自1965年1月1日至1971年2月9日共2231天中,全世界记录到震级4级及以上的地震共计162次,统计如下:试检验相继两次地震间隔的天数服从指数分布。( )86681017263150出现的频数震间隔天地≥4035~3930~3425~2920~2415~1910~145~90~4相继两次地由于总体为连续型,我们将X的可能取值的区间分为9个互不重叠的小区间解按题意需检验假设由于 未知,先用极大似然估计求得 的估计为取若H0真,则计算结果列于表8-2有些组的应适当合并组,使每组均有如第四列花括号所示.并组后的组数l=8.0.56330.04610.78080.05688A9:39.5≤x<0.2486A8:34.5≤x<39.50.00690.20045.79960.03586A7:29.5≤x<34.50.0126-0.32688.32680.05148A6:24.5≤x<29.50.3248-1.971811.97180.073910A5:19.5≤x<24.50.0024-0.204417.20440.106217A4:14.5≤x<19.50.06441.262624.73740.152726A3:9.5≤x<14.50.5884-4.575235.57520.219631A2:4.5≤x<9.50.51754.834445.16560.278850A1:0≤x<4.5(mi-npi)2/npimi-npinpipimiAi表8-2 例1的 检验计算表H0的拒绝域为其中由于故在水平下接受H0,认为总体服从指数分布.号码 0 1 2 3 4 5 6 7 8 9出现的频数 74 92 83 79 80 73 77 75 76 91例2 一台摇奖机是一个圆球形形容器,内有10个质地均匀的小球,分别标有0,1,2,…,9的数码。转动容量让小球随机分布,然后从中掉出一球,其号码为X。如果摇奖机合格,则X的分布律应为现用这台摇奖机做了800次试验,得到如下数据:试用这些数据检验该摇奖机是否合格?( )解 由题意要检验假设将已知数据按号码分为10组,分组为记当H0为真时计算列于表8-3中表8-3 例2的 检验计算表4.1250.512511800.171A90.2-4800.176A80.3125-5800.175A70.1125-3800.177A60.6125-7800.173A500800.180A40.0125-1800.179A30.11253800.183A21.812800.192A10.45-6800.174A0mi-npinpipimiAiH0的拒绝域其中由于故接受H0,即认为摇奖机是合格的.3.偏度、峰度检验上面介绍的 检验法虽然是检验总体分布的较一般方法,但用它来检验总体的正态性时,犯第Ⅱ类错误的概率往往较大.由于正态分布广泛地存在于客体世界,因此,当研究一个连续型总体时,人们往往先考察它是否服从正态分布.为此,统计学家们对检验正态总体的种种方法进行了比较,认为其中以“偏度、峰度检验法”及“夏皮罗-威尔克法”较为有效.在这里我们仅介绍偏度、峰度检验法.这种检验法的理论依据是正态分布曲线是对称的,且陡缓适当.为此,引入两个量,一个表示曲线的偏斜度,另一个表示密度曲线的陡缓度.设随机变量X的k阶中心矩为分别称为X的偏度和峰度从总体X中取一样本,记Bk为样本的k阶中心矩则 , 的矩法估计量分别为并分别称g1,g2为样本偏度和样本峰度若总体X服从正态分布,则且当样本容量n充分大时,近似地有而g2与 的偏离不应太大因此,当n充分大时,g1与的偏离不应太大故假设 H0:X服从正态分布的拒绝域形式应为或其中k1,k2由以下两式确定当n充分大时由此得到了H0的显著水平为 的拒绝域.二、两总体相等性检验设两总体X,Y的分布函数分别为F1(x)与F2(x),如何检验F1(x)与F2(x)是否相同呢?在总体分布类型已知时,此问题可以归纳为两总体参数(如数字特征等)是否相等这种参数假设检验问题.在总体分布类型完全未知时,我们只能采用非参数检验法.下面介绍两种简单且实用的非参数检验法:符号检验法与秩和检验法.1.符号检验法从总体X,Y中分别取容量均为N的样本X1,X2,…,XN和Y1,Y2,…,YN检验假设H0:F1(x)=F2(y) H1:F1(x)≠F2(y)将数据配对排好,列成表。当xi>yi时,取“+”号;当xi当xi=yi时,取“0”,并用n+和n-分别表示“+”号与“-”号的个数。若H0成立,两总体分布相同,n+与n-应相差不大.由于试验误差,它们会有一定的差异但差异不宜过大,如若过大,就认为不仅仅有实验误差,而认为F1(x)与F2(x)有差异.记n=n++n-,选统计量对于n和给定的,查符号检验表(见附表6)可得相应的当时,则拒绝H0认为两总体分布有显著差异例3 研究车间播放音乐对工人生产效率的影响.该车间有10名工人,播放音乐前与播放音乐后各30天平均日产量(件)如表8-4所示,由此能否说明音乐有助于提高生产率?表8-4 播放音乐前后平均日产量 (件)不放音乐x 90 80 92 84 88 87 82 85 70 79播放音乐y 99 85 97 83 81 94 72 85 82 89符 号 — — — + + — + 0 — —解要检验播放音乐对工人生产效率有无影响,就是检验假设由上表可知n+=3 n-=6 n=9 s=3查附表6,得s0.05(9)=1由于 s > s0.05(9) 故接受H0即认为播放音乐对生产率没有显著影响2.秩和检验从两总体X,Y中分别取容量为n1,n2的样本检验假设将两总体的n1+n2个观测值放在一起,按从小到大的顺序排列.若H0成立,则总体X,Y同分布,两总体的观测值应较均匀地分布在此排列中.若分布不均匀,则认为H0不成立.如何构造统计量来描述这种均匀性呢?每个观测值在此排列中的序号称为这个观测值的秩若有几个观测值相同,则每个观测值的秩取为这几个数的序号的平均值.求出每个观测值的秩.将属于总体X的样本观测值的秩相加,其和记为R1,称为总体X的样本秩和.同理,将其余观测值的秩相加得总体Y的样本秩和R2.显然,R1,R2为离散型随机变量,且有设取T=R1为统计量若H0成立,秩和R1一般来说不应取太靠近上述不等式两端的值.因而,当R1的观测值过大或过小时,我们就拒绝H0拒绝域为其中T1,T2可由附表7查得或Ⅰ 2.36 3.14 7.52 3.48 2.76 5.43 6.54 7.41Ⅱ 4.38 4.25 6.54 3.28 7.21 6.54试问两总体是否同分布?( )例4 设由实验获得Ⅰ,Ⅱ两组样本值,列表如下:解 采用秩和检验法检验假设其中F1(x),F2(y)分别为总体Ⅰ,Ⅱ的分布函数将两组样本观测值混在一起,从小到大排序,并计算相应的秩,列表如下:编号 1 2 3 4 5 6 7 8 9 10 11 12 13 14Ⅰ 2.36 2.76 3.14 3.48 5.43 6.54 7.41 7.52Ⅱ 3.28 4.25 4.38 6.54 6.54 7.21秩 1 2 3 4 5 6 7 8 9 10 11 12 13 14其中观测值6.54出现3次,序号分别为9,10,11因而其秩应为统计量查秩和检验表(附表7),得由T1=32 T2=58由于 ,故接受H0 .即认为两组样本对应的总体同分布.注意:秩和检验表只列到 的情形当其大于10时,统计量于是可用U检验法求拒绝域.三、独立性检验在研究随机量的概率性质时,我们常假设两个随机变量独立;在对两个正态总体的参数作有关假设检验时,我们也常假定它们独立.独立性有时容易从直观上判断,但有时很难从直观上判断.如地下水位的变化是否与地震的发生独立,某种疾病是否与性别有关等,需要根据实际观测结果来检验独立性是否成立.这种假设是否合理呢?设有两个总体X,Y,给定显著水平检验非参数假设H0:X,Y相互独立将X的所有可能取值分为r个不同组A1,A2,…,Ar将Y的所有可能取值分为s个不同组B1,B2,…,Bs对(X,Y)进行n次独立观测分别记录事件( )出现的频数将所得结果列成 格联列表(表8-5)表中 分别为 的估计值记YmijX B1 B2 … BsA1 m11 m12 … m1sA2 … m2s... ... ... … ... ... ...Ar mrs mrs … mrs… n… 1表8-5 联列表事件 的理论频数为若H0成立,则取统计量当H0成立且n很大时,由此可得H0的拒绝域为例5 观察168例伤寒患者的情况,按照其患病的轻重程度和年龄记录为表8-6 所示数据资料.问这些资料能否说明伤寒患者的轻重程度与年龄有关.(取 )表8-6 伤寒患者病情记录病情Y例数mij年龄X 1 2 3轻微 中等 严重10岁以下 0 5 2 711~15 1 5 7 1316~20 6 23 20 4921~25 3 19 13 3526~30 7 23 9 3931~35 1 12 6 1936岁以上 0 4 2 610 91 59 168解 以X表示患者的年龄,以Y表示患者患病的程度根据患者病情的轻,中,重,Y相应取值为1,2,3需要检验假设H0:两总体X,Y相互独立,拒绝域为由所给数据计算,得由于即根据已有资料数据不能说明病情与年龄有关故接受H0习题8-71.卢瑟福在2608个相等时间间隔(每 分钟)内,观察放射性物质放射的粒子数,得下表数据:用 检验法检验该放射性物质放射粒子是否服从泊松分布?( )粒子数 0 1 2 3 4 5 6 7 8 9 ≥10时间段数目 57 203 383 525 532 408 273 139 45 27 162.对某汽车零件制造厂所生产的汽缸螺栓直径进行抽样检验,测得100个数据,分组统计如下:试检验螺栓直径是否服从正态分布?分组 10.93 10.95 10.97 10.99 11.01 11.03 11.05 11.07~ ~ ~ ~ ~ ~ ~ ~10.95 10.97 10.99 11.01 11.03 11.05 11.07 11.09频数 5 8 20 34 17 6 6 43.甲、乙两个车间生产同一种产品,要比较这种产品的某项指标波动的情况.从这两车间取得连续15天反映波动大小的数据如下:在显著水平0.05下用符号检验法检验假设“这两个车间所生产的产品的该项指标的波动分布相同”.甲 1.13 1.26 1.16 1.44 0.86 1.39 1.21 1.22 1.20乙 1.21 1.31 0.99 1.59 1.41 1.48 1.31 1.12 1.60甲 0.62 1.18 1.34 1.57 1.30 1.13乙 1.38 1.60 1.84 1.95 1.25 1.504.为比较动物在感染了两种伤寒杆菌A,B后存活的天数,对20只小白鼠中的9只接种了A,其余的接种了B,接种后存活天数如下:由此能否断定感染这两种伤寒杆菌后动物存活天数无显著差异?(用秩和检验法, )A 5 6 7 12 6 6B 7 11 6 6 7 9 5 10 10 7 85.假设某工厂可能发生两种类型的事故 A(起火)和 B(爆炸),而工厂使用3种不同的原料 L,M,N.下面是事故情况的记录,试问事故类型与原料类型是否有关?( )1415821625325820B88331342ANML原料事故次数事故 展开更多...... 收起↑ 资源预览