第8章 假设检验 课件(共45张PPT)- 《概率论与数理统计》同步教学(人邮版)

资源下载
  1. 二一教育资源

第8章 假设检验 课件(共45张PPT)- 《概率论与数理统计》同步教学(人邮版)

资源简介

(共45张PPT)
第八章 假 设 检 验
上一章讨论的是通过样本来估计总体参数问题,它是统计推断的一种重要的形式.本章将介绍统计推断的另一类问题——假设检验.根据样本观测值,推断总体参数或分布的假设是否正确,这就是假设检验问题.
第一节 假设检验的基本概念
一、假设检验的基本思想和基本步骤
为了对假设检验有一个初步的了解,先来看以下一个例子.
例8.1 设某工厂生产的电灯泡的寿命X 服从正态分布
, 已知其标准差 为150小时, 现从该厂生产的一批灯泡中随机抽取25个, 测得其平均寿命为1528小时,能否认为该批灯泡的寿命均值为1600小时?
解 由题意知, X~ , 其中,样本均方差 , 样本均值 =1528.
能否认为该批灯泡的寿命均值为1600小时,就是检验假设.
是否正确.即检验以下假设
(8.1)
通常称假设 H0为原假设,称与H0 对立的假设H1 为备择假设.检验的目的是在原假设 H0和备择假设 H1中选择一个,若检验结果是原假设 H0正确,就接受H0 ,否则拒绝 H0 ,而接受 H1 .
我们知道,样本均值 是总体均值 的无偏估计,如果原假设 H0 成立,则观测值 与 的偏差 应该比较小.反之,若 H0不成立,则 就应该比较大.因此, 的大小可以用来检验原假设 H0是否成立.
由于当 H0为真时,统计量
~N(0,1)
故可以把衡量 的大小归结为衡量 的大小.|u| 太大就拒绝原假设 H0 . 给定一个很小的正数 ,根据标准正态分布分位点的定义,有
即事件 为一小概率事件.根据“小概率
事件在一次试验中是不可能发生”的实际推断原理,若 H0正确,该事件在一次试验中实际上是不可能发生的,因此,若样本值满足
即在一次试验中小概率事件发生了,我们就应怀疑原假设H0 的正确性.故拒绝 H0 ;反之,若样本值满足
此时没有理由拒绝 H0 ,故只能接授H0 .
在例8.1中,若取 ,则 .
即 .已知 n = 25, .
从而
小概率事件在一次实验中发生了,因此拒绝 H0 .即不能认为该批灯泡的寿命均值为1600小时.
统计量   称为检验统计量.
给定的数 称为显著性水平.对于各种不同的问题,显著性水平 的选择可以不一样,为查表方便起见,通常
选取 =0.1,0.05,0.01,0.005等值.
若当检验统计量取某个区域中的值时,我们就拒绝原假设H0 ,则称该区域为拒绝域,拒绝域的边界点称为临界点.如例8.1中的拒绝域为
(8.2)
而接授域为 和 为临界点.
二、双侧检验与单侧检验
例8.1中的备择假设是 , 它表示只要 与
有一个成立,就可以拒绝H0 .由于拒绝域分别
位于 的两侧,所以称这类假设检验为双侧检验.
但有时还需要用到单侧假设检验.比如,对于一批灯泡,我们关心的主要是它的寿命均值 不应太低.因此就会提出以下问题:“是否可以认为这批灯泡的寿命均值 不小于 ?”,这样就是要求检验如下的假设:
, . (8.3)
形如(8.3)的假设检验称为左侧检验.类似地,有时还需要作如下的假设检验:
:, ,   (8.4)
形如(8.4)的假设检验称为右侧检验.
左侧检验(8.3)有时也写为
(8.5)
右侧检验(8.4)有时也写为
(8.6)
可以证明,在同一显著性水平 下,(8.3)与(8.5)的检验方法是一样的,(8.4)与(8.6)的检验方法也是一样的.左侧检验与右侧检验统称为单侧检验.
下面讨论当 已知时,形如(8.4)的右侧检验问题
的拒绝域.
由于 ~N(0,1),取定显著性水平 ,得
.  , 当H0成立时,有不等式
从而有事件
 因此   .
故拒绝域为 (8.7)
类似的讨论,可得左侧检验的拒绝域为
(8.8)
由前面的讨论可得出假设检验的一般步骤如下.
(1)根据实际问题提出原假设 H0和备择假设 H1;
(2)根据原假设H0 , 选取合适的统计量,并在原假设H0 成立时确定该统计量的分布;
(3)选取适当的显著性水平 , 并根据统计量的分布查表 ,
给出对应于 的临界值,并确定拒绝域;
(4)由样本观测值计算统计量的观测值,并与临界值比较;
(5)作结论: 若检验统计量的值落入拒绝域, 就拒绝 ; 否则接受 . 但要注意, 若检验统计量的值接近临界值, 实际中应再抽一个样本来作进一步分析,然后下结论.
三、两类错误
假设检验是在原假设 为真的前提下,导出一个小概率事件,它在一次试验中几乎不可能发生,但我们不能断定它完全不发生,因而用假设检验方法作出的判断并不完全可靠,有时可能犯错误,通常有两类可能性的错误.
(1) 原假设H0 是正确的, 而我们错误地拒绝了它, 称之为第一类错误或弃真错误.由于仅当小概率事件发生时才拒绝 H0, 因而犯第一类错误的概率就是显著性水平 ,即
(2) 原假设 H0实际上是不正确的, 而我们错误地接受了它, 称之为第二类错误或纳伪错误.犯第二类错误的概率记为 .即
我们希望犯这两类错误的概率越小越好,但当样本容量给定时,犯这两类错误的概率不可能同时被控制.因此通常采用的做法是:控制犯第一类错误的概率不超过事
先给定的 ,而使犯第二类错误的概率 尽可能地小.如果在检验中只对犯第一类错误的概率加以控制,而不考虑犯第二类错误的概率,这种检验称为显著性检验.
第二节 单个正态分布总体参数的假设检验
设总体X~N , X1,X2,…Xn 为来自X 的样本, 分别为样本均值与样本方差.
一、单个正态总体均值的假设检验
1.方差 已知时,关于均值 的检验
在第一节中已经讨论过,当 已知,显著性水平为 时,
关于 的双侧检验、单侧检验的拒绝域均已得到, 见式(8.2),(8.7),(8.8).在这些检验中,我们都是利用统计量
的值来确定拒绝域的,故通常称为u检验法.
例8.2 某车间用一台包装机包装葡萄糖,规定标准为每袋0.5kg.设包装机称得袋糖X~ ,且已知 =0.015.某天开工后, 为检查包装机工作是否正常, 随机抽取9袋,称得质量为:0.497,0.506,0.518,0.524,0.488,0.511,0.510,0.515,0.512.按显著性水平 =0.10,检验
包装机工作是否正常?
解 由题意知,需检验假设
由于方差 已知,而需要检验均值 ,故用U检验法.此时拒绝域为式(8.2).
由样本观测值算得样本均值
对于水平 =0.10, 查标准正态分布临界值表, 得
计算统计值,得
可见 |u| 的值在拒绝域内.因此,拒绝 H0,即认为包装机工作不正常.
2.方差 未知时,关于均值 的检验
考虑假设
(8.9)
由于 未知,而S 2是 的无偏估计量,自然想利用S 代替 ,又由于 H0为真时,统计量 
~t ( n - 1),
因此用T 作为检验统计量.当检验统计量T 的值 | t | 过分大时就拒绝 .故拒绝域的形式为 .
取定显著性水平 ,则
由 t 分布的双侧 分位点, 得 .从而此检验问题的拒绝域为
(8.10)
上述利用统计量T的值得到的检验法称为 t 检验法.
例8.3 用一仪器间接测量温度5次, 得到数据为1250,1265, 1245, 1260, 1275(℃).而用另一种精密仪器测得温度为1277℃(可看作真值).设测量的温度服从正态分布,问用此仪器测量温度有无系统偏差?(取 =0.05)
解 由题意知,需检验假设
由于方差 未知,而要检验均值 ,故用 t 检验法.此时拒绝域为式(8.10).经计算得  =1259, s2 =142.5,又n = 5, .
因此有
故拒绝 H0.即认为此仪器测量温度有系统偏差.
二、单个正态分布总体方差的假设检验
设 为已知常数, 未知.考察待检验的假设为
(8.11)
由于S2 是 的无偏估计,当 H0为真时,观测值 S2与 的比值应接近于1,故当 的值过分大于1或小于1时,就应该拒绝 H0 .又当 H0为真时

我们取 为检验统计量.从而拒绝域的形式为
  或   .
给定显著性水平 ,取
由 分布的分位点定义,得
或 (8.12)
同样可以讨论 的单侧检验问题.如果要检验假设
(8.13)
当 H0成立时, ,因此 应该比较小,拒绝域的形式为
给定显著性水平 ,取
由 分布的分位点知 ,于是得拒绝域为
           (8.14)
类似地,对于左侧检验
        (8.15)
可得拒绝域为
           (8.16)
由于以上所用的检验统计量服从 分布,故称为 检验法.
例8.4 某厂生产的铜丝的折断力服从标准差为8kg的正态分布,今从某日的产品中任意抽取10根检查折断力,测得数据如下(单位:kg):
578 572 570 568 572 570 572 596 584 570
问该日生产的铜丝的折断力的标准差是否仍为8kg?(取 = 0.05)
解 由题意知,要检验的假设为
  
由于 未知,而 已知,故检验 时应用 检验法.
由样本值算得  =575,S2 =75.73,故
查 分布表,得
拒绝域为
由于 , 可见 , 不在拒绝域内,故接受 H0.即在 =0.05下,就认为该日生产的铜丝的折断力标准差为8kg.
例8.5 用包装机包装洗衣粉,在正常情况下,每袋标准质量为1000g,标准差 不能超过15g.假设洗衣粉质量服从正态分布.某天检验包装机工作情况,从已包装好的袋中随机抽取10袋,测得质量(单位:g)分别为
1020,1030,968,994,1014,998,976,982,950,1048.问按标准差衡量,这天机器工作是否正常
(取 =0.05)?
解 按题意,要检验的假设为
由于 未知,要对 作检验,用 检验法.
选择检验统计量: ,此检验属于右侧检验.
故拒绝域的形式为 .
查 分布临界值表,得 
由样本观测值算得
进而得 的统计值为
所以拒绝原假设 H0 : .即认为这天包装机工作不正常.
单个正态总体均值、方差的检验法如表8-1所示 (见课本146-147页)
第三节 两个正态总体参数的假设检验
设有两个正态总体X~N ,Y~N ,X与Y相互独立,X1,X2,…,Xn 与 Y1,Y2,…,Yn分别是取自总体X和Y的样本, 分别是X和Y的样本均值, 分别是X和Y的样本方差.
一、两个正态总体均值的假设检验
关于两个正态总体均值 和 的假设检验通常有以下3种.
(1)        (8.17)
(2)        (8.18)
(3) (8.19)
类似于以上讨论,有以下结论.
1.若 和 已知, 在 H0成立的前提下, 选择检验统计量
~N(0,1).
对于检验问题(1), H0 的拒绝域为 ;    (8.20)
对于检验问题(2), H0 的拒绝域为 ;     (8.21)
对于检验问题(3), H0 的拒绝域为 .     (8.22)
2. 和 未知,但 .
在H0 成立的前提下,构造检验统计量
~ ,
其中
对于检验问题(1), H0 的拒绝域为 ;
(8.23)
对于检验问题(2), H0的拒绝域为 ;
(8.24)
对于检验问题(3), H0的拒绝域为 :
(8.25)
例8.6 从甲, 乙两厂生产的钢丝总体X, Y中各取50截1m长的钢丝做拉力强度试验.测得 .设钢丝的抗拉强度服从正态分布, 且 . 问甲,乙两厂钢丝的抗拉强度是否有明显差别(取 =0.05)?
解 设甲, 乙两厂钢丝的抗拉强度的总体均值分别为 和
.考虑检验假设
由题意知 , , =0.05.
查N(0,1)分布表,得 .由于
故拒绝H0 ,即在显著性水平 =0.05下,认为两厂钢丝的抗拉强度有明显差别.
二、两个正态总体方差的假设检验
关于两个正态总体方差在 , 和 均未知的情形下的假设检验,通常有以下3种.
(1)       (8.26)
(2)        (8.27)
(3)           (8.28)
现在先来讨论检验问题(1).
要检验 和 是否相等,自然想到用它们的无偏估计来比较. 考虑 当H0 为真时,F 接近1的可能性很大.为此,若F很大或很小时,则有理由拒绝 H0 ,认为
.由定理6.5知

当 H0为真时,有  ~ .
取 为检验统计量,拒绝域的形式为
对于给定的显著性水平 ,有
根据F分布的上侧分位点知
得拒绝域为
  (8.29)
这种检验两正态总体方差是否相等的检验称为方差齐性检验.
其次考虑单侧假设检验问题(2).
与前面类似的分析,取检验统计量为
拒绝域为 ,在给定的显著性水平 时 ,有
当 时,有 F~F(n1-1,n2-1) .
因此得拒绝域为
           (8.30)
同理可得相应于假设检验问题(3)的拒绝域为
(8.31)
例8.7 两化验员A,B对同一种矿砂的含铁量独立地用同一种方法做了5次分析,得到样本方差分别为0.432和0.506,若A,B两个测量值均服从正态分布,其方差分别为 和 ,试在显著性水平 =0.05下,检验假设
  
解 依题意知 , 而 和 未知,故采用统计量 进行检验.通过计算得
而 
由于   ,可知 F 落在拒绝域的外部,故可接授 H0.
两个正态总体均值、方差的假设检验法如表8-2所示.
(见课本149-150页)
第四节 总体分布的假设检验
前面我们讨论的是在已知总体分布时关于未知参数的假设检验,如果总体分布是未知的,则需要对总体分布进行推断,即对总体分布做假设检验.例如我们要考察某一产品的质量指标是否服从正态分布,考察一枚骰子
是否均匀,即考察各个点数出现是不是等可能的.检验分布函数的方法较多,我们仅介绍最常用的 检验法,亦称为皮尔逊-- 拟合检验法.
设总体X的分布函数F(x)未知,(x1,x2,…,xn) 是总体X的样本,现在需在显著性水平 下,检验假设
          (8.32)
其中F0(x) 为某已知分布函数或者是某一已知类型中的分布函数.
皮尔逊 拟合检验法的步骤如下.
设总体X的可能取值都落在区间(a,b)内,a可以为 ∞,
b可以为 + ∞, 将区间(a,b)分成 m 个小区间, 不妨设第 i个小区间为 (当i =1时,第1个小区间应为开区间,以下将不再声明),设样本落入第 i个小区间中的个数为 个.
设当 H0为真时, 总体X落入第 i个小区间 的概率为 pi , 则有
(8.33)
根据大数定律,当 H0成立时,“理论频数” ( npi或 )与“实际频数” 的差异不应太大.根据这个思路,皮尔逊构造了一个统计量
(8.34)
称为皮尔逊 统计量.
根据以上分析,当 H1为真时, 往往偏大.从而拒绝域的形式应取为 .
皮尔逊还证明了下面定理.
定理8.1 若n充分大( n ≥ 50 ), 则当 H0为真时(不论 F0(x)属于什么分布),统计量
近似地服从自由度为 m-1的 分布,于是由
可得拒绝域为           (8.35)
如果在原假设 H0中只确定了总体分布的类型,但是分布中还含有若干个未知参数,则我们不能将上述定理作为检验的理论依据,因为此时皮尔逊 统计量中的 pi无法确定.费歇证明了如下定理,从而解决了含未知参数情形的分布检验问题.
定理8.2 设 是总体 的真实分布,其中
为k个未知参数.在
在 中用 的极大似然估计
代替 .令
(8.36)
则当n很大时,统计量
近似地服从自由度为m-k-1的 分布.
此时假设检验(8.32)的拒绝域为
      (8.37)
注:当F0(x) 是离散型随机变量的分布函数时,其分组可直接
以可能的取值中的一个或若干个组成一组而完成.
皮尔逊 统计量可用下式计算
(8.38)
这是因为
在式(8.38)中将 pi改成 等式也成立.
例8.8 在一批灯泡中抽取300只做寿命试验,其结果如下
寿命t(小时)
灯泡数 121 78 43 58
在水平 =0.05下检验假设H0: 灯泡寿命服从参数为0.005的指数分布, H1 : 灯泡寿命不服从参数为0.005的指数分布.
解 题中已将样本分成4组,且落入各组的个数分别为121,78,43,58. 利用皮尔逊 检验法(n = 300较大)检查假设的拒绝域为
其余可类似地算出,其结果由下表列出.(见课本151页)
查表有 ,故可接受 H0.即可以认为灯泡寿命服从参数为0.005的指数分布.

展开更多......

收起↑

资源预览