第6章 假设检验 课件(共65张PPT)- 《统计学——思想、方法与应用(第二版)》同步教学(人民大学版)

资源下载
  1. 二一教育资源

第6章 假设检验 课件(共65张PPT)- 《统计学——思想、方法与应用(第二版)》同步教学(人民大学版)

资源简介

(共65张PPT)
统计学:思想、方法与应用
第6章 假设检验
6.1 作为一个问题的假设
6.2 怎样回答零假设所提出的问题
6.3 显著性水平
6.4 正态总体均值的假设检验
6.5 总体比例的假设检验
6.6 假设检验和置信区间
学习目标
了解假设检验的统计思想;
知道两类错误、p-值和显著性水平;
能对总体均值(差)进行假设检验;
能对总体比例(差)进行假设检验;
相关理论在统计学软件中的应用;
相应统计分析结果的解读。
如果一个人说他从来没有骂过人。他能够证明吗?
要证明他没有骂过人,他必须出示他从小到大每一时刻的录音录像,所有书写的东西等等,还要证明这些物证是完全的、真实的、没有间断的。这简直是不可能的。
即使他找到一些证人,比如他的同学、家人和同事,那也只能够证明在那些证人在场的某些片刻,他没有被听到骂人。
反过来,如果要证明这个人骂过人很容易,只要有一次被抓住就足够了。
看来,企图肯定什么事物很难,而否定却要相对容易得多。这就是假设检验背后的哲学。
科学总往往是在否定中发展。
假设检验的基本思想
6.1 作为一个问题的假设
调查数据显示,2010年各城市的本科生平均起薪前三名分别为上海3367元,深圳 3153元,北京 2993元(注:数据来自于网络)。从该数据可以看出,深圳的大学毕业生平均起薪比北京高160元,上海比深圳高214元。
来自上海和深圳的总体均值差异是否为零?在两个样本中,均值差为3367-3153=214。即平均起来,每个在上海就业的大学毕业生的薪水比在深圳的毕业生高214元。
当然,即使两个城市的总体均值没有差异,我们也不能指望两个样本均值相同。因为两个随机样本都会受抽样变化的影响。但是这个变化所能造成的差异也许不足以大到可以解释214元这样的差距。
6.1.1零假设和备择假设
零假设或原假设(null hypothesis) 总是通过一个或多个参数来表示,而且设定这(些)参数等于某个特殊值。
通常,零假设中有“不是”或“没有”这样的字眼,表示“没有变化”。比如,零假设通常这样说“……之间没有显著差异”或“这种电子元件的平均使用时间与……没有显著差异”。在目前这个例子中,零假设问这两个总体均值之差是否等于0。
如果用 来标记上海的总体均值,用 来标记深圳的总体均值,那么在这个有关大学毕业生薪水的问题中,零假设可以表示成下面的形式:
6.1.1零假设和备择假设
零假设总是一个与总体参数有关的问题,关于样本统计量如样本均值 或样本均值之差的零假设是没有意义的,因为样本统计量是已知的,当然能说出它们是否相等。
例如,上面例子中的样本均值之差是214,它显然不等于0。但是这并不等于总体均值之间就一定不同,所以我们要问总体均值的差是多少?
6.1.1零假设和备择假设
一般在多数统计实践中(除了理论探讨之外),提出零假设的目的是用于检验。我们要么拒绝,要么不能拒绝零假设。
零假设涉及问题的答案是以样本数据为基础的。
除非样本数据有充足证据说明零假设是错误的,否则我们不能拒绝它。
6.1.1零假设和备择假设
对于内容是"无区别"的零假设,其逻辑上的反面假设是"两个参数间有区别"。这种反面假设称为备择假设(alternative hypothesis)。
前面例子的备择假设应表述为"两个总体均值之间的差不等于0":
6.1.1零假设和备择假设
因此,当零假设所提问题的答案被否定时,备择假设的答案就是肯定的。
如果两个均值不相等,则它们必有差别。如果样本数据能证明对于零假设提出的问题应该否定,那么我们就拒绝零假设而倾向于备择假设,并称该检验显著(significant),因此假设检验也称为显著性假设检验(significant hypothesis testing)。
6.1.2 回答问题时的两类错误
零假设和备选假设哪一个正确,是确定性的,没有概率可言。而可能犯错误的是人。
涉及假设检验的犯错误的概率就是犯第一类错误的概率和犯第二类错误的概率。
负责任的态度是无论做出什么决策,都应该给出该决策可能犯错误的概率。
6.1.2 回答问题时的两类错误
如果在假设检验过程中,我们拒绝了一个正确的零假设,则犯了第一类错误(type I error)。犯第一类错误的概率记为α。当零假设错误时,接受零假设就是第二类错误(type II error),犯第二类错误的概率通常记为β。
接受H0 拒绝H0
H0为真 正确决策 第一类错误
H0为假 第二类错误 正确决策
6.2怎样回答零假设所提出的问题
如果深圳和上海的总体均值是相等的,我们能否期望得到214那么大的样本均值差?
换句话说,因为零假设说总体均值差异是0,如果零假设是正确的,样本均值的差异也应该接近于0。
如果样本真的来自均值相等的两个总体,那样本均值差异达到214的可能性有多大?
如果总体均值的差为零,那么样本均值差为214是否属于样本均值差中的一个不寻常的集合,换句话说就是在总体均值差异是零的情况下,样本均值差大于等于214的概率有多大?
6.2怎样回答零假设所提出的问题
因此,我们确定样本数据是否和零假设不一致的办法就是希望知道在零假设正确的情况下,是否能期望得到现在所得的这组数。
6.2.1假设检验中的p值
为了确定像214这么大的差异是否属于一类不常见的数据集合,我们计算当总体差别为零时,得到一个大于等于214的样本均值差的概率。这个概率称为p-值(p-value)。
p-值度量从样本数据得到的信息对零假设的支持程度。因此,p-值越小,就越有理由说明样本数据不支持原假设。如果p-值小于显著性水平 ,那么能够拒绝原假设,否则就不能拒绝。因此p-值常常被称为该检验的观测显著性水平(observed level of significance)。
6.2.1假设检验中的p值
在统计软件的输出中,通常只输出p-值,而由用户去决定p-值是多少时拒绝原假设。
需要注意的是,p-值是由数据决定的,显著性水平 a是由用户决定的,而不是由计算机给出的。比如确定a =0.05,而假定所得到的p-值等于0.001。这时如果采用p-值作为新的显著性水平,即新的a =0.001,于是就可以说,在显著性水平为0.001时拒绝原假设。这样,拒绝原假设时犯错误的概率实际只是千分之一,而不是原来的 所表明的百分之五。
根据数据产生的p-值来减少 的值以展示结果的精确性总是没有害处的。这好比一个身高180厘米的男生,可能愿意被认为高于或等于180厘米,而不愿意说他高于或等于155厘米,虽然这第二种说法数学上没有丝毫错误。
在统计软件输出p值的位置,有的用“p-value”,有的用significance的缩写“Sig”来标明,也有用概率等符号来表示的。
6.2.2假设检验的过程
归纳起来,假设检验的逻辑步骤为:
1. 写出零假设和备选假设;
2. 确定检验统计量;
3. 确定显著性水平a ;
4. 根据数据计算检验统计量的实现值;
5. 根据这个实现值计算p-值;
6. 进行判断:如果p-值小于或等于a ,就拒绝零假设,这时犯(第一类)错误的概率最多为a ;如果p-值大于a ,就不拒绝零假设,因为证据不足。
第1步 第2步 第3 步 第4步 第5步
提出零假设、备择假设
选择一个置信水平
建立检验统计量
构造决策规则
选取样本,做出结论
不能拒绝H0
拒绝H0,接受H1
6.2.2假设检验的过程
6.2.3 拒绝或不拒绝零假设
基于两个总体均值相等的假设,得到样本均值差大于等于214的概率是0.0025或0.25%。因此,观测到的214属于非常不可能的均值差的集合,这是一个非常小的发生概率。
对此情况有两种解释:一种是零假设是正确的,观测到的数据恰好是不常发生的那一类,另一种是数据倒是常见的那一类,只是零假设是错的。(这和第四章中研究概率时的讨论是类似的,那也是有关假设检验的讨论。)
因为当总体均值相等时样本均值有这么大的差的概率是0.0025,所以我们选择第二种可能性,即认为导致这个小概率出现的假设一一两总体均均值相等是错的。
我们拒绝了两总体均值相等的零假设,而认为两个总体均值差异不是零。这样我们就有可能以样本数据为基础得到了总体参数与某个特殊值之间关系的结论,也因此了解了总体的概貌。
6.2.4谨慎对待统计检验的结果
前面的例子已经拒绝了零假设。在没有进一步的证据时,不能进一步去断言城市之间的文化差异是导致大学毕生薪水差别的原因。这是一个比统计显著更强的命题,而我们又没有足够的证据来支持这一结论。也许对于其它诸如经济发展,教育水平等因素的了解可以帮助我们进一步解释深圳与上海在观测中的不同。
如果样本数据没能拒绝零假设,仅仅说明证据不足,无法否定零假设,但这不能说明零假设正确。要想证明零假设正确,则必须知道总体参数。也就是说,我们需要对总体的每个单元进行检验、调查或计数,这通常是不大可行的。代替方法是从总体中抽取一个样本。
6.2.4谨慎对待统计检验的结果
有时统计显著性与实际显著性是有区别的,一个统计显著的结果在实际中不一定真是一个显著结果。
假设我们研制了一种新型的减肥药,并对10000人进行了试验。我们得到结论,一般人服用两年后减重1千克。你认为人们会对这种减重1千克的减肥药感兴趣吗?
该新型减肥药的效果具有统计显著性,但是没有实际显著性。一个结果在实际中显著与否只有在研究清楚了来龙去脉后才能下结论。
6.3显著性水平
到底p-值是多小时才能够拒绝零假设呢?也就是说,需要有什么是小概率的标准。
这要看具体应用的需要。但在一般的统计书和软件中,使用最多的标准是在零假设下(或零假设正确时)根据样本所得的数据来拒绝零假设的概率应小于0.05,当然也可能是0.01,0.005,0.001等等。
这种事先规定的概率称为显著性水平(significant level),用字母a来表示。
6.3显著性水平
通常认为显著性水平0.05是一个合理的风险。
显著性水平0.05的意思是:在零假设正确的情况下进行100次抽样,会有5次错误地拒绝了零假设。
6.3显著性水平
图6.2显示了显著性水平在大学毕业生薪水调查的那个问题中是如何被应用的。
6.3显著性水平
图6.3中用图示说明了双边和单边假设检验。图中分别显示了何时具有双边备择假设的零假设被拒绝;何时具有单边备择假设的零假设被拒绝。这两种情况的显著性水平都等于0.05。
6.3显著性水平
a并不一定越小越好,因为这很可能导致不容易拒绝零假设,使得犯第二类错误的概率增大。
当p-值小于或等于a时,就拒绝零假设。所以,a是所允许的犯第一类错误概率的最大值。当p-值小于或等于a时,就说这个检验是显著的。
无论统计学家用多大的a作为显著性水平都不能脱离实际问题的背景。统计显著不一定等价于实际显著。反过来也一样。
6.3显著性水平
实际上,多数计算机软件仅仅给出p-值,而不给出a。这有很多方便之处。
比如a=0.05,而假定所得到的p-值等于0.001。这时如果采用p-值作为新的显著性水平,即新的a=0.001,于是就可以说,在显著性水平为0.001时,拒绝零假设。
这样,拒绝零假设时犯错误的概率实际只是千分之一而不是旧的a所表明的百分之五。在这个意义上,p-值又称为观测的显著性水平(observed significant level)。
6.3显著性水平
关于“临界值”的注:作为概率的显著性水平a实际上相应于一个检验统计量取值范围的一个临界值(critical value),它定义为,统计量取该值或更极端的值的概率等于a。也就是说,“统计量的实现值比临界值更极端”等价于“p-值小于a”。使用临界值的概念进行的检验不计算p-值。只比较统计量的取值和临界值的大小。
6.3显著性水平
使用临界值而不是p-值来判断拒绝与否是前计算机时代的产物。当时计算p-值不易,只采用临界值的概念。但从给定的a求临界值同样也不容易,好在习惯上仅仅在教科书中列出相应于特定分布的几个有限的a临界值(比如a=0.05,a=0.025,a=0.01,a=0.005,a=0.001等等),或者根据分布表反过来查临界值(很不方便也很粗糙)。
现在计算机软件大都不给出a和临界值,但都给出p-值和统计量的实现值,让用户自己决定显著性水平是多少。
6.4 正态总体均值的假设检验
6.4.1单个总体均值的假设检验
如果知道总体标准差,此时采用z得分作为检验统计量进行检验。
我们看下面的例子。
6.4.1单个总体均值的假设检验
例6.1某工厂生产的衣柜的周产量(这里假设一年有50周)服从正态分布,其均值是200、标准差为16。近期受市场扩张的影响,公司引进了新的制造工艺,现在想了解衣柜的周产量是否发生了变化。换句话说,在显著性水平为0.01时,该工厂生产的衣柜的平均数量与200是否有存在显著差异?
本例中的假设检验问题为
这是一个双边检验。此处标准差已知,所以检验统计量是z得分或z统计量。
将数据标准化,不仅适用于本例,也适用于其他假设检验。
6.4.1单个总体均值的假设检验
要确定检验的决策准则,首先确定z的临界值。
因为显著性水平为0.01,而本例是双边检验,所以各尾部都是0.01的一半,即0.005。两个尾部所夹的中间部分不能拒绝 ,概率为0.99,于是得到临界值为2.58。
因此,决策准则是:当根据样本计算出的z值不在-2.58与2.58之间时拒绝零假设,同时接受备择假设(认为总体均值不是200张);当z值处于-2.58与2.58之间时不能拒绝零假设。
这里是双边检验,我们把显著性水平一分为二,一半放在下尾,另一半在上尾。在Excel中使用=NORMINV(0.995,0,1)求得临界值。
6.4.1单个总体均值的假设检验
现在从周产量的总体中取出一个样本,假设知道去年衣柜的平均产量是203.5,总体标准差是每周16张,计算z值:
因为1.55没有落入拒绝域,不能拒绝 。我们认为总体均值与200张没有显著差异。
因此,样本信息并未显示出该工厂的生产率发生了变化,周生产率之差3.5可归结于随机因素。
6.4.1单个总体均值的假设检验
下图6.4总结了上述信息。
6.4.1单个总体均值的假设检验
例6.1继续。假如该工厂想知道的是平均产量是否增加了。换句话说,由于生产工艺的改进,我们是否可以认为去年的每周平均组装数量大于200张?前面我们想了解平均组装量是否存在差异,我们现在却想知道它是否增加了。由于关心的问题不同,因此我们提出的假设也就发生了变化。
在相同显著性水平下,单边检验的临界值与双边检验是不同的。前面的例子中,我们把显著性水平一分为二,一半放在下尾,另一半在上尾。在单边检验中,拒绝域仅出现在一个尾部。对该单边检验,临界值等于2.33。
在Excel中使用=NORMINV(0.99,0,1)求得临界值。
6.4.1单个总体均值的假设检验
检验过程如图6.5所示。
6.4.1单个总体均值的假设检验
对大多数情况,我们并不知道总体标准差 是多少,必须通过以前的研究结果或样本标准差 来估计 。此时t变量可以作为代替原始得分的标准得分,对均值的有关假设进行检验。实际上,使用t变量对均值进行假设检验的前提是总体方差未知。
我们来看一个例子。
6.4.1单个总体均值的假设检验
例6.2 某保险公司理赔部称处理每个理赔的平均费用为60元。在与同业比较时发现,该费用高于其他保险公司的水平。因此,该公司采取了成本削减措施。为评估措施的效果,随机选择了26宗理赔个案,得到平均费用为57元,标准差是10元。是否可以说费用削减措施已经奏效?或者认为样本均值(57元)与总体均值(60元)的差异是由随机因素造成?显著性水平为0.01。
在本例中,零假设和备择假设是:
我们想确定费用是否降低,所以检验是单边的。备择假设中的不等号指向拒绝域所在分布的左边。
6.4.1单个总体均值的假设检验
检验统计量服从t分布。
为什么呢?首先,有理由认为每项理赔的费用分布服从正态分布。
但是,我们并不知道总体标准差是多少,所以,我们必须用样本标准差代替总体标准差。
对于大样本的情况(通常认为样本量至少为30才算大样本),我们在做此替换后仍可使用标准正态分布。
而本例的样本观测数不足30,所以不能采用标准正态分布,应使用t分布。
6.4.1单个总体均值的假设检验
利用 计算检验统计量的值。
对于显著性水平0.01,t统计量的自由度为25,可得临界值为-2.485。因此,决策规则是若t值小于-2.485,则拒绝H0 。
在本例中, =57元, =60元, =10元,n=26,t统计量的值为:
因为-1.530落在不能拒绝零假设的区域,位于临界值-2.485的右侧区域,所以在0.01显著性水平下不能拒绝零假设, 与 之间的差异不具有统计显著性。这说明该费用削减措施没能将每项理赔的平均费用降至60元以下,样本均值和总体均值之差的3元归结为随机因素。
6.4.1单个总体均值的假设检验
6.4.1单个总体均值的假设检验
还有这样一种情况,虽然我们并不知道总体标准差是多少,但是样本量非常大,虽然此时可以采用t统计量进行检验,但由中心极限定理可知此时的检验统计量也服从正态分布。一般来说,只要样本量n大于30,此时可以使用z得分作为检验统计量。
我们来看一个例子。
6.4.1单个总体均值的假设检验
例6.3 某加盟连锁店的主管想知道每家连锁店的日平均销售额是否大于400元,显著性水平为0.05。随机察看了172家连锁店,结果平均销售额是407元,标准差为38元。是否可下结论认为总体均值超过400元,或是二者之差7元(407-400=7)归结于随机因素?
这里假设检验的问题是
因为备择假设指明了方向(右边),因此采用单边检验,并且拒绝域在右边,显著性水平0.05的临界值为1.645。
6.4.1单个总体均值的假设检验
计算z统计量值为
因为计算的检验统计量值2.318大于临界值(1.645),所以拒绝零假设。
6.4.1单个总体均值的假设检验
决策规则用下图表示:
(数据:20products.sav,20products(independent).sav)两个企业生产同样的产品,某日从两个企业分别随机抽取20名工人进行观察,不久企业2进行了创新改革,随后对其又进行了一次调查(企业2同一序号的产量是同一个工人在改革前后的产量,单位:件)。
我们假定两个记录均来自独立正态分布总体。由于两个样本的均值分别为 和 ,可以实施下面的检验:
序号 企业1 企业2 企业2 (改革后) 序号 企业1 企业2 企业2
(改革后)
1 34 15 14 11 25 15 15
2 14 31 34 12 9 6 9
3 35 26 23 13 33 27 35
4 11 5 9 14 24 15 20
5 30 19 24 15 14 29 36
6 19 33 29 16 11 12 17
7 21 24 28 17 21 28 25
8 13 9 15 18 31 22 21
9 36 12 20 19 18 10 14
10 17 19 24 20 19 23 31
6.4.2总体均值差的假设检验:独立样本
在进行两个正态总体均值差的假设检验时,先要进行方差是否相等的假设检验。方差相等的检验统计量应该服从自由度为(m-1)和(n-1)的F分布,原假设为“两个总体方差相等”。
特别要注意的是,我们在用SPSS软件分析前要定义一个变量G(取值为1和2)来区分不同行业。在SPSS中输入原始数据,在变量G中,企业1输入1,企业2输入2。然后我们(通过软件)按照下面的步骤进行检验。
在SPSS中打开20products(independent).sav,选择Analyze->Compare Means->Independent Sample T Test, 把“产量”放入Test Variable(s), 把G放入Grouping Variable, 再在Define Variable中,于G1和G2分别打入1、2, Continue后,再选OK即可。
6.4.2总体均值差的假设检验:独立样本
表的头两列是检验是否方差相等,如果Sig下面的p-值较大(比如大于0.05),则没有证据认为这两个数据总体的方差不等,则看表的第一行结果;否则认为方差不等,则看表的第二行结果。
这里Sig(p-值)等于0.885较大,因此看第一行结果。而此时统计量t=1.005,p-值为0.443(双边检验的p-值除以2)。
因此,我们无法拒绝零假设,即不能得出企业1和企业2的产量有本质差异。
事实上,在第五章,我们得到企业1和企业2的产量均值差的95%置信区间为(-2.788,8.288)已经包括了0,也表明两个企业产量没有本质差异。
6.4.2总体均值差的假设检验:独立样本
方差方程的 Levene 检验 均值方程的 t 检验
F Sig. t df Sig. 均值 标准 差分的95%置信区间
(双侧) 差值 误差值 下限 上限
假设方差相等 .021 .885 1.005 38 .321 2.750 2.736 -2.788 8.288
假设方差不相等 1.005 37.960 .321 2.750 2.736 -2.788 8.288
为了实现对 的分析,首先进入存有样本数据的电子数据表文件。数据文件应含有一个定量型变量(存储计算所得的均值)和一个定性变量可以是两数值代码值(如1和2)或是两简短分类水平(如“是”和“不是”)。这些变量的两个值代表将要进行比较的两个组别或总体。接下来,点击SPSS菜单栏中“Analyze”项,然后选择“Compare Means”和“Independent-Sample T Test”,在弹出的对话框中将目标定量变量选入列表“Test Variable(s)”,并将定性变量(分组变量)选入“Grouping Variable”框中。点击“Define Groups”,在弹出的对话框中指定两组的值。接着点“Continue”返回“Independent-Sample T Test”,对话框屏幕。不需要进一步选择菜单项,SPSS将自动地执行一个双侧原假设为 的检验。如果你想要生成 的一个置信区间,点“Option”键在弹出对话框中指定置信水平,点“Continue”返回“T Test”对话框,然后点“OK”就可以产生SPSS输出结果。
重要提示:SPSS两样本均值比较检验是利用t统计量进行假设检验。当样本量很小时,这种方法是合适的。当样本量很大时,t值将近似等于大样本下的z-值并且样本检验结果将依然有效。
6.4.2两个总体均值差的假设检验
根据配对样本对两总体均值是否有显著差异进行推断。
例如:某种减肥茶是否有效
两样本数据必须两两配对,即:样本个数相同,个案顺序相同.如:减肥茶的效果、不同广告形式对销售额的影响.(控制了个案自身的影响)。
两总体服从正态分布
6.4.2总体均值差的假设检验:配对样本
我们可以把两个样本中配对的观测值逐个相减,形成一个由独立观测值组成的样本;然后用单样本检验方法,看其均值是否为零。
在相减之后公式和单样本均值检验无异。当然,如果直接选用软件中配对样本均值的检验,就不用事先逐个相减了。这里也有单尾和双尾检验。
6.4.2总体均值差的假设检验:配对样本
(数据:20products.sav)两个企业生产同样的产品,某日从两个企业分别随机抽取20名工人进行观察,不久企业2进行了创新改革,随后对其又进行了一次调查(企业2同一序号的产量是同一个工人在改革前后的产量,单位:件)。
现在我们对企业2改革前后产量差异的均值 进行检验,检验问题是
序号 企业1 企业2 企业2 (改革后) 序号 企业1 企业2 企业2
(改革后)
1 34 15 14 11 25 15 15
2 14 31 34 12 9 6 9
3 35 26 23 13 33 27 35
4 11 5 9 14 24 15 20
5 30 19 24 15 14 29 36
6 19 33 29 16 11 12 17
7 21 24 28 17 21 28 25
8 13 9 15 18 31 22 21
9 36 12 20 19 18 10 14
10 17 19 24 20 19 23 31
完全类似于单样本的检验
6.4.2总体均值差的假设检验:配对样本
我们(通过软件)按照下面的步骤进行检验。
在SPSS中打开数据20products.sav,选择Analyze->Compare Means->Paried Samples T Test,把“企业2”和“企业2(改革后)”放入Paried Variables,再选OK即可。
设置配对变量
拒绝t检验的H0 ,认为企业2改革前后平均日产量有显著差异,改革后的日产量更高
6.4.2总体均值差的假设检验:配对样本
配对样本的均值检验
为了实现对于匹配对的 进行分析,首先进入存有样本数据的电子数据表文件。数据文件应包括两定量类型变量-其中一个是第一组(或总体)的数据值,另一个是第二组(或总体)的数据值。(注意:两组样本量应相等。)下一步,点击SPSS菜单栏中“Analyze”项,然后选择“Compare Means”和“Paired-Samples T Test”,在弹出的对话框中将两个目标定量型变量选入 “Paired Variable”框中,不需要进一步选择菜单项,SPSS将自动地执行一个双侧原假设为 的检验,如果你想要生成 的一个置信区间,点“Options”项在弹出菜单屏中指定置信水平,点“Continue”返回“Paired-Samples”对话框,然后点“OK”就可以产生SPSS输出结果。
6.4.2总体均值差的假设检验:配对样本
例6.6 某企业在进行一项关于职工流动原因的研究。研究者从该企业前职工的总体中随机抽选了200人组成一个样本。在对他们进行访问时,有140人说他们离开企业是由于同他们的管理人员不能融洽相处。假设历史经验告诉我们,由于不能同管理人员融洽相处这种原因而离开企业的人员的真正比例为0.75。
我们希望了解该企业的职工由于不能同管理人员融洽相处这种原因而离开企业的人员的比例低于0.75。
6.5 总体比例的假设检验
如果n为样本数,x为其中因为不能与管理人员融洽相处而离开的人数,那么样本比例为
检验统计量则是在零假设下当大样本时近似有标准正态分布的统计量
p-值为 。在Excel中通过“=NORMDIST(-1.633,0,1,1)”计算。
6.5.1单个总体比例的假设检验
前面第五章提起过,即使被访者的百分比一样,但样本少的信息就少。对于假设检验也是一样。样本量对于假设检验的结果就十分重要。
下面看看不同的样本量会得到什么结果(假定x/n=0.7不变)
6.5.1单个总体比例的假设检验
如样本量为n=200(和数据给的一样),那么,上面的检验得到的p-值为0.05123。因此,不能拒绝75%的零假设(如果选显著性水平为0.05的话)。
如样本量为n=1000,那么,上面的检验得到的p-值为0.00013。因此,有足够的理由拒绝75%的零假设(如果选显著性水平为0.05的话)。
6.5.1单个总体比例的假设检验
前面对总体比例的检验所用的公式利用了二项分布的大样本正态近似;怎样才是大样本呢?这和第五章求比例的置信区间时大样本的近似标准类似,即当区间
完全包含在(0,1)区间内部时,可以认为样本足够大,能够用正态近似。
6.5.1单个总体比例的假设检验
对于两个样本,也有关于两个总体比例之差p1-p2的检验。即检验
6.5.2 总体比例差的假设检验
例6.7一个保险公司想要比较在两个城市所做的广告的效果,于是从两个城市分别随机地调查了1000个成年人,其中看过该广告的比例分别为 和 。我们希望以 的显著性水平检验两城市成年人中看过该广告的比例是否一致。
观测到的这两个样本比例的差异是0.26-0.21 = 0.05。这个差异是否已经大到可以拒绝零假设,即两个城市中成年人看过该广告的比例确实不一致?还是观测到的差异只是样本随机性引起的?
6.5.2 总体比例差的假设检验
假定n1=1000, n2=1000, 检验统计量则是在零假设下当大样本时有近似标准正态分布的统计量
得到p-值等于0.004。因此,在显著性水平0.05时,有足够证据可以拒绝“两个城市中成年人看过该广告的比例一致”的零假设。
6.5 总体比例的假设检验
6.6 假设检验和置信区间
假设检验与上一章讨论的置信区间有什么区别和联系呢?
从数学上来说,假设检验与置信区间是对偶的。一般地,如果置信区间不包含假设的特定值,则拒绝 。如果置信区间包含假设的取值,则不能拒绝 。所以,对假设检验而言,“非拒绝域”等同于假设的总体取值落入置信区间。
主要的差别在于区间是否像假设检验一样,以样本统计量 或0为中心。
6.6 假设检验和置信区间
对衣柜产量进行假设检验时,如果使用置信区间,我们利用 得到置信区间为(197.66,209.34)。注意到假设的总体均值200落入了该区间。因此,我们认为总体均值有理由等于200。
同时,对我们在6.5节中提到的总体中比例差的问题,置信区间的范围是(0.014,0.087),我们希望这个区间包含参数的真值。如果零假设中的相关的参数值在(0.014,0.087)之间,我们就不拒绝零假设,如该值在这个区间之外的某个地方,则拒绝零假设。
6.6 假设检验和置信区间
在许多方面,置信区间比假设检验提供的信息要多。置信区间给了我们一个参数值的可能范围,而假设检验只考虑到一个可能值。
例如在假设检验中如果总体参数不是100,我们就不清楚它是多少了。有时这一个值是非常重要或有意义的,像检验两均值之差是否等于零。可是即使当我们拒绝了零假设,并得到均值之差不为零的结论之后,紧接着的一个问题就是该差异是多大。这个问题可以由置信区间来回答的。
尽管人们可能更希望得到置信区间,假设检验还是被广泛地应用于大多数领域中。主要原因就是统计软件很多时候并不自动计算置信区间。

展开更多......

收起↑

资源预览