第八章 假设检验_5 课件(共50张PPT)- 《概率论与数理统计》同步教学(大连理工出版社)

资源下载
  1. 二一教育资源

第八章 假设检验_5 课件(共50张PPT)- 《概率论与数理统计》同步教学(大连理工出版社)

资源简介

(共50张PPT)
第一节 假设检验问题
第二节 正态总体均值的假设检验
第三节 正态总体方差的检验
第四节 大样本检验法
第五节 p值检验法
第六节 假设检验的两类错误
第七节 非参数假设检验
第八章 假设检验
*第七节 非参数假设检验
前面我们讨论了参数假设检验问题,所检验的对象是总体分布中的未知参数,而总体分布函数的函数形式是已知的.
若总体分布未知,对总体分布或有关参数所作的检验称为非参数假设检验.
本节将讨论几种重要的非参数检验问题.
一、分布拟合检验
问题
对某对象(产品、元件,农作物等)的某特性指标进行测试,获得一大批实验数据,如何利用这些数据(样本)确定此指标(总体)的概率分布.
要解决此问题,一般需要做以下两方面的工作:
用极大似然估计法求出 的估计值
第一步
拟合总体分布形式
如果事先没有任何关于总体分布的经验或依据,对连续型总体,一般先把抽样所获得的数据进行整理,然后作出样本分组频数分布直方图.
由此确定总体分布函数形式
其中
是未知参数
从而猜测总体的分布函数为
第二步 拟合好坏的检验
设总体的真实分布为F(x),给定显著水平及样本观测值x1,x2,…,xn,检验假设
1.样本频率分布直方图
第六章已经介绍了直方图及其作法,为下面讨论方便起见,对此再作一些介绍.
设总体X为连续型随机变量,下面利用样本数值来拟合总体分布密度函数 f(x).
根据样本值的情况,将其分为l组,各组范围为
其中

mi=落在[ai-1,ai)内的样本数,则事件Ai发生的频率为
Ai发生的概率为
作表
此表称为样本分组频数分布表
在每个区间[ai-1,ai)上,以此区间为底,以
为高作一矩形(i=1,2, …,l),这样的图形称为样本组频率分布直力图,见图8-2
因而每个小区间上的小矩形的面积接近于概率密度曲线之下该区间之上的曲边梯形的面积.
一般来说,n越大且分组越细,则直方图的外廓曲线越接近于总体的概率密度曲线.
对离散型总体,虽然不能画样本分组频率直方图,但仍可给出样本分组频数分布表.
第i个小区上矩形的面积为 ,由大数定律可知,当n很大时,频率接近于概率
2.拟合优度检验
要检验假设H0,必须利用样本建立用以衡量F(x)与F0(x)差异的统计量
这种统计量有多种选择,下面介绍皮尔逊(Person)
检验法
在H0为真的前提下,事件Ai的概率为
npi称为事件Ai的理论频数,作表
此表称为分组理论频数分布表
它与样本分组频数分布表的差异反映了F(x)与F0(x)的差异
用统计量
来衡量
皮尔逊证明了以下定理
显然,H0的拒绝域形式为
(k待定)
若n很大( ),则当H0成立时,
定理
于是得到H0的拒绝域为
皮尔逊 检验法是基于上述定理得到的
在使用时必须注意n要足够大,以及每个
否则应适当合并组,以满足这一要求。
例1 自1965年1月1日至1971年2月9日共2231天中,全世界记录到震级4级及以上的地震共计162次,统计如下:
试检验相继两次地震间隔的天数服从指数分布。( )
8
6
6
8
10
17
26
31
50
出现的频数
震间隔天地
≥40
35~39
30~34
25~29
20~24
15~19
10~14
5~9
0~4
相继两次地
由于总体为连续型,我们将X的可能取值的区间
分为9个互不重叠的小区间

按题意需检验假设
由于 未知,先用极大似然估计求得 的估计为

若H0真,则
计算结果列于表8-2
有些组的
应适当合并组,使每组均有
如第四列花括号所示.并组后的组数l=8.
0.5633
0.0461
0.7808
0.0568
8
A9:39.5≤x<
0.248
6
A8:34.5≤x<39.5
0.0069
0.2004
5.7996
0.0358
6
A7:29.5≤x<34.5
0.0126
-0.3268
8.3268
0.0514
8
A6:24.5≤x<29.5
0.3248
-1.9718
11.9718
0.0739
10
A5:19.5≤x<24.5
0.0024
-0.2044
17.2044
0.1062
17
A4:14.5≤x<19.5
0.0644
1.2626
24.7374
0.1527
26
A3:9.5≤x<14.5
0.5884
-4.5752
35.5752
0.2196
31
A2:4.5≤x<9.5
0.5175
4.8344
45.1656
0.2788
50
A1:0≤x<4.5
(mi-npi)2/npi
mi-npi
npi
pi
mi
Ai
表8-2 例1的 检验计算表
H0的拒绝域为
其中
由于
故在水平
下接受H0,认为总体服从指数分布.
号码 0 1 2 3 4 5 6 7 8 9
出现的频数 74 92 83 79 80 73 77 75 76 91
例2 一台摇奖机是一个圆球形形容器,内有10个质地均匀的小球,分别标有0,1,2,…,9的数码。转动容量让小球随机分布,然后从中掉出一球,其号码为X。如果摇奖机合格,则X的分布律应为
现用这台摇奖机做了800次试验,得到如下数据:
试用这些数据检验该摇奖机是否合格?( )
解 由题意要检验假设
将已知数据按号码分为10组,分组为

当H0为真时
计算列于表8-3中
表8-3 例2的 检验计算表
4.125
0.5125
11
80
0.1
71
A9
0.2
-4
80
0.1
76
A8
0.3125
-5
80
0.1
75
A7
0.1125
-3
80
0.1
77
A6
0.6125
-7
80
0.1
73
A5
0
0
80
0.1
80
A4
0.0125
-1
80
0.1
79
A3
0.1125
3
80
0.1
83
A2
1.8
12
80
0.1
92
A1
0.45
-6
80
0.1
74
A0
mi-npi
npi
pi
mi
Ai
H0的拒绝域
其中
由于
故接受H0,即认为摇奖机是合格的.
3.偏度、峰度检验
上面介绍的 检验法虽然是检验总体分布的较一般方法,但用它来检验总体的正态性时,犯第Ⅱ类错误的概率往往较大.
由于正态分布广泛地存在于客体世界,因此,当研究一个连续型总体时,人们往往先考察它是否服从正态分布.
为此,统计学家们对检验正态总体的种种方法进行了比较,认为其中以“偏度、峰度检验法”及“夏皮罗-威尔克法”较为有效.
在这里我们仅介绍偏度、峰度检验法.这种检验法的理论依据是正态分布曲线是对称的,且陡缓适当.为此,引入两个量,一个表示曲线的偏斜度,另一个表示密度曲线的陡缓度.
设随机变量X的k阶中心矩为
分别称
为X的偏度和峰度
从总体X中取一样本,记Bk为样本的k阶中心矩
则 , 的矩法估计量分别为
并分别称g1,g2为样本偏度和样本峰度
若总体X服从正态分布,则
且当样本容量n充分大时,近似地有
而g2与 的偏离不应太大
因此,当n充分大时,g1与
的偏离不应太大
故假设 H0:X服从正态分布的拒绝域形式应为

其中k1,k2由以下两式确定
当n充分大时
由此得到了H0的显著水平为 的拒绝域.
二、两总体相等性检验
设两总体X,Y的分布函数分别为F1(x)与F2(x),如何检验F1(x)与F2(x)是否相同呢?
在总体分布类型已知时,此问题可以归纳为两总体参数(如数字特征等)是否相等这种参数假设检验问题.
在总体分布类型完全未知时,我们只能采用非参数检验法.
下面介绍两种简单且实用的非参数检验法:符号检验法与秩和检验法.
1.符号检验法
从总体X,Y中分别取容量均为N的样本
X1,X2,…,XN和Y1,Y2,…,YN
检验假设
H0:F1(x)=F2(y) H1:F1(x)≠F2(y)
将数据配对排好,列成表。
当xi>yi时,取“+”号;
当xi当xi=yi时,取“0”,
并用n+和n-分别表示“+”号与“-”号的个数。
若H0成立,两总体分布相同,n+与n-应相差不大.
由于试验误差,它们会有一定的差异但差异不宜过大,
如若过大,就认为不仅仅有实验误差,而认为F1(x)与F2(x)有差异.
记n=n++n-,选统计量
对于n和给定的
,查符号检验表(见附表6)
可得相应的

时,则拒绝H0
认为两总体分布有显著差异
例3 研究车间播放音乐对工人生产效率的影响.该车间有10名工人,播放音乐前与播放音乐后各30天平均日产量(件)如表8-4所示,由此能否说明音乐有助于提高生产率?
表8-4 播放音乐前后平均日产量 (件)
不放音乐x 90 80 92 84 88 87 82 85 70 79
播放音乐y 99 85 97 83 81 94 72 85 82 89
符 号 — — — + + — + 0 — —

要检验播放音乐对工人生产效率有无影响,就是检验假设
由上表可知
n+=3 n-=6 n=9 s=3
查附表6,得
s0.05(9)=1
由于 s > s0.05(9) 故接受H0
即认为播放音乐对生产率没有显著影响
2.秩和检验
从两总体X,Y中分别取容量为n1,n2的样本
检验假设
将两总体的n1+n2个观测值放在一起,按从小到大的顺序排列.
若H0成立,则总体X,Y同分布,两总体的观测值应较均匀地分布在此排列中.
若分布不均匀,则认为H0不成立.
如何构造统计量来描述这种均匀性呢?
每个观测值在此排列中的序号称为这个观测值的秩
若有几个观测值相同,则每个观测值的秩取为这几个数的序号的平均值.
求出每个观测值的秩.
将属于总体X的样本观测值的秩相加,其和记为R1,称为总体X的样本秩和.
同理,将其余观测值的秩相加得总体Y的样本秩和R2.
显然,R1,R2为离散型随机变量,且有

取T=R1为统计量
若H0成立,秩和R1一般来说不应取太靠近上述不等式两端的值.
因而,当R1的观测值过大或过小时,我们就拒绝H0
拒绝域为
其中T1,T2可由附表7查得

Ⅰ 2.36 3.14 7.52 3.48 2.76 5.43 6.54 7.41
Ⅱ 4.38 4.25 6.54 3.28 7.21 6.54
试问两总体是否同分布?( )
例4 设由实验获得Ⅰ,Ⅱ两组样本值,列表如下:
解 采用秩和检验法检验假设
其中F1(x),F2(y)分别为总体Ⅰ,Ⅱ的分布函数
将两组样本观测值混在一起,从小到大排序,并计算相应的秩,列表如下:
编号 1 2 3 4 5 6 7 8 9 10 11 12 13 14
Ⅰ 2.36 2.76 3.14 3.48 5.43 6.54 7.41 7.52
Ⅱ 3.28 4.25 4.38 6.54 6.54 7.21
秩 1 2 3 4 5 6 7 8 9 10 11 12 13 14
其中观测值6.54出现3次,序号分别为9,10,11
因而其秩应为
统计量
查秩和检验表(附表7),得

T1=32 T2=58
由于 ,故接受H0 .
即认为两组样本对应的总体同分布.
注意:秩和检验表只列到 的情形
当其大于10时,统计量
于是可用U检验法求拒绝域.
三、独立性检验
在研究随机量的概率性质时,我们常假设两个随机变量独立;在对两个正态总体的参数作有关假设检验时,我们也常假定它们独立.
独立性有时容易从直观上判断,但有时很难从直观上判断.如地下水位的变化是否与地震的发生独立,某种疾病是否与性别有关等,需要根据实际观测结果来检验独立性是否成立.
这种假设是否合理呢?
设有两个总体X,Y,给定显著水平
检验非参数假设
H0:X,Y相互独立
将X的所有可能取值分为r个不同组
A1,A2,…,Ar
将Y的所有可能取值分为s个不同组
B1,B2,…,Bs
对(X,Y)进行n次独立观测
分别记录事件( )出现的频数
将所得结果列成 格联列表(表8-5)
表中 分别为 的估计值

Y
mij
X B1 B2 … Bs
A1 m11 m12 … m1s
A2 … m2s
.
.
. .
.
. .
.
. … .
.
. .
.
. .
.
.
Ar mrs mrs … mrs
… n
… 1
表8-5 联列表
事件 的理论频数为
若H0成立,则
取统计量
当H0成立且n很大时,
由此可得H0的拒绝域为
例5 观察168例伤寒患者的情况,按照其患病的轻重程度和年龄记录为表8-6 所示数据资料.问这些资料能否说明伤寒患者的轻重程度与年龄有关.(取 )
表8-6 伤寒患者病情记录
病情Y
例数mij
年龄X 1 2 3
轻微 中等 严重
10岁以下 0 5 2 7
11~15 1 5 7 13
16~20 6 23 20 49
21~25 3 19 13 35
26~30 7 23 9 39
31~35 1 12 6 19
36岁以上 0 4 2 6
10 91 59 168
解 以X表示患者的年龄,以Y表示患者患病的程度
根据患者病情的轻,中,重,Y相应取值为1,2,3
需要检验假设
H0:两总体X,Y相互独立,拒绝域为
由所给数据计算,得
由于
即根据已有资料数据不能说明病情与年龄有关
故接受H0
习题8-7
1.卢瑟福在2608个相等时间间隔(每 分钟)内,观察放射性物质放射的粒子数,得下表数据:
用 检验法检验该放射性物质放射粒子是否服从泊松分布?( )
粒子数 0 1 2 3 4 5 6 7 8 9 ≥10
时间段数目 57 203 383 525 532 408 273 139 45 27 16
2.对某汽车零件制造厂所生产的汽缸螺栓直径进行抽样检验,测得100个数据,分组统计如下:
试检验螺栓直径是否服从正态分布?
分组 10.93 10.95 10.97 10.99 11.01 11.03 11.05 11.07
~ ~ ~ ~ ~ ~ ~ ~
10.95 10.97 10.99 11.01 11.03 11.05 11.07 11.09
频数 5 8 20 34 17 6 6 4
3.甲、乙两个车间生产同一种产品,要比较这种产品的某项指标波动的情况.从这两车间取得连续15天反映波动大小的数据如下:
在显著水平0.05下用符号检验法检验假设“这两个车间所生产的产品的该项指标的波动分布相同”.
甲 1.13 1.26 1.16 1.44 0.86 1.39 1.21 1.22 1.20
乙 1.21 1.31 0.99 1.59 1.41 1.48 1.31 1.12 1.60
甲 0.62 1.18 1.34 1.57 1.30 1.13
乙 1.38 1.60 1.84 1.95 1.25 1.50
4.为比较动物在感染了两种伤寒杆菌A,B后存活的天数,对20只小白鼠中的9只接种了A,其余的接种了B,接种后存活天数如下:
由此能否断定感染这两种伤寒杆菌后动物存活天数无显著差异?(用秩和检验法, )
A 5 6 7 12 6 6
B 7 11 6 6 7 9 5 10 10 7 8
5.假设某工厂可能发生两种类型的事故 A(起火)和 B(爆炸),而工厂使用3种不同的原料 L,M,N.下面是事故情况的记录,试问事故类型与原料类型是否有关?( )
141
58
21
62
53
25
8
20
B
88
33
13
42
A
N
M
L
原料
事故次数
事故

展开更多......

收起↑

资源预览