第6章 抽样分布与参数估计 课件(共82张PPT)-《应用统计学》同步教学(电工版)

资源下载
  1. 二一教育资源

第6章 抽样分布与参数估计 课件(共82张PPT)-《应用统计学》同步教学(电工版)

资源简介

(共82张PPT)
第6章 抽样分布与参数估计
第6章
6.1 抽样理由和抽样方法
6.2 抽样误差
6.3 抽样分布
6.4 参数估计
6.5 样本容量的确定
抽样分布与参数估计
第6章
在本章中你将学到:
区分不同的抽样方法
抽样分布的概念
计算样本平均数和样本比例相关的概率
中心极限定理的重要性
理解点估计与置信区间估计
计算均值和比例的置信区间
根据所要得到的置信区间确定样本容量。
本章教学目的
抽样分布与参数估计
第6章
区分不同的抽样方法
理解抽样分布的概念
理解中心极限定理的重要性
计算均值和比例的置信区间
本章重点和难点
抽样分布与参数估计
第6章
6.1.1 抽样理由
6.1.2 抽样方法
6.1 抽样理由和抽样方法
第6章
选择样本比总体(人口普查)中的每一项要节省时间。
选择样本比总体中的每一项要节省费用。
分析样本要比分析整个总体容易且更加实际。
6.1.1 抽样理由
6.1 抽样理由和抽样方法
第6章
抽样过程从抽样框开始
抽样框是对组成总体的一系列条目的列举。
抽样框是类似总体清单,目录或者地图的数据源。
如果抽样框里没有包括总体的某些部分,不准确或者有偏的结果就可能产生。
使用不同的抽样框得到数据会得出不同的结论。
6.1 抽样理由和抽样方法
6.1.2抽样方法
第6章
样本
非概率样本
判断样本
概率样本
简单
随机样本
系统样本
群样本
便利样本
分层样本
样本类型
6.1 抽样理由和抽样方法
第6章
在非概率样本中,选中的条目不根据他们发生的概率。
在便利抽样中,条目的选择简单,便宜,且方便抽样。
在判断样本中,我们得到预先选好的专家就主题发表的意见。
样本类型:非概率样本
6.1 抽样理由和抽样方法
第6章
在概率样本中, 样本中条目的选择基于已知的概率。
概率样本
简单
随机样本
系统样本
分层样本
群样本
样本类型:概率样本
6.1 抽样理由和抽样方法
第6章
架构里的每一个条目都有同等的机会被选中。
n代表样本容量,N代表抽样框的大小,对抽样框中的每个条目进行编号为1到N。
抽样可以放回(选择了某一个条目之后再把它放回架构里,它再次被选中的概率仍然相同)或者不放回 (选择的某一个条目,不能放回架构中)。
简单随机样本适用于总体较小,且同质性比较高的情况。
样本通过随机数表或随机数产生器取得。
概率样本:简单随机样本
6.1 抽样理由和抽样方法
第6章
有850条目的总体抽样架构
条目名 条目号
Bev R. 001
Ulan X. 002
. .
. .
. .
. .
Joann P. 849
Paul F. 850
随机数表(部分)
49280 88924 35779 00283 81163 07275
11100 02340 12860 74697 96644 89439
09893 23997 20048 49420 88872 08401
简单随机样本前5个条目
Item # 492
Item # 808
Item # 892 -- 不存在所以忽略
Item # 435
Item # 779
Item # 002
使用随机数表选择简单随机样本
6.1 抽样理由和抽样方法
取决于样本容量: n
抽样框中N个个体分成含k个个体的组: k=N/n
从第一组随机选择一个个体
接下来,每数到第k个数都依次选取
简单易行,但可能带来周期性问题,导致抽样偏差
第6章
N = 40
n = 4
k = 10
第一组
6.1 抽样理由和抽样方法
概率样本:系统样本
第6章
根据一些常见的特征,把总体分成两个或两个以上的亚群体,即层(strata)。
在每个层中根据层容量相应选择简单随机样本。
分层选择的样本然后加以合并。
当抽样总体是选民时,根据种族或社会经济层次分层是常用的技术。
总体分成
4个层
6.1 抽样理由和抽样方法
概率样本:分层样本
第6章
某公司要从800名全职雇员中选取32名全职雇员作为样本,估计一项公司赞助的牙科保健计划方面的费用。在全职雇员中,25%是经理,75%是非经理。如何选择分层的样本使样本能代表经理雇员和非经理雇员正确的比例?假定回复率为80%。
总体800
经理200
非经理600
抽取40*25%=10
抽取40*75%=30
解:共需发送32/0.8=40份调查问卷。
例 选取分层样本
6.1 抽样理由和抽样方法
第6章
总体分为若干个 “聚类”或者“群”,每个聚类或群代表整个总体。
随机选择聚类样本或群样本
使用选中的聚类里的所有项目或者从聚类里面选取基于概率的样本。
聚类样本的通常应用是选举,其中选择特定选区并抽样。
总体分成16个聚类样本。
随机选择聚类样本抽样
概率样本: 聚类样本
6.1 抽样理由和抽样方法
第6章
简单随机样本和系统样本
使用简单
可能不能很好的代表总体的潜在特性
分层样本
确保代表的个体覆盖整个总体
聚类样本
成本效率更高
有效性较低(需要更大的样本以取得同等程度的精确性)
概率样本:比较抽样方法
6.1 抽样理由和抽样方法
第6章
样本统计量和对应的总体参数之间的差异,称之为抽样误差。
抽样误差的产生是由于抽样的非全面性和随机性所引起的,是偶然性误差。
非抽样误差
抽样框误差
系统性误差
测量误差
登记误差
6.2 抽样误差
第6章
抽样分布就是选出所有可能的样本情况下结果的分布
两类统计量的抽样分布:样本均值和样本比例。
例如, 假设想知道某学院学生的平均成绩,随机选择50个学生。 如果得到很多不同的50个学生的样本,将计算每个样本不同平均数。我们可以计算对于任意给定的50个学生的样本,我们对所有潜在的平均成绩感兴趣。
6. 3抽样分布
第6章
均值的抽样分布是指在给定样本容量的情况下所有可能的样本均值的分布。
6.3.1 样本均值的抽样分布
6. 3抽样分布
第6章
假设总体…
总体容量N=4
随机样本变量, X,
是个体的年龄
X的观测值: 24, 28,
32, 36 (岁)
A
B
C
D
例子
1.样本均值的均值
6. 3抽样分布
第6章
总体均值
总体的均值等于总体的所有数值之和除以总体容量N。
总体的标准差
6. 3抽样分布
第6章
.3
.2
.1
0
24 28 32 36
A B C D
均匀分布
P(x)
x
总体分布的概括度量:
样本均值的均值——例子
(续)
6. 3抽样分布
16 个可能的样本 (有放回的抽样)
现在考虑容量n=2的所有可能的样本
第6章
(续)
16个样本平均数
第一个 观测值 第二个 观测值 24 28 32 36
24 24,24 24,28 24,32 24,36
28 28,24 28,28 28,32 28,36
32 32,24 32,28 32,32 32,36
36 36,24 36,28 36,32 36,36
样本均值的均值——例子
第一个 第二个观测值 观测值 24 28 32 36
24 24 26 28 30
28 26 28 30 32
32 28 30 32 34
36 30 32 34 36
6. 3抽样分布
第6章
所有样本平均数的抽样分布
X
样本平均数的分布
16个样本平均数
P(X)
0
.1
.2
24 26 28 30 32 34 36
.3
_
(续)
(不再是均匀分布)
样本均值的均值——例子
第一个 第二个观测值 观测值 24 28 32 36
24 24 26 28 30
28 26 28 30 32
32 28 30 32 34
36 30 32 34 36
6. 3抽样分布
第6章
该抽样分布的概括度量:
(续)
样本均值的均值——例子
6. 3抽样分布
第6章
算术平均数是无偏的,因为所有可能的样本均值(给定样本容量n)的平均值等于总体的均值 。
样本均值的均值——例子
6. 3抽样分布
第6章
24 26 28 30 32 34 36
0
.1
.2
.3
P(X)
X
24 28 32 36
A B C D
0
.1
.2
.3
总体
N = 4
P(X)
X
_
样本平均数分布
n = 2
_
2. 样本均值的标准误差
6. 3抽样分布
第6章
同样总体相同容量的不同的样本导致不同的样本平均数
样本与样本之间平均数的变动用均值的标准误差来度量:(这假设是有放回的抽样或者无限总体无放回的抽样)
均值的标准误差是所有可能的样本均值的标准差。
注意平均数的标准差随着样本容量 增加而减少
6. 3抽样分布
第6章
总体服从正态分布,平均数μ 且标准差σ, 抽样分布 也服从正态分布。

3、正态分布总体的抽样分布
6. 3抽样分布
第6章
抽样分布的Z值:
其中: = 样本平均数
= 总体平均数
= 总体标准差
n = 样本容量
平均数抽样分布的Z值
6. 3抽样分布
总体正态分布
抽样分布也正态分布
(有同样的平均数)
第6章
抽样分布特征
6. 3抽样分布
第6章
较大的样本容量
较小的 样本容量
(续)
随着n增加,
减少
抽样分布特征
6. 3抽样分布
第6章
假设每盒麦片的重量服从正态分布,均值为368克,标准差为15克。如果从同一天包装的几万盒麦片中随机抽取25盒作为样本,则该样本均值低于365克的可能性有多大?
解:
即所有容量为25的样本的均值有15.87%的概率低于365克。
例子:麦片包装问题
6. 3抽样分布
第6章
假设每盒麦片的重量服从正态分布,均值为368克,标准差为15克。如果从同一天包装的几万盒麦片中随机抽取100盒作为样本,则该样本均值低于365克的可能性有多大?
解:
即所有容量为100的样本的均值有2.28%的概率低于365克。
例子:麦片包装问题
6. 3抽样分布
第6章
我们可以使用中心极限定理:
即使总体非正态分布,总体的样本平均数 将近似正态分布只要样本容量足够的大.
抽样分布的特征 :

6.3.2中心极限定理
6. 3抽样分布
n↑
第6章
随着样本容量变得足够的大 …
不管总体的分布如何,抽样分布趋近于正态分布
6.3.2中心极限定理
6. 3抽样分布
第6章
总体分布
抽样分布
(随着n的增加服从正态分布)
集中趋势
变异程度
较大的样本容量
较小的 样本容量
(续)
抽样分布特征:
6. 3抽样分布
第6章
对于大多数分布, n > 30 将导致抽样分布近乎正态分布
对于完全对称分布, n > 15 一般足够导致抽样分布近乎正态分布
对正态分布的总体,平均数的抽样分布总是服从正态分布
多大是足够的大?
6. 3抽样分布
第6章
假设总体的平均数μ = 8 且标准差σ = 3. 假设选中容量n = 36随机样本。
样本平均数介于7.8和8.2之间的概率是多少
例子
6. 3抽样分布
第6章
结论:
即使总体非正态分布, 中心极限定理可以应用 (n > 30)
… 因此抽样分布近乎正态分布
… 且平均数
…且标准差
(续)
例子
6. 3抽样分布
第6章
结论(续):
(续)
抽样分布
标准正态分布
总体 分布
样本
标准化












X
Z
-0.4 0.4
.1554 +.1554
7.8 8.2
例子
6. 3抽样分布
第6章
π = 有着某种特性的总体的比例
样本比例 ( p ) 提供π的估计:
0 ≤ p ≤ 1
当n比较大时,p 近乎正态分布
(假设是有放回的抽样或者无限总体无放回的抽样)
6.3.3比例的抽样分布
6. 3抽样分布
第6章
近乎正态分布分布,如果:
其中

(其中 π = 总体比例)
抽样分布
P( ps)
.3
.2
.1
0
0 . 2 .4 .6 8 1
p
p的抽样分布
6. 3抽样分布
第6章
使用公式将p标准化为Z值:
比例的Z值
6. 3抽样分布
if π = 0.4且n = 200,
P(0.40 ≤ p ≤ 0.45)是多少
第6章
如果支持A主张的投票者的真正比例是π = 0.4,容量200 的样本导致样本比例介于0.40与0.45之间的概率是多少
也就是说:
例子
6. 3抽样分布
第6章
if π = 0.4且n = 200,
P(0.40 ≤ p ≤ 0.45)是多少
(续)
转换成标准正态分布:
计算 :
例子
6. 3抽样分布
第6章
Z
1.44
0.4251
标准化
抽样分布
标准正态分布
if π = 0.4且n = 200,
P(0.40 ≤ p ≤ 0.45)是多少
(续)
使用标准正态分布表: P(0 ≤ Z ≤ 1.44) = 0.4251
0
0.45
0.40
p
例子
6. 3抽样分布
第6章
6.4.1点估计
使用单个样本的统计量来估计总体参数的方法。
6.4 参数估计
第6章
置信区间估计:是在样本点左右构造的一段区间,从而可以知道总体参数落在特定区间内的概率。
对于未知参数 ,找到两个数值 和 ,
使参数 位于区间 的概率为 ,即
式中,区间 表示总体参数的区间估计或置信区间。
6.4.2置信区间估计
6.4 参数估计
第6章
点估计是单个数
值置信区间提供了估计变动的额外信息
点估计
置信区间下界
置信区间上界
置信区间宽度
点估计和置信区间估计
6.4 参数估计
第6章
区间给出了观测值的一个范围:
考虑样本统计量随着样本的不同而变化
基于一个样本的观测值
给出接近未知总体参数的信息
以置信度表示
例如95%的置信度, 99%的置信度
不能为100%的置信度
6.4.3 总体均值的置信区间估计( 已知时)
6.4 参数估计
第6章
置信度:置信区间包含未知总体参数的百分比(低于100%)
假设置信度=95% ,也可写成(1 - ) = 0.95,(故 = 0.05)
为分布中置信区间外的两个尾部的比例。
一般的相关解释:
构造的所有置信区间95%包含未知的真实参数
特别的,区间可以包含也可以不包含真实参数
置信度 (1- )
6.4 参数估计
第6章
假设
总体标准差σ已知
总体是正态分布
如果总体非正态,则使用大样本
置信区间估计:
其中
Zα/2是标准正态分布曲线上上限临界值以上的比例为 /2对应的数值;
μ的置信区间 (σ已知)
6.4 参数估计
第6章
考虑置信度是95%的置信区间:
置信下限
临界值
置信上限
临界值
Z :
X :
点估计
0
Zα/2 = -1.96
Zα/2 = 1.96
寻找临界值,Zα/2
6.4 参数估计
第6章
通常使用的置信度是 90%,95%,和99%
置信度
置信系数
Zα/2 值
1.28
1.645
1.96
2.33
2.58
3.08
3.27
0.80
0.90
0.95
0.98
0.99
0.998
0.999
80%
90%
95%
98%
99%
99.8%
99.9%
常用置信度
6.4 参数估计
第6章
置信区间
(1- )x100%
区间包含μ;
( )x100% 不包含
均值的样本分布
区间从
扩展到
x1
x2
置信区间和置信度
6.4 参数估计
第6章
一个文具商店想要估计库存中贺卡的平均销售额。随机选择100张贺卡,均值为3.65元,标准差为0.4元。假设服从正态分布,计算该店库存中所有贺卡的均值的95%置信区间估计。
解:95%的置信度对应的临界值
即库存中所有贺卡的平均销售额的95%置信区间估计为3.571 6~3.728 4元。
【例6-1】
6.4 参数估计
第6章
如果总体标准差 σ是未知的,我们可以用样本标准差 S来替代。
这种做法是非常不确定的,因为S随着样本的变化而变化。
所以我们用t分布来代替正态分布。
6.4.3总体均值的置信区间估计( 未知时)
6.4 参数估计
如果随机变量X服从正态分布,那么下面的统计量服从自由度为n-1的t分布:
其中S为样本标准差。
第6章
1.学生t分布
6.4 参数估计
第6章
t (df = 5)
t (df = 13)
t-分布是钟形的对称的,但其尾部比正态的“胖”
标准正态
(t 有df = ∞)
t
0
注意: t Z n增加
2.t分布的特性
6.4 参数估计
d.f. = n - 1
第6章
t 是一个分布集
tα/2 的值依赖于自由度 (d.f.)
观察值在样本均值计算后是自由变化的
t分布的特性(续)
6.4 参数估计
如果这三个数的均值是8.0,
那么X3一定是9
(即, X3 不是自由变化的)
令X1=7
令X2=8
X3是多少?
例子:假设3个数字的均值是8.0
第6章
这里,n = 3,所以自由度= n – 1 = 3 – 1 = 2
(对于一个给定的均值,2个值可以是任意的数字,但是第三个数是不能自由变化的)
思想:观察值在样本均值计算后是自由变化的
3.自由度 (df)的概念
6.4 参数估计
当σ未知时,均值的 置信区间估计为:
(其中 tα/2 是具有n -1自由度和α/2的累积面积的t分布的临界值)
第6章
4.置信区间的表达式(σ未知)
6.4 参数估计
第6章
上部的尾部面积
df
.25
.10
.05
1
1.000
3.078
6.314
2
0.817
1.886
2.920
3
0.765
1.638
2.353
表的主体包含t值,但没有概率
令: n = 3
df = n - 1 = 2
= 0.10
/2 = 0.05
t
0
2.920
/2 = 0.05
t分布表
6.4 参数估计
第6章
某医院想估计其急诊室服务的病人的平均等候时间。随机抽取33名急诊室病人进行调查,经计算样本均值为222分钟,样本标准差为76分钟。在95%的置信水平下估计平均等候时间的置信区间。
解:由题意知,
95%的置信度,自由度为32时,对应的t分布的临界值为 ,应用公式(6-13)可得:

【例6-2】
6.4 参数估计
第6章
6.4.4比例的置信区间估计
总体比例( π )的区间估计可以通过对样本比例( p )的不确定性增加一个限制来计算。
6.4 参数估计
第6章
置信区间上下界通过以下公式来计算
其中
Zα/2 是所要求的置信度的标准正态值
P 是样本比例
n 是样本容量
注意:一定要 np > 5 和n(1-p) > 5
6.4 参数估计
第6章
某网站对1120名全职妈妈进行了调查,其中280位表明她们对工作-生活的平衡并不满意。计算全职妈妈中对工作-生活的平衡并不满意的总体比例的90%置信区间估计。
解:置信区间估计可以计算如下:
90%的置信度对应的关键值 ,则有

【例6-3】
6.4 参数估计
第6章
均值
样本容量的确定
比例
6.5 样本容量的确定
第6章
样本容量需要达到置信度(1 - )要求下的误差界限(ME)
此误差界限也称为抽样误差
总体参数估计时的不精确量
点估计生成置信区间时增加减少的量
6.5.1估计总体均值时样本容量的确定
6.5 样本容量的确定
第6章
均值
样本容量
的确定
抽样误差
(误差界限)
6.5 样本容量的确定
第6章
均值
样本容量
的确定
求解n得到
6.5 样本容量的确定
第6章
为了确定均值所需的样本容量,必须知道:
目标置信度 (1 - ),其决定了关键值 Zα/2
可接受的抽样误差
标准差 σ
6.5 样本容量的确定
第6章
如果 = 45,在90%的置信度下均值±5的估计所需的样本容量要多大?
(取整)
所以目标样本容量 n = 220
求样本容量的例子
6.5 样本容量的确定
第6章
如果σ是未知的,其可以通过目标样本容量的公式来进行估计
使用的σ值应期望至少与真实的σ值一样大
选择一个试验样本并通过样本标准差S来估计σ
如果σ未知
6.5 样本容量的确定
第6章
样本容量
的确定
比例
求解n得到
6.5.2、估计总体比例时样本容量的确定
6.5 样本容量的确定
第6章
为了确定比例的目标样本容量,必须知道:
目标置信度 (1 - ),其决定了关键值 Zα/2
可接受的抽样误差 MEp
真实的总体比例 π
π可以通过一个试验样本来估计 (或者谨慎的使用0.5来估计π)
(续)
样本容量的确定
6.5 样本容量的确定
第6章
在95%的置信度下, 多大的样本可以估计真实比例,且其总体误差在±3%以内? (假定一个试验样本p = 0.12)
求样本容量的例子
6.5 样本容量的确定
第6章
解:
对于95%的置信度, Zα/2 = 1.96
MEp = 0.03
p = 0.12,用此估计π
故 n = 451
(续)
求样本容量的例子
6.5 样本容量的确定
第6章
讨论了概率与非概率样本
叙述了四种常见概率样本
讨论了调查价值和调查误差的类型
介绍了抽样分布
叙述了平均数的抽样分布
对于正态分布总体
使用中心极限定理
叙述了比例的抽样分布
使用抽样分布计算概率
小 结
第6章
介绍置信区间的概念
讨论点估计
置信区间的估计
均值的置信区间估计 (σ已知)
均值的置信区间估计 (σ未知)
比例的置信区间估计
目标均值比例的样本容量的确定
小 结

展开更多......

收起↑

资源预览