第5章 抽样分布与参数估计 课件(共89张PPT)-《统计学基础》同步教学(东北财大版)

资源下载
  1. 二一教育资源

第5章 抽样分布与参数估计 课件(共89张PPT)-《统计学基础》同步教学(东北财大版)

资源简介

(共89张PPT)
第5章 抽样分布与参数估计
作者:中国人民大学统计学院
贾俊平
PowerPoint
统计学
学习目标
1.了解和掌握常用的抽样方法
2.理解分布与抽样分布的基本概念
3.理解样本均值、样本比例和样本方差的抽样分布
4.理解参数估计的基本原理
5.熟练掌握总体参数的区间估计
6.熟练掌握样本容量的确定方法
5.1 抽样分布
5.1.1抽样方法
5.1.2抽样分布的基本概念
5.1.3样本酮剂量的抽样分布
5.1.1 抽样方法
抽样方法
概率抽样
(probability sampling)
也称随机抽样
特点
按一定的概率以随机原则抽取样本
抽取样本时使每个单位都有一定的机会被抽中
每个单位被抽中的概率是已知的,或是可以计算出来的
1)简单随机抽样
(simple random sampling)
从总体N个单位中随机地抽取n个单位作为样本,每个单位入抽样本的概率是相等的
最基本的抽样方法,是其它抽样方法的基础
从含有N个元素的总体中,抽取n个元素作为样本,使得总体中的每一个样本量为n的样本都有相同的机会被抽中,这样抽出的样本被称为简单随机样本
特点
简单、直观,在抽样框完整时,可直接从中抽取样本
用样本统计量对目标量进行估计比较方便
简单随机抽样
不重复抽样
重复抽样
2)分层抽样
(stratified sampling)
将抽样单位按某种特征或某种规则划分为不同的层,然后从不同的层中独立、随机地抽取样本
优点
保证样本的结构与总体的结构比较相近,从而提高估计的精度
组织实施调查方便
既可以对总体参数进行估计,也可以对各层的目标量进行估计
3)系统抽样
(systematic sampling)
将总体中的所有单位(抽样单位)按一定顺序排列,在规定的范围内随机地抽取一个单位作为初始单位,然后按事先规定好的规则确定其它样本单位(等距抽样或机械抽样)
先从数字1到k之间随机抽取一个数字r作为初始单位,以后依次取r+k,r+2k…等单位
优点:操作简便,可提高估计的精度
缺点:对估计量方差的估计比较困难
4)整群抽样
(cluster sampling)
将总体中若干个单位合并为组(群),抽样时直接抽取群,然后对中选群中的所有单位全部实施调查
特点
抽样时只需群的抽样框,可简化工作量
调查的地点相对集中,节省调查费用,方便调查的实施
缺点是估计的精度较差
5)多阶段抽样
(Multistage sampling)
将抽样过程分阶段进行,每个阶段使用的抽样方法往往不同,即将各种抽样方法结合使用。
特点
便于组织抽样
抽样方式灵活,有利于提高抽样的估计效率
多阶段抽样对基本调查单元的抽选不是一步到位的
多阶段抽样实质上是分层抽样与整群抽样的有机结合
5.1.2 抽样分布的基本概念
1)总体分布
总体分布就是总体中所有个体关于某个变量(标志)的取值所形成的分布。
分布的形态很多,例如,钟型分布、J型分布和U型分布等
(1)钟型分布:钟形分布的特征是“两头小、中间大”,
(2) U型分布:特征是:靠近中间的变量值分布的次数少,靠近两端的变量值分布的次数多,形成“两头大,中间小”的分布特征。
(3)J型分布
J形分布的特征是“一边小,一边大”,即大部分变量值集中在某一端分布,有两种类型。(1)正J形分布(2)反J形分布
2) 样本分布
1.样本分布就是样本中所有个体关于某个变量的取值所形成的分布。
2.当样本容量n逐渐增大时,样本分布逐渐接近总体的分布
3.反映样本分特征的指标叫样本统计量,通常用来表示。与总体参数相对应,常见的样本统计量也有:样本均值、样本比例和样本方差等.
3) 抽样分布
1.抽样分布就是样本统计量的概率分布,它由样本统计量的所有可能取值和与之对应的概率所组成。
2.实际的抽样分布是如何形成的呢?它取决于以下三个因素:
(1)是总体分布。
(2)是样本容量。
(3)是抽样方法。
5.1.3 样本统计量的抽样分布
1 )样本均值的抽样分布
2 )样本比例的抽样分布
3 )样本方差的抽样分布
统计量
1、针对不同的目的,构造不同的样本函数
2、设X1, X2, …….Xn是从总体 X中抽取的容量为n的一个样本,,如果由此构造一个函数T(X1, X2, …….Xn) ,不依赖于任何未知参数,则称函数T(X1, X2, …….Xn) 是一个统计量。
常用统计量
1、均值:
2、方差:
3、离散系数:
容量相同的所有可能样本的样本均值的概率分布
一种理论概率分布
进行推断总体总体均值 的理论基础
1 )样本均值的抽样分布
(1) 样本均值的抽样分布引例
【例】设一个总体,含有4个元素(个体) ,即总体单位数N=4。4 个个体分别为x1=1、x2=2、x3=3 、x4=4 。总体的均值、方差及分布如下
总体分布
1
4
2
3
0
.1
.2
.3
均值和方差
样本均值的抽样分布
(例题分析)
现从总体中抽取n=2的简单随机样本,在重复抽样条件下,共有42=16个样本。所有样本的结果为
3,4
3,3
3,2
3,1
3
2,4
2,3
2,2
2,1
2
4,4
4,3
4,2
4,1
4
1,4
4
1,3
3
2
1
1,2
1,1
1
第二个观察值
第一个
观察值
所有可能的n = 2 的样本(共16个)
样本均值的抽样分布
(例题分析)
计算出各样本的均值,如下表。并给出样本均值的抽样分布
3.5
3.0
2.5
2.0
3
3.0
2.5
2.0
1.5
2
4.0
3.5
3.0
2.5
4
2.5
4
2.0
3
2
1
1.5
1.0
1
第二个观察值
第一个
观察值
16个样本的均值(x)
X
样本均值的抽样分布
1.0
0
.1
.2
.3
P (X )
1.5
3.0
4.0
3.5
2.0
2.5
样本均值的分布与总体分布的比较
(例题分析)
= 2.5
σ2 =1.25
总体分布
1
4
2
3
0
.1
.2
.3
抽样分布
P ( X )
1.0
0
.1
.2
.3
1.5
3.0
4.0
3.5
2.0
2.5
X
(2)样本均值抽样分布的形式
样本均值抽样分布的形式与原有总体的分布和样本量的大小有关。
如果原有总体是正态分布,那么无论样本量的大小,样本均值的抽样分布都服从正态分布。如果原有总体的分布是非正态分布,此时就要看样本量的大小了。随着样本量的增大(通常n>30),不论原来总体是否服从正态分布,样本均值的抽样分布都将趋于正态分布,其分布的数学期望为总体均值,方差为总体方差的1/n。这就是统计上著名的中心极限定理。
样本均值的抽样分布
与中心极限定理
= 50
=10
X
总体分布
n = 4
抽样分布
X
n =16
当总体服从正态分布N~(μ,σ2)时,来自该总体的所有容量为n的样本的均值 X也服从正态分布, X 的数学期望为μ,方差为σ2/n。即 X~N(μ,σ2/n)
中心极限定理
(central limit theorem)
当样本容量足够大时(n 30) ,样本均值的抽样分布逐渐趋于正态分布
中心极限定理:设从均值为 ,方差为 2的一个任意总体中抽取容量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为μ、方差为σ2/n的正态分布
一个任意分布的总体
X
当为小样本时(通常n<30),其分布不是正态分布,此时就不能按正态分布进行推断。当正态总体的方差未知,且较小时,则样本均值的分布服从自由度为(n-1)的t分布。
中心极限定理
(central limit theorem)
的分布趋于正态分布的过程
抽样分布与总体分布的关系
总体分布
正态分布
非正态分布
大样本
小样本
正态分布
正态分布
非正态分布
样本均值的数学期望
样本均值的方差
重复抽样
(3)样本均值的抽样分布特征
(数学期望与方差)
样本均值的抽样分布
(数学期望与方差)
比较及结论:1. 样本均值的均值(数学期望) 等于总体均值
2. 样本均值的方差等于总体方差的1/n
2 ) 样本比例的抽样分布
样本中具有某种属性的单位与全部单位总数之比
不同性别的人与全部人数之比
合格品(或不合格品) 与全部产品总数之比
样本比例可表示为
样本比例
(proportion)
样本比例的抽样分布
容量相同的所有可能样本的样本比例的概率分布
当样本容量很大时 ( ), 样本比例的抽样分布可用正态分布近似
一种理论概率分布
推断总体总体比例 的理论基础
样本比例的数学期望
样本比例的方差
样本比例的抽样分布
(数学期望与方差)
3) 样本方差的抽样分布
容量相同的所有可能样本的样本方差的概率分布
一种理论概率分布
推断总体方差 2的理论基础
统计表明,对于来自正态总体的简单随机样本,其
比值 的抽样分布服从自由度为(n-1)
的 分布
4 )统计量的标准误
统计量的标准误是指样本统计量的抽样分布的标准差。
标准误衡量的是统计量的离散程度,它测度了用样本统计量估计总体参数的精确程度。
1.当抽样方式为重复抽样时,样本均值的标准误计算公式为:
例5.2 有5个工人的日产量分别为(单位:件):6,8,10,12,14,用重复抽样的方法,从中随机抽取2个工人的日产量,用以代表这5个工人的总体水平。则抽样平均误差为多少?
解:
总体均值为:
总体标准差:
抽样标准误:
2.当抽样方式为重复抽样时,抽样比例的标准误:
例5.3 某企业生产的产品,按正常生产经验,合格率为90%,现从5000件产品中抽取50件进行检验,求合格率的抽样平均误差。
解:根据题意,在重复抽样条件下,合格率的抽样平均误差为:
5.2 参数估计
5.2.1参数估计的基本原理
5.2.2一个总体参数的区间估计
参数估计:用样本统计量去估计总体的参数;参数用 表示,估计量用 表示
估计量:用于估计总体参数的随机变量
如样本均值,样本比例、样本方差等
例如: 样本均值就是总体均值 的一个估计量
估计值:估计参数时计算出来的统计量的具体值
如果样本均值 x =1800,则1800就是 的估计值
5.2.1 参数估计的基本原理
1)估计量与估计值
2 ) 点估计与区间估计
参数估计的方法
参数估计
点 估 计
区间估计
一个总体参数的估计
总体参数 符号表示 样本统计量
均值
比例
方差
(1)点估计
(point estimate)
用样本的估计量的某个取值直接作为总体参数的估计值
例如:用样本均值直接作为总体均值的估计
例如:用样本方差直接作为总体方差的估计
2. 没有给出估计值接近总体参数程度的信息
点估计的方法有矩估计法、顺序统计量法、最大似然法、最小二乘法等
(2)区间估计
(interval estimate)
在点估计的基础上,给出总体参数估计的一个区间范围;
该区间由样本统计量加减抽样误差而得到的
根据样本统计量的抽样分布能够对样本统计量与总体参数的接近程度给出一个概率度量
比如,某班级数学平均分数在70~80之间,置信水平是90%
区间估计的基本原理
区间估计的图示

X
95% 的样本
-1.96 x
+1.96 x
99% 的样本
- 2.58 x
+ 2.58x
90%的样本
-1.65 x
+1.65 x
区间估计就是用样本估计量的点估计值加减估计误差构成的区间来估计总体参数,并以一定的概率保证总体参数在所估计的区间内。估计误差通常由标准分数乘以统计量标准误构成。区间估计的基本方法是:首先求待估计参数的一个点估计值,然后以为基础估计出一个区间,并提供总体参数落入该区间的概率。
由样本统计量所构造的总体参数的估计区间称为置信区间
统计学家在某种程度上确信这个区间会包含真正的总体参数,所以给它取名为置信区间
置信区间
(confidence interval)
样本统计量
(点估计)
置信区间
置信下限
置信上限
将构造置信区间的步骤重复很多次,那么置信区间包含总体参数真值的次数所占的比例称为置信水平
表示为 (1 -
为是总体参数未在区间内的比例
置信水平
比较常用的置信水平为正态分布曲线下右侧面积为 /2时的z值
置信水平 a a/2 za/2
90% 0.1 0.05 1.65
95% 0.05 0.03 1.96
99% 0.01 0.01 2.58
置信区间与置信水平
均值的抽样分布
(1 - ) % 区间包含了
% 的区间未包含
1 - a
a/2
a/2
用一个具体的样本所构造的区间是一个特定的区间,我们无法知道这个样本所产生的区间是否包含总体参数的真值
我们只能是希望这个区间是大量包含总体参数真值的区间中的一个,但它也可能是少数几个不包含参数真值的区间中的一个
3 ) 评价估计量的标准
(1)无偏性
(unbiasedness)
无偏性:估计量抽样分布的数学期望等于被估计的总体参数
P( )
B
A
无偏
有偏
(2)有效性
(efficiency)
有效性:对同一总体参数的两个无偏点估计量
,有更小标准差的估计量更有效
A
B
的抽样分布
的抽样分布
P( )
(3)一致性
(consistency)
一致性:随着样本容量的增大,估计量的
值越来越接近被估计的总体参数
A
B
较小的样本容量
较大的样本容量
P( )
5.2.2 一个总体参数的区间估计
1)总体均值的区间估计
2)总体比例的区间估计
3)总体方差的区间估计
1 )一个总体均值的区间估计
(1)正态总体、 2已知,或非正态总体、大样本的区间估计
假定条件
总体服从正态分布,方差( 2) 已知
如果不是正态分布,可由正态分布来近似 (n 30)
样本均值经标准化以后的随机变量服从标准正态分布即:
3.总体均值 在1- 置信水平下的置信区间为
总体均值的区间估计
(例题分析)
【例】某种零件的长度服从正态分布,从某天生产一批零件中按重复抽样方法随机抽取9个,测得其平均长度为21.4cm。已知总体标准差为 =0.15cm。试估计该批零件平均长度的置信区间,置信水平为95%。
解:已知X~N( ,0.152),n=9, 1- = 95%,z /2=1.96 总体均值 在1- 置信水平下的置信区间为
该批零件平均长度的置信区间在21.302cm~21.498cm之间
总体均值的区间估计
(例题分析)
【例】某无线电广播公司要估计某市65岁以上的已退休的人中一天时间里收听广播的时间,随机抽取了一个容量为200的样本,得到样本平均数为110分钟,样本标准差为30分钟,试估计总体均值95%的置信区间。
解:已知=110分钟,n=200(>30为大样本),s=30, 1- =0.95
总体均值 在1- 置信水平下的置信区间为
在95%的置信水平下该市65岁以上已退休的人每天收听无线电广播的时间在105.84分钟和114.16分钟之间。
(2) 总体均值的区间估计
(正态总体、 2未知、小样本)
总体均值的区间估计
(小样本)
1. 假定条件
总体服从正态分布,且方差( 2) 未知
小样本 (n < 30)
使用 t 分布统计量
总体均值 在1- 置信水平下的置信区间为
t 分布
分布是类似正态分布的一种对称分布,它通常要比正态分布平坦和分散。一个特定的分布依赖于称之为自由度的参数。随着自由度的增大,分布也逐渐趋于正态分布
X
t 分布与标准正态分布的比较
t 分布
标准正态分布
t
不同自由度的t分布
标准正态分布
t (df = 13)
t (df = 5)
Z
总体均值的区间估计
【例】 可口可乐公司生产的雪碧,瓶上标明净容量是500ml,在市场上随机抽取了25瓶,测得到其平均容量为499.5ml,标准差为2.63ml。试求该公司生产的这种瓶装饮料的平均容量的置信水平为99%的置信区间(假定饮料的容量服从正态分布)。
解:已知,样本容量为n=25,样本均值 , 样本标准差为s=2.63 ,又因为置信水平 ,查自由度为的分布表得
所以瓶装饮料的平均容量的置信水平为99%的置信区间为:
因此该公司生产的这种瓶装饮料的平均容量的置信水平为99%的置信区间为(498.03, 500.97)。
总体均值的区间估计
【例】从某公司生产的一批罐装产品中,随机抽取10罐产品,测得每罐的质量分别为318,320,322,321,321,323,319,320,320,324(单位:克)。要求以95%的置信度,估计该公司这批产品平均质量的置信区间(已知罐装质量服从正态分布)。
解:已知,样本容量为n=10,
样本均值 ,标准差
所以该公司这批产品平均质量的置信区间95%的置信区间为:
该公司这批产品平均质量的置信区间95%的置信区间为(319.5 ,322.1)。
2 )总体比例的区间估计
2 ) 总体比例的区间估计
1. 假定条件
总体服从二项分布
当样本容量足够大时,即 时,可以由正态分布来近似
使用正态分布统计量Z
3. 总体比例 在1- 置信水平下的置信区间为
总体比例的区间估计
(例题分析)
【例】 估计收视率的情况,在一个由165个经常看电视的家庭组成的随机样本中,调查指出,有101个家庭收看某节目。试用90%的置信区间估计所有收看该节目的家庭的真正比例。对这个区间作出解释。
解:已知 n=165,p=0.612 , z /2=1.645
因此,收看该节目的家庭的真正比例在0.550到0.674之间。
3) 总体方差的区间估计
总体方差的区间估计
【例】 对某乳品厂生产的袋装鲜奶质量进行测量。随机抽出20袋,测得每袋平均质量为250.8g,标准差为1.25g。已知每袋质量服从正态分布,求的置信度为90%的置信区间。
5.3 样本容量的确定
5.3.1 影响样本容量的因素
5.3.2 估计总体均值时样本容量的确定
5.3.3 估计总体比例时样本容量的确定
5.3.1 影响样本容量的因素
1.总体的变异程度
2.允许误差的大小
3.置信水平的大小
4.抽样方法不同
5.3.2 估计总体均值时样本容量的确定
总体均值得估计区间为:
边际误差
即:
估计总体均值时样本容量n为
重复抽样
样本容量n与总体方差成正比,与边际误差成反比,与可靠性系数成正比
估计总体均值时样本容量的确定
其中:
估计总体均值时样本容量的确定
(例题分析)
【例】某食品厂要检验本月生产的20000袋某产品的重量,根据以往的资料,这种产品每袋重量的标准差为25克。如果要求在95%的置信度下,平均每袋重量的误差不超过5克,应抽查多少袋产品
解: 由题意可知N=20000, =25克, E=5克,
根据置信度 ,
在重复抽样的条件下
即应抽查97袋产品。
5.3.3估计总体比例时样本容量的确定
根据比例区间估计公式可得样本容量n为
重复抽样
估计总体比例时样本容量的确定
E的取值一般小于0.1
未知时,可取最大值0.5
其中:
估计总体比例时样本容量的确定
(例题分析)
【例】 为了检查某企业生产的10000个显像管的合格率,需要确定样本的容量。根据以往经验合格率为90%、91.7%。如果要求估计的允许误差不超过0.0275,置信水平为95.45%。求应该取多少只显像管
解:已知,应选择 =90%,1- =95.45%, Z /2=1.96,E=0.0275
应抽取的样本容量为
应应该抽458只显像管 。
本章小结
抽样方法,包括简单随机抽样、分层抽样、系统抽样、整群抽样和多阶段抽样等
抽样与抽样分布
参数估计的基本方法
总体均值的区间估计
总体比例的区间估计
样本容量的确定
结 束
THANKS

展开更多......

收起↑

资源预览