7第 七 章 抽 样 与 抽 样 估 计 课件(共55张PPT)- 《统计学原理》同步教学(铁道版)

资源下载
  1. 二一教育资源

7第 七 章 抽 样 与 抽 样 估 计 课件(共55张PPT)- 《统计学原理》同步教学(铁道版)

资源简介

(共55张PPT)
第 七 章
抽 样 与 抽 样 估 计
本章学习目的
了解抽样估计的概念和特征、抽样调查的组织方式。
领会抽样估计中的相关概念。
掌握抽样估计中常用的统计量(均值、方差、标准差、成数)。
掌握正态分布总体参数的估计方法(点估计、区间估计)。
本章重难点提示
本章重点:抽样估计的相关概念、抽样分布、样本统计量、区间估计方法。
本章难点:抽样误差的相关概念、不同已知条件下的区间估计方法。
学习目的及重难点提示
第 一 节
抽样和抽样估计中的基本概念
(一)抽样及抽样估计的概念
1.抽样即抽样调查,是指在总体中选取部分单位组成样本并收集样本单位的数据资料的过程。
2.抽样估计是在抽样调查的基础上,利用样本的数据资料计算样本指标,以样本特征值对总体特征值做出具有一定可靠程度的估计和判断。
一、抽样估计的概念和特征
(二)抽样估计的特征
1.抽样估计是由部分推断总体的一种认识方法。
2.抽样估计建立在随机取样的基础上。
3.抽样估计运用的是不确定的概率估计方法。
4.抽样估计的误差可以事先计算并加以控制。
二、抽样及抽样估计中的相关概念
(一)全及总体和样本
1.全及总体:是由被调查对象的全部单位所构成的集合体,简称总体。
总体容量:总体中的单位数,用N表示。
2.样本:样本是从总体中抽取的进行调查的部分单位的集合体,又称抽样总体。
样本容量:样本中的单位数,用n表示。
大样本和小样本:n≥30时称大样本,n<30称小样本。
**应用:在班级40名学生中随机选取15人进行健康状况调查,说明其中的总体、样本及容量。
二、抽样及抽样估计中的相关概念
(二)概率抽样与非概率抽样
1.概率抽样:又称随机抽样,是按随机原则抽取样本单位。本章所指的均为概率抽样。
2.非概率抽样:又称非随机抽样,是指从研究的目的和需要出发,根据调查者的经验或判断,从总体中有意识地抽取部分单位构成样本。
**应用举例:重点调查、典型调查应为非概率抽样。
二、抽样及抽样估计中的相关概念
(三)重复抽样和不重复抽样
1.重复抽样:又称有放回的抽样,从总体中抽取样本时,每次被抽中的单位都再被放回总体中参与下一次抽样。
2.不重复抽样:又称无放回的抽样,总体中随机抽选的单位经观察后不放回到总体中,即不再参加下次抽样。
**思考与讨论
从容量为N的总体中随机抽取容量为n的样本,根据概率论与数理统计知识,讨论重复抽样和不重复抽样中各单位依次被抽中的概率,并比较在同等条件下,哪种抽样的代表性好。
二、抽样及抽样估计中的相关概念
(四)抽样框
1.概念:抽样框是包括全部抽样单位的名单框架。
2.形式
名单抽样框:如学生名单、职工名单、企业名单等。
区域抽样框:如将一个城市按行政区划分为若干区、街道、居委会等。
时间抽样框:如对流水线上的产品每隔一定时间抽取一定单位。
(五)总体参数和样本统计量
1.总体参数:是反映总体数量特征的数值。在抽样推断 中,参数是未知的、待估计的确定值。
2.样本统计量:是根据样本资料计算的反映样本数量特征的变量,它的值随着样本的不同而变化,因此是一个随机变量。
二、抽样及抽样估计中的相关概念
表7-1 总体参数和样本统计量符号
(六)抽样误差
1.抽样误差
2.与抽样误差有关的三个概念
(1)抽样实际误差:指某一次具体抽样中,样本指标值与总体参数真实值之间的偏差。
(2)抽样平均误差:是指所有可能的样本指标与总体指标之间的平均差异程度,即样本估计值的标准差。
(3)抽样极限/允许误差:又称置信区间,是指一定概率下抽样误差的可能范围,说明样本估计量在总体参数周围变动的范围,记作Δ。
抽样误差是指不包括登记性误差和系统性误差在内的随机误差,它衡量了抽样估计的精确度。
抽样平均误差
①抽样平均数的平均误差
概念:就是抽样平均数的标准差,反映抽样平均数的所有可能值对总体平均数的平均离散程度,记作 。
定义公式:
其中, :为各个可能样本的平均数
:为总体平均数
:为重复抽样条件下所有可能的样本数
抽样平均误差
实际抽样推断中采用的公式
重复简单随机抽样:
不重复简单随机抽样:
其中, 为总体方差;
为不重复抽样的修正因子。
抽样平均误差
②样本成数(比例)的抽样平均误差
重复抽样条件下:
不重复抽样条件下:
总体中具有某种特征的单位占全部总体单位数的比例称为总体比例,记作 ,样本中具有此种特征的单位占全部样本单位数的比例称为样本比例,记作 。
抽样极限误差
①样本平均数的抽样极限误差:以绝对值形式表示的样本平均数的抽样误差的可能范围,用符号表示为:
即:
抽样极限/允许误差
②样本比例的抽样极限误差:以绝对值形式表示的样本比例的抽样误差的可能范围,用符号表示为:
即:
第二节 抽样分布
一、抽样分布的概念和种类
(一)概念
     
     
精确分布/小样本分布:大多数是在正态
        分布总体条件下得到的,但应用不广
(二)种类     
        渐近分布/大样本分布:样本容量无限增
大时统计量的极限分布,可看作是抽
样分布的一种近似
        
抽样分布是样本统计量的概率分布。从一个总体中随机抽取容量相等的样本,根据样本资料计算某一统计量所有可能的概率分布,称为这个统计量的抽样分布。
常见的抽样分布
(一)正态分布
 1.正态分布:如果随机变量的概率密度函数为:
             -∞< <+∞
   其中, 、 为常数且 >0,则称 服从参数为 、 
的正态分布,记作  ~   , 。
 *正态分布是最常见的抽样分布。
常见的抽样分布
 2.标准正态分布:在正态分布中,当参数 =0, =1时,则称 服从标准正态分布,记作  ~   ,1)。
 标准正态分布的分布密度  和分布函数  的性质如下:
   (1)  是偶函数,即   =
   (2)   =1-
   (3)如果  ~   ,  ,则  的分布函数为  
 
 上述公式称为正态分布函数的标准化公式。
常见的抽样分布
(二)  分布
设 是独立同分布的随机变量,且每个随机变量都服从标准正态分布,即 ~N(0,1),则随机变量
= 的分布称为自由度为 的 分布,记作
( )。
当 ∞时, 分布趋近于正态分布,即 ( )~N( ,2 )。
常见的抽样分布
(三) 分布
设随机变量 与 相互独立, ~(0,1),
~ ( ),则称随机变量
服从自由度为 的 分布,记作 ( )。
当 ∞时, 分布趋近于标准正态分布。实际应用中,当 >30时, 分布可用标准正态分布近似。
常见的抽样分布
(四) 分布
1.设随机变量 与 相互独立,且分别服从自由度为 、 的 分布,则称随机变量
服从第一自由度为 、第二自由度
为 的 分布,记作 ( , )。
2. 分布对于两个总体的方差比的统计推断问题十分重要,是方差分析等统计推断方法的基础。与前两种分布不同的是 分布不以正态分布为其极限分布,它总是一个正偏分布。
二、样本平均数的抽样分布
(一)总体方差 已知时,样本平均数 的抽样分布
[定理7-1] 设总体 ,( )是一个简单随机样本,则有: ~ ( , )
将样本平均数标准化,即有:
N(0,1)
上述定理说明:样本平均数的数学期望值等于总体平均数,样本平均数的方差等于总体方差除以样本容量,同时也说明了样本平均数抽样分布具有的基本性质。
二、样本平均数的抽样分布
(一)总体方差 已知时,样本平均数 的抽样分布
[定理7-2]中心极限定理:设 是具有期望值 ,方差 的任意总体,则样本平均数的抽样分布将随 的增大而趋于总
体平均数为 ,标准差为 的正态分布,即 渐近服
从 ( , )。 将这一正态随机变量进行标准化,则有:
0,1)
**说明:样本无论抽自正态或非正态总体,只要样本容量足够大,在总体平均数 和方差 已知和有限的条件下,样本平均数 的抽样分布就会趋于正态分布。一般认为样本容量 ≥30时,即可用定理7-2作为推断的依据。
二、样本平均数的抽样分布
(二)总体方差 未知时,样本平均数 的抽样分布
当总体方差 未知时,可以用样本方差 代替总体方差 ,或用样本标准差 代替总体标准差 ,则有:
[定理7-3] 设总体 , ),( )是
其一个简单随机样本,样本平均数为 ,样本标准差 ,
则统计量 ~ ( )。
**即当总体方差未知时,样本平均数服从自由度为 的 分布。
三、样本比例(成数)的抽样分布
当从总体中抽取一个容量为 的样本时,样本中具有某种特征的单位数 服从二项分布,即有 ~ , ),且有 , 。
因此样本比例 也服从二项分布,且有:
根据中心极限定理,当 ∞时,二项分布趋近于正态分布。所以,在大样本下,若 和 均大于5,样本
比例近似服从正态分布:
第 三 节
抽样估计的基本方法
一、点估计
(一)概念
1.点估计
2.矩估计
设总体随机变量的分布函数已知,但它的一个或多个参数未知,若从总体中抽取一组样本观察值,以该组数据来估计总体参数,就称为参数的点估计。
矩估计法是用样本的矩去估计总体的矩,从而获得总体有关参数的估计量的方法。矩是指以期望值为基础定义的数字特征,如数学期望、方差、协方差等。
一、点估计
(二)矩估计法的评价
优点:
1. 计算简便直观,一般不考虑抽样误差和可靠程度。
2.适用于对估计准确与可靠程度要求不高的情况。
局限性:
3.它要求总体矩存在。
4.不能充分利用估计时已掌握的有关总体分布的信息。
二、区间估计
(一)区间估计的概念
根据样本统计量以一定的可靠程度去估计总体参数值所在的范围或区间,是抽样估计的主要方法。
(二)抽样估计的置信度与精确度
1.置信度:表示区间估计的可靠程度或把握程度,也即所估计的区间包含总体参数真实值的可能性大小,一般以1- 表示。其中 表示显著性水平,即某一小概率事件发生的临界水平。
置信度通常采用三个标准:
(1)显著性水平=0.05,即1- =0.95
(2)显著性水平=0.01,即1- =0.99
(3)显著性水平=0.001,即1- =0.999
(二)抽样估计的置信度与精确度**
2.抽样估计的精确度:用置信区间的大小即抽样极限/允许误差来表示。
3.抽样估计的置信度与精确度的矛盾关系。
在样本容量和其他条件一定的情况下,
若希望抽样估计有较高的可靠度,则必须扩大置信区间,即必须降低估计的精确度;
若希望抽样估计有较高的精确度,即置信区间范围缩小,则必须降低估计的把握度。
即:抽样估计要求的把握度越高,则抽样允许误差越大,精确度越低;反之则相反。
区间估计的应用
(一)总体均值的区间估计
1.总体方差已知时
当 , )时,来自该总体的简单随机样本
的样本均值服从数学期望为 、方差 为的正态分布,将样本均值统计量
标准化,得到 统计量:
根据区间估计的定义,在给定的显著性水平 下,总体均值 在
1— 的置信度下的置信区间为:
( , ),即
其中, 即抽样平均误差 , 即抽样允许误差。
1.总体方差已知时总体均值的区间估计
例题应用
[例7-1] 某厂生产的零件长度服从正态分布,从该厂生产的零件中随机抽取25件,测得它们的平均长度为30.2厘米。已知总体标准差 =0.45厘米。
要求:(1)计算抽样平均误差和抽样允许误差。
(2)估计零件平均长度的可能范围( =0.05)。
已知: , ), =30.2, =25,
1- =0.95,
解题过程
(1)抽样平均误差
查标准正态分布表可知在 =0.05时, =1.96,所以,
抽样允许误差
(2)总体均值的置信区间为:
( , )=
=( , )= (30.02,30.38)
即我们可以以95%的概率保证该厂零件平均长度在30.02厘米到30.38厘米之间。
2.总体方差未知时总体均值的区间估计
**总体方差 未知,可以以样本方差 代替,但新的统计量不服从标准正态分布,而是服从自由度为 -1的 分布。
**给定置信度1- ,可查 分布表确定临界值
从而总体均值的置信区间为:
( , )
其中, 即为抽样平均误差;
即为抽样允许误差。
上式也可表示为:
例题应用
[例7-2] 从某市高中生中按不重复抽样方法随机抽取25名调查每周收看电视的时间,分组资料见表7-2。
表7-2 每周看电视时间
要求:(1)计算抽样平均误差和抽样允许误差;
(2)估计该市全体高中生每周平均看电视时间的置信区间(给定的显著性水平为0.05)。
解题过程(一)
已知: =25, =0.05
样本均值
样本方差
=4.33
查 分布表知 =0.05时,临界值 = =2.0639,因此,
抽样平均误差
抽样允许误差
解题过程(二)
(2)总体均值置信度为95%的置信区间为:
( , )
=
=(5-0.859,5+0.859)
=(4.14,5.86)
即我们可以以95%的把握保证该市高中生每周平均看电视时间在4.14到5.86小时之间。
(二)总体比例的区间估计
**在大样本下,样本比例的分布趋近于均值为 、方差为
的正态分布。因此,给定置信度1- ,查正态分布
表得 ,则样本比例的抽样极限误差为:
所以,总体比例的置信度为1- 的置信区间为:
例题分析
[例7-3] 某厂对一批产成品按不重复抽样方法随机抽选200件进行质量检测,其中一等品160件,试以90%的概率估计一等品率的范围。
已知: ,1- =90%, =200
查表知: =1.645
计算得样本比例的抽样平均误差为:
抽样极限误差为:
所以,该批产品的一等品比例的置信区间为:
即这批产品的一等品率在75.35% 到84.66% 之间。
(三)总体方差的区间估计*
1.大样本情况下,样本标准差 的分布近似服从正态分布 ,所以,总体标准差 的置信度为1- 的置信区间近似为:
( )
2.小样本情况下,若总体呈正态分布且其均值和方差未知,则总体方差 的置信区间可由如下统计量的分布来确定:
总体方差的置信度为1- 的置信区间为:
( , )
例题应用
[例7-4] 从某班学生中随机抽取16人,计算得语文平均成绩为75分,方差为25分。假定学生成绩服从正态分布,试求总体方差及标准差的置信区间(给定的显著性水平为0.05)。
解:已知 =25, =0.05,,查 分布表确定两个临界值:
=
=
将临界值数字带入上述公式中,总体方差 和标准差的置信度为1- 的置信区间分别为:
( , ),即为(13.64,
59.89);
( , ),即为(3.69,7.74)。
(四)两个总体均值之差的区间估计
**设两个正态总体为 , )、 , ),方差 、 已知,从两个总体中分别抽取容量为 和 的大样本,则样本均值之差服从正态分布,均值为 ,方差为

从而可以构造 在置信度为1- 水平下的置信区间:
(五)两个总体比例之差的区间估计
**设两个总体的比例分别为 和 ,分别从两个总体中随机抽取容量为 和 的大样本,并计算样本比例 和 ,可以证明,当 和 都很大,从而 >5和 >5时, - 的分布近似服从正态分布,且:
因此 - 的置信度为1- 的置信区间为:
由于总体比例未知,以样本比例来代替,上述置信区间为:
第 四 节
抽样调查的组织方式
一、简单随机抽样
(一)概念
(二)评价:简单易行,最符合随机原则,是抽样调查的基本形式。
(三)适用情况:当总体单位数不多且分布比较均匀,或总体单位之间数量特征值差异较小,或总体单位有现成的编号时,采用这种方式比较适宜。
又称纯随机抽样,是对总体单位不做任何分类或排队,直接从总体中按随机原则抽取样本单位的调查方式
二、类型抽样
(一)概念
(二)适用情况:总体单位在被研究标志上有明显差异时。
(三)遵循原则:分组时应使组内差异尽可能小,组间差异尽可能大。
等比例类型抽样
(四)种类:
不等比例类型抽样
又称分层抽样或分类抽样,是将统计分组和抽样调查结合起来的组织方式。先将总体单位按某一标志分成若干组,然后在各组中采用简单随机抽样或其他方式抽取样本单位。
三、等距抽样
(一)概念
无关标志排序抽样:排序的标志与被研究的标志无
关,实质是简单随机抽样。
(二)分类
有关标志排序抽样:排序的标志与被研究的标志有
关,有利于提高样本的代表性 。
(三)评价:抽样误差一般较简单随机抽样小,当被研究现象标志变异程度较大时,更能显示出其优越性。但有可能产生系统性误差。
又称机械抽样或系统抽样,它是先将总体各单位按某一标志顺序排列,然后按照固定的顺序和相同的间隔抽取样本单位的抽样组织方式。
四、整群抽样
(一)概念
(二)整群抽样与类型抽样的区别
类型抽样划分的组称为“类”,作用是缩小总体,使总体的变异减少,而抽取的基本单位仍是总体单位;
整群抽样划分的组称为“群”,作用是扩大单位,抽取的基本单位不是总体单位而是群,从而简化抽样工作程序。
(三)评价
样本单位集中于群内,显著地影响了总体单位分配的均匀性。与其他方式相比,在相同的条件下,抽样误差较大,代表性较低。
又称分群抽样或集团抽样,是将总体划分为若干群,然后以群为单位按简单随机抽样或等距抽样方式抽取部分群,对中选群中的所有单位一一调查的抽样组织方式。
五、多阶段抽样
(一)概念
(二)优点
1.便于组织抽样。
2.可以获得各阶段单元的调查资料。
3.方式灵活。
4.抽样单位的分布较广,降低抽样误差。
(三)适用情况
当总体单位很多且分布广泛,几乎不可能从总体中直接抽取总体单位时,常采用多阶段抽样。
多阶段抽样又称为多级抽样,它是将抽取样本单位的过程划分为几个阶段,然后逐阶段抽取样本单位的抽样组织方式。
本章小结
抽样和抽样估计:是在抽样调查的基础上,利用样本资料计算样本指标,据以对总体特征值做出有一定可靠程度的估计和判断。
抽样估计涉及的概念:
总体和样本;
概率抽样和非概率抽样;
重复抽样和不重复抽样;
抽样框;
总体参数和样本统计量;
抽样误差(抽样平均误差、抽样极限误差等概念需深入领会和重点掌握)。
本章小结
抽样估计方法
点估计和区间估计。其中区间估计是主要方法。应理解置信区间、置信度、显著性水平的含义,领会区间估计精确度和可靠度之间的关系,重点掌握总体均值和总体比例的区间估计方法。
抽样调查的组织方式
简单随机抽样、类型抽样、等距抽样、整群抽样和多阶段抽样等,应根据研究目的和研究对象的特点,选择合适的抽样组织方式。
END

展开更多......

收起↑

资源预览