7抽样推断 课件(共60张PPT)- 《统计学理论与实务》同步教学(人民邮电版)

资源下载
  1. 二一教育资源

7抽样推断 课件(共60张PPT)- 《统计学理论与实务》同步教学(人民邮电版)

资源简介

(共60张PPT)
*
*
第七章 抽样推断
第一节 抽样推断的意义
第二节 抽样误差
第三节 抽样推断的方法
第四节 抽样调查的组织方式
*
*
一、抽样推断的概念和特点
1、概念:
抽样推断是按随机原则从全部研究对
象中抽取部分单位(样本)进行观察,并根据
样本的实际数据对总体的数量特征作出具
有一定可靠程度的估计和判断。
第一节 抽样推断的意义
*
*
2、意义:
(1)有些现象是无法进行全面调查的,为了测算全面资料,必须采用抽样调查的方法。例如,对无限总体不能采用全面调查。另外,有些产品的质量检查具有破坏性,不可能进行全面调查,只能采用抽样调查。
第一节 抽样推断的意义
(2)从理论上讲,有些现象虽然可以进行全面调查,但实际上没有必要或很难办到,也要采用抽样调查。
*
*
(3)抽样调查的结果可以对全面调查的结
果进行检查和修正。
第一节 抽样推断的意义
(5)利用抽样调查原理,可以对某些总体的假设进行检验,来判别这种假设的真伪,依决定行动的取舍。
(4)抽样调查可以用于工业生产过程的质
量控制。
*
*
3、特点:
(1)它是由部分推断整体的一种认识方法。
(2)抽样推断建立在随机取样的基础上。
(3)抽样推断运用概率估计的方法。
(4)抽样推断的抽样误差是不可避免的,
但可以事先计算并加以控制。
第一节 抽样推断的意义
*
*
二、统计推断内容
1.统计学:
  描述统计学:研究如何全面收集被研究客观事
物的数据资料并进行简缩处理,描述其群体特征
和数量规律性。
  推断统计学:研究如何有效地收集和使用被
研究客观事物的不完整并且带有随机干扰的数据
资料,以对其群体特征和数量规律性给出尽可能
精确、可靠的推断性结论。
*
*
2.推断统计
  参数估计:由对部分进行观测取得的
数据对研究对象整体的数量特征取值给出
估计方法。
  假设检验:由对部分进行观测取得的
数据对研究对象的数量规律性是否具有某
种指定特征进行检验。
*
*
统计推断的过程
样本
总体
样本统计量
如:样本的平均数、比例、方差
总体平均数、比例、方差等
*
*
(一)全及总体和样本总体
全及总体(Population)是所要研究的对象,又称母体,简称总体,它是指所要认识的,具有某种共同性质的许多单位的集合体。
全及总体单位数(N)一般很大。
三、有关抽样的基本概念
*
*
又称子样。是从全及总体中随机抽取出来
的,做为代表这一总体的部分单位组成的集
合体。样本单位总数用“n”表示。
样本选取的基本原则:
代表性:样本的每个分量都与总体有相同
的分布
独立性:样本的每个分量都是相互独立的
样本(Sample) :
*
*
随着样本容量的增大,样本对总体
的代表性越来越高,并且当样本单位数
足够多时,样本平均数愈接近总体平均
数。
对于一次抽样调查,全及总体是唯
一确定的,样本总体不是这样,样本是
不确定的,一个全及总体可能抽出很多
个样本总体,样本的个数和样本的容量
有关,也和抽样的方法有关。
*
*
(二)参 数 和 统 计 量
参数:
指反映总体数量特征的综合指标。
参数
研究总体中
的数量标志
总体平均数
总体方差
X=
∑X
N
X=
∑XF
∑F
Σ(X-X)
N
2
σ
=
2
Σ(X-X)F
ΣF
2
σ
=
2
研究总体中
的品质标志
总体成数
成数方差
σ
2
= P(1-P)
P =
N1
N
*
*
统计量:
根据样本数据计算的综合指标。
研究数
量标志
样本平均数
x
=
∑x
n
x
=
∑xf
∑f
样本标准差
研究品
质标志
样本成数
成数标准差
n
p
=
n
*
*
(三)样本容量和样本个数
样本容量:
一个样本包含的单位数。用 “n”表示。
一般要求 n ≥30大样本
样本个数:
从一个全及总体中可能抽取的样本数目。
(四)重复抽样和不重复抽样
重复抽样:又称回置抽样。
不重复抽样:又称不回置抽样。
考虑顺序时,可能组成的样本数目:
不考虑顺序时,可能组成的样本数目:
考虑顺序时,可能组成的样本数目:
不考虑顺序时,可能组成的样本数目:
*
*
抽样方法
不重复抽样
考虑顺序
不考虑顺序
4
3
2
是否考虑顺序
1
1考虑顺序的重复抽样;
2不考虑顺序的重复抽样;
3考虑顺序的不重复抽样;
4不考虑顺序的不重复抽样。
重复抽样
*
*
*
*
四、抽样推断的理论基础
1、抽样推断的理论基础:大数(定律)法则
大数定律即关于大量的随机现象具有稳定
性质的法则。它说明如果被研究的总体是由大
量的相互独立的随机因素所构成,而且因素对
总体的影响都相对地小,那么对这些大量因素
加以综合平均的结果,因素的个别影响将相互
抵消,而呈现出它们共同作用的倾向,使总体
具有稳定的性质。
*
*
大数定律证明,如果随机变量总体存在着有限的平均数和方差,则对于充分大的抽样单位为n,可以以几乎趋近于1的概率,来期望平均数与总体平均数的绝对离差为任意小,即对于任意的正数a有:
式中: 为抽样平均数; 为总体平均数;n为抽样单位数。
*
*
2、抽样推断的理论基础:中心极限定理
人们已经知道,在自然界和生产实践中遇到的
大量随机变量都服从或近似服从正态分布,正因
如此,正态分布占有特别重要的地位。那么,如
何判断一个随机变量服从正态分布显得尤为重要。
如经过长期的观测,人们已经知道,很多工程测
量中产生的误差X都是服从正态分布的随机变量。
在什么条件下, , 这是十八世纪
以来概率论研究的中心课题,因而,从二十世纪
二十年代开始,习惯上把研究随机变量和的分布
收敛到正态分布的这类定理称为中心极限定理
(Central Limit Theorems)
*
*
(林德伯格—莱维(Lindeberg-Lévy)中心极限定理)
设 是一相互独立同分布随机变量序列,
则对任意的实数,总有
*
*
本定理的证明在20世纪20年代由林德伯格和莱维给出,因证明较复杂,在此从略。
由定理可知,当n充分大时,
由于它对 的分布形式没有要求,因而得到广泛使用。
*
*
第二节抽样误差
一、抽样误差
二、抽样平均误差
三、抽样极限误差
四、抽样误差的概率度
*
*
第二节 抽 样 误 差
一、抽样误差的含义
(一) 统计误差有两种:
1、登记性误差:由于调查整理过程中登记错误
和计算不准而产生的。
2、代表性误差:由于用样本资料代表总体资料
而产生的,全面调查中不存在这种误差,其中由
于不按照随机原则抽样造成的误差为系统性误差,
由于随机抽样的偶然因素使样本各单位的结构
不足以代表总体各单位的结构,而引起抽样指标和
全及指标之间的绝对离差为抽样误差。
*
*
(二)影响抽样误差大小的因素
1、总体各单位标志值的变异程度
2、样本的单位数
3、抽样方法
4、抽样推断的组织形式
*
*
二、抽样平均误差
1、概念:抽样平均误差是抽样平均数或抽样成数的
标准差。反映了抽样平均数与总体平均数
抽样成数与总体成数的平均误差程度。
2、计算方法:
抽样平均数
的平均误差
抽样成数
平均误差
(以上两个公式实际上就是第四章讲的标准差。
但反映的是样本指标与总体指标的平均离差程度)
*
*
抽样平均数平均误差的计算公式:
采用重复抽样:
此公式说明,抽样平均误差与总体标准差成正比,
与样本容量开方成反比。(当总体标准差未知时,
可用样本标准差代替)
通过计算可说明以下几点:
①样本平均数的平均数等于总体平均数。
②抽样平均数的标准差仅为总体标准差的
③可通过调整样本单位数来控制抽样平均误差。
*
*
例题:假定抽样单位数增加 2 倍、0.5
倍时,抽样平均误差怎样变化?
解:抽样单位数增加 2 倍,即为原来的 3 倍
则:
抽样单位数增加 0.5倍,即为原来的 1.5倍
则:
即:当样本单位数增加2倍时,抽样平均误差为原来的0.577倍。
即:当样本单位数增加0.5倍时,抽样平均误差为原来的0.8165倍。
*
*
采用不重复抽样:
公式表明:抽样平均误差不仅与总体变异程度、
样本容量有关,而且与抽样方法有关。
例题一:
随机抽选某校学生100人,调查他们的体
重。得到他们的平均体重为58公斤,标
准差为10公斤。问抽样推断的平均误差
是多少?
例题二:
某厂生产一种新型灯泡共2000只,随机
抽出400只作耐用时间试验,测试结果
平均使用寿命为4800小时,样本标准差
为300小时,求抽样推断的平均误差?
*
*
例题一解:
即:当根据样本学生的平均体重估计全部学生的平均
体重时,抽样平均误差为1公斤。
例题二解:
计算结果表明:根据部分产品推断全部产品的平均使用寿命
时,采用不重复抽样比重复抽样的平均误差要小。
已知:
则:
已知:
则:
*
*
抽样成数平均误差的计算公式
采用重复抽样:
采用不重复抽样:
例题三:
某校随机抽选400名学生,发现戴眼镜的学
生有80人。根据样本资料推断全部学生中戴
眼镜的学生所占比重时,抽样误差为多大?
例题四:
一批食品罐头共60000桶,随机抽查300桶,发现有6桶不合格,求合格品率的抽样平均误差?
*
*
例 题 三 解:
已知:
则:样本成数
即:根据样本资料推断全部学生中戴眼镜的学
生所占的比重时,推断的平均误差为2%。
*
*
例 题 四 解:
已知:
则:样本合格率
计算结果表明:不重复抽样的平均误差小于重复抽样,
但是“N”的数值越大,则两种方法计算
的抽样平均误差就越接近。
*
*
三、抽 样 极 限 误 差
含义:
抽样极限误差指在进行抽样估计时,根据研究
对象的变异程度和分析任务的要求所确定的样
本指标与总体指标之间可允许的最大误差范围。
计算方法:
它等于样本指标可允许变动的上限
或下限与总体指标之差的绝对值。
=
Δ
p
│p - P│
p
-Δ ≤P≤ p+Δ
p
p
抽样平均数极限误差:
抽样成数极限误差:


*
*
四、抽样误差的概率度
含义:
抽样误差的概率度是测量抽样估计可靠
程度的一个参数。用符号“ t ”表示。
公式表示:
t =
Δ
μ
Δ
= t μ
(t 是极限误差与抽样平均误差的比值)
(极限误差是 t 倍的抽样平均误差)
上式可变形为:
*
*
第三节 抽样估计的方法
一、作为优良估计量的条件
总体参数优良估计的标准
无偏性
一致性
有效性
*
*
无偏性 (unbiasedness)
P( )
B
A
无偏
有偏

是未知参数 的一个点估计量,若
满足
则称
是 的无偏估计量,否则称为有偏估计量
*
*
一致性
(consistency)
一致性:随着样本容量的增大,估计量的值越来越接近被估计的总体参数
A
B
较小的样本容量
较大的样本容量
P( )
*
*
有效性
(efficiency)
有效性:对同一总体参数的两个无偏点估计
量,有更小标准差的估计量更有效
A
B
的抽样分布
的抽样分布
P( )
*
*
第三节 抽样估计的方法
二、总体参数的点估计
总体参数点估计的特点:
直接使样本指标等于总体指标:即令
*
*
三、总体参数的区间估计
(一)总体参数区间估计的特点:
第三节 抽样估计的方法
区间估计三要素
估计值
抽样误差范围
概率保证程度
*
*
1、根据给定的概率F(t),推算抽样
极限误差及总体参数的可能范围
分 析 步 骤:
(1)抽取样本,计算样本指标。
(2)根据给定的F(t)查表求得概率度 t 。
(3)根据概率度和抽样平均误差计算
抽样极限误差。
(4)计算被估计值的上、下限,对总体参数
作出区间估计。
(二)总体参数区间估计的方法
*
*
2、根据给定的抽样误差范围,
求概率保证程度
分析步骤:
(1)抽取样本,计算抽样指标。
(2)根据给定的极限误差范围估计总体
参数的上限和下限。
(3)计算概率度。
(4)查表求出概率F(t),并对总体参
数作出区间估计。
*
*
某农场进行小麦产量抽样调查,小麦
播种总面积为1万亩,采用不重复简单
随机抽样,从中抽选了100亩作为样本
进行实割实测,测得样本平均亩产400
斤,方差144斤。
1、以95.45%的可靠性推断该农场小
麦平均亩产可能在多少斤之间?
要求计算:
例 题 一:
2、以99.73%的可靠性推断该农场小
麦平均亩产可能在多少斤之间?
*
*
例题一解题过程:
已知:N=10000 n=100
问题一解:
1、计算抽样平均误差
2、计算抽样极限误差
3、计算总体平均数的置信区间
上限:
下限:
即:以95.45%的可靠性估计该农场小麦平均亩产量在
397.62斤至402.38斤之间.
*
*
同上解题过程:
已知:N=10000 n=100
问题二解:
1、计算抽样平均误差
2、计算抽样极限误差
3、计算总体平均数的置信区间
上限:
下限:
即:以99.73%的可靠性估计该农场小麦平均亩产量在
396.43斤至403.57斤之间.
*
*
例 题 二:
某纱厂某时期内生产了10万个单位的纱,按纯随机
抽样方式抽取2000个单位检验,检验结果合格率为
95%,废品率为5%,试以95%的把握程度,估计全部
纱合格品率的区间范围及合格品数量的区间范围?
已知:
区间下限:
区间下限:
*
*
例 题 三:
为调查农民生活状况,在某地区5000户农民
中,按不重复简单随机抽样法,抽取400户
进行调查,得知这400户中拥有彩色电视机
的农户为87户。
要求计算:
1、以95%的把握程度估计该地区全部农户
中拥有彩色电视机的农户在多大比例之间?
*
*
例 题 三 的 问 题 一 解:
已知:N=5000
n=400
1、计算样本成数:
2、计算抽样平均误差:
3、计算抽样极限误差:
4、计算总体P的置信区间:
下限:
上限:
即:以95%的把握程度估计该地区农户中拥有彩电的农户在
17.87%至25.63%之间。
*
*
(三)样本单位数的计算方法:
通过抽样极限误差公式计算必要的样本单位数。
重复抽样:
不重复抽样:
抽样平均数
抽样成数
*
*
某农场进行小麦产量抽样调查,小麦
播种总面积为1万亩,采用不重复简单
随机抽样,从中抽选了100亩作为样本
进行实割实测,测得样本平均亩产400
斤,方差144斤。要求计算:
3、若概率保证程度为95.45%不变,
要求抽样允许误差不超过1斤,问至少
应抽多少亩作为样本?
接 例 题 一:
*
*
问题三解:
已知:
则样本单位数:
即:当
至少应抽544.6亩作为样本。
*
*
接 例 题 三:
为调查农民生活状况,在某地区5000户农民
中,按不重复简单随机抽样法,抽取400户
进行调查,得知这400户中拥有彩色电视机
的农户为87户。以95%的把握程度。
要求计算:
2、抽样允许误差不超过0.02,其它条件不变,
问应抽多少户作为样本?
*
*
解:

其他条件不变时:
=1635(户)
*
*
一﹑简单随机抽样 (simple random sampling)
从总体N个单位中随机地抽取n个单位作为样本,使得每一个容量为样本都有相同的机会(概率)被抽中
抽取元素的具体方法有重复抽样和不重复抽样
特点
简单、直观,在抽样框完整时,可直接从中抽取样本
用样本统计量对目标量进行估计比较方便
局限性
当N很大时,不易构造抽样框
抽出的单位很分散,给实施调查增加了困难
没有利用其他辅助信息以提高估计的效率
第四节 抽样的组织形式
*
*
二﹑分层抽样
(stratified sampling)
将抽样单位按某种特征或某种规则划分为不同的层,然后从不同的层中独立、随机地抽取样本
优点
保证样本的结构与总体的结构比较相近,从而提高估计的精度
组织实施调查方便
既可以对总体参数进行估计,也可以对各层的目标量进行估计
*
*
三﹑整群抽样
(cluster sampling)
将总体中若干个单位合并为组(群),抽样时直接抽取群,然后对中选群中的所有单位全部实施调查
特点
抽样时只需群的抽样框,可简化工作量
调查的地点相对集中,节省调查费用,方便调查的实施
缺点是估计的精度较差
*
*
四﹑系统抽样
(systematic sampling)
将总体中的所有单位(抽样单位)按一定顺序排列,在规定的范围内随机地抽取一个单位作为初始单位,然后按事先规定好的规则确定其他样本单位
先从数字1到k之间随机抽取一个数字r作为初始单位,以后依次取r+k,r+2k…等单位
优点:操作简便,可提高估计的精度
缺点:对估计量方差的估计比较困难
*
*
五﹑二阶抽样与多阶段抽样 (two&multi-stage sampling)
先抽取群,但并不是调查群内的所有单位,而是再进行一步抽样,从选中的群中抽取出若干个单位进行调查
群是初级抽样单位,第二阶段抽取的是最终抽样单位。将该方法推广,使抽样的段数增多,就称为多阶段抽样
不需要对每个高级别的抽样单元建立关于低级别抽样单元的抽样框,节约调查费用
需要包含所有低阶段抽样单位的抽样框;同时由于实行了再抽样,使调查单位在更广泛的范围内展开
在大规模的抽样调查中,经常被采用的方法
*
*
抽样方法
*
*
抽样调查设计
1.抽样方案设计
抽样方法的选择和组合
样本容量的确定
2.调查方法确定
例:问卷调查、座谈会调查、电话调查等
3.估计量的构造
建立由所得数据能够给出目标量估计值的估计方
法估计量具有较好的概率性质,例如无偏性、方差
小构造估计量方差的估计量采用自加权估计量

展开更多......

收起↑

资源预览