资源简介 (共60张PPT)**第七章 抽样推断第一节 抽样推断的意义第二节 抽样误差第三节 抽样推断的方法第四节 抽样调查的组织方式**一、抽样推断的概念和特点1、概念:抽样推断是按随机原则从全部研究对象中抽取部分单位(样本)进行观察,并根据样本的实际数据对总体的数量特征作出具有一定可靠程度的估计和判断。第一节 抽样推断的意义**2、意义:(1)有些现象是无法进行全面调查的,为了测算全面资料,必须采用抽样调查的方法。例如,对无限总体不能采用全面调查。另外,有些产品的质量检查具有破坏性,不可能进行全面调查,只能采用抽样调查。第一节 抽样推断的意义(2)从理论上讲,有些现象虽然可以进行全面调查,但实际上没有必要或很难办到,也要采用抽样调查。**(3)抽样调查的结果可以对全面调查的结果进行检查和修正。第一节 抽样推断的意义(5)利用抽样调查原理,可以对某些总体的假设进行检验,来判别这种假设的真伪,依决定行动的取舍。(4)抽样调查可以用于工业生产过程的质量控制。**3、特点:(1)它是由部分推断整体的一种认识方法。(2)抽样推断建立在随机取样的基础上。(3)抽样推断运用概率估计的方法。(4)抽样推断的抽样误差是不可避免的,但可以事先计算并加以控制。第一节 抽样推断的意义**二、统计推断内容1.统计学: 描述统计学:研究如何全面收集被研究客观事物的数据资料并进行简缩处理,描述其群体特征和数量规律性。 推断统计学:研究如何有效地收集和使用被研究客观事物的不完整并且带有随机干扰的数据资料,以对其群体特征和数量规律性给出尽可能精确、可靠的推断性结论。**2.推断统计 参数估计:由对部分进行观测取得的数据对研究对象整体的数量特征取值给出估计方法。 假设检验:由对部分进行观测取得的数据对研究对象的数量规律性是否具有某种指定特征进行检验。**统计推断的过程样本总体样本统计量如:样本的平均数、比例、方差总体平均数、比例、方差等**(一)全及总体和样本总体全及总体(Population)是所要研究的对象,又称母体,简称总体,它是指所要认识的,具有某种共同性质的许多单位的集合体。全及总体单位数(N)一般很大。三、有关抽样的基本概念**又称子样。是从全及总体中随机抽取出来的,做为代表这一总体的部分单位组成的集合体。样本单位总数用“n”表示。样本选取的基本原则:代表性:样本的每个分量都与总体有相同的分布独立性:样本的每个分量都是相互独立的样本(Sample) :**随着样本容量的增大,样本对总体的代表性越来越高,并且当样本单位数足够多时,样本平均数愈接近总体平均数。对于一次抽样调查,全及总体是唯一确定的,样本总体不是这样,样本是不确定的,一个全及总体可能抽出很多个样本总体,样本的个数和样本的容量有关,也和抽样的方法有关。**(二)参 数 和 统 计 量参数:指反映总体数量特征的综合指标。参数研究总体中的数量标志总体平均数总体方差X=∑XNX=∑XF∑FΣ(X-X)N2σ=2Σ(X-X)FΣF2σ=2研究总体中的品质标志总体成数成数方差σ2= P(1-P)P =N1N**统计量:根据样本数据计算的综合指标。研究数量标志样本平均数x=∑xnx=∑xf∑f样本标准差研究品质标志样本成数成数标准差np=n**(三)样本容量和样本个数样本容量:一个样本包含的单位数。用 “n”表示。一般要求 n ≥30大样本样本个数:从一个全及总体中可能抽取的样本数目。(四)重复抽样和不重复抽样重复抽样:又称回置抽样。不重复抽样:又称不回置抽样。考虑顺序时,可能组成的样本数目:不考虑顺序时,可能组成的样本数目:考虑顺序时,可能组成的样本数目:不考虑顺序时,可能组成的样本数目:**抽样方法不重复抽样考虑顺序不考虑顺序432是否考虑顺序11考虑顺序的重复抽样;2不考虑顺序的重复抽样;3考虑顺序的不重复抽样;4不考虑顺序的不重复抽样。重复抽样****四、抽样推断的理论基础1、抽样推断的理论基础:大数(定律)法则大数定律即关于大量的随机现象具有稳定性质的法则。它说明如果被研究的总体是由大量的相互独立的随机因素所构成,而且因素对总体的影响都相对地小,那么对这些大量因素加以综合平均的结果,因素的个别影响将相互抵消,而呈现出它们共同作用的倾向,使总体具有稳定的性质。**大数定律证明,如果随机变量总体存在着有限的平均数和方差,则对于充分大的抽样单位为n,可以以几乎趋近于1的概率,来期望平均数与总体平均数的绝对离差为任意小,即对于任意的正数a有:式中: 为抽样平均数; 为总体平均数;n为抽样单位数。**2、抽样推断的理论基础:中心极限定理人们已经知道,在自然界和生产实践中遇到的大量随机变量都服从或近似服从正态分布,正因如此,正态分布占有特别重要的地位。那么,如何判断一个随机变量服从正态分布显得尤为重要。如经过长期的观测,人们已经知道,很多工程测量中产生的误差X都是服从正态分布的随机变量。在什么条件下, , 这是十八世纪以来概率论研究的中心课题,因而,从二十世纪二十年代开始,习惯上把研究随机变量和的分布收敛到正态分布的这类定理称为中心极限定理(Central Limit Theorems)**(林德伯格—莱维(Lindeberg-Lévy)中心极限定理)设 是一相互独立同分布随机变量序列,则对任意的实数,总有**本定理的证明在20世纪20年代由林德伯格和莱维给出,因证明较复杂,在此从略。由定理可知,当n充分大时,由于它对 的分布形式没有要求,因而得到广泛使用。**第二节抽样误差一、抽样误差二、抽样平均误差三、抽样极限误差四、抽样误差的概率度**第二节 抽 样 误 差一、抽样误差的含义(一) 统计误差有两种:1、登记性误差:由于调查整理过程中登记错误和计算不准而产生的。2、代表性误差:由于用样本资料代表总体资料而产生的,全面调查中不存在这种误差,其中由于不按照随机原则抽样造成的误差为系统性误差,由于随机抽样的偶然因素使样本各单位的结构不足以代表总体各单位的结构,而引起抽样指标和全及指标之间的绝对离差为抽样误差。**(二)影响抽样误差大小的因素1、总体各单位标志值的变异程度2、样本的单位数3、抽样方法4、抽样推断的组织形式**二、抽样平均误差1、概念:抽样平均误差是抽样平均数或抽样成数的标准差。反映了抽样平均数与总体平均数抽样成数与总体成数的平均误差程度。2、计算方法:抽样平均数的平均误差抽样成数平均误差(以上两个公式实际上就是第四章讲的标准差。但反映的是样本指标与总体指标的平均离差程度)**抽样平均数平均误差的计算公式:采用重复抽样:此公式说明,抽样平均误差与总体标准差成正比,与样本容量开方成反比。(当总体标准差未知时,可用样本标准差代替)通过计算可说明以下几点:①样本平均数的平均数等于总体平均数。②抽样平均数的标准差仅为总体标准差的③可通过调整样本单位数来控制抽样平均误差。**例题:假定抽样单位数增加 2 倍、0.5倍时,抽样平均误差怎样变化?解:抽样单位数增加 2 倍,即为原来的 3 倍则:抽样单位数增加 0.5倍,即为原来的 1.5倍则:即:当样本单位数增加2倍时,抽样平均误差为原来的0.577倍。即:当样本单位数增加0.5倍时,抽样平均误差为原来的0.8165倍。**采用不重复抽样:公式表明:抽样平均误差不仅与总体变异程度、样本容量有关,而且与抽样方法有关。例题一:随机抽选某校学生100人,调查他们的体重。得到他们的平均体重为58公斤,标准差为10公斤。问抽样推断的平均误差是多少?例题二:某厂生产一种新型灯泡共2000只,随机抽出400只作耐用时间试验,测试结果平均使用寿命为4800小时,样本标准差为300小时,求抽样推断的平均误差?**例题一解:即:当根据样本学生的平均体重估计全部学生的平均体重时,抽样平均误差为1公斤。例题二解:计算结果表明:根据部分产品推断全部产品的平均使用寿命时,采用不重复抽样比重复抽样的平均误差要小。已知:则:已知:则:**抽样成数平均误差的计算公式采用重复抽样:采用不重复抽样:例题三:某校随机抽选400名学生,发现戴眼镜的学生有80人。根据样本资料推断全部学生中戴眼镜的学生所占比重时,抽样误差为多大?例题四:一批食品罐头共60000桶,随机抽查300桶,发现有6桶不合格,求合格品率的抽样平均误差?**例 题 三 解:已知:则:样本成数即:根据样本资料推断全部学生中戴眼镜的学生所占的比重时,推断的平均误差为2%。**例 题 四 解:已知:则:样本合格率计算结果表明:不重复抽样的平均误差小于重复抽样,但是“N”的数值越大,则两种方法计算的抽样平均误差就越接近。**三、抽 样 极 限 误 差含义:抽样极限误差指在进行抽样估计时,根据研究对象的变异程度和分析任务的要求所确定的样本指标与总体指标之间可允许的最大误差范围。计算方法:它等于样本指标可允许变动的上限或下限与总体指标之差的绝对值。=Δp│p - P│p-Δ ≤P≤ p+Δpp抽样平均数极限误差:抽样成数极限误差:≤≤**四、抽样误差的概率度含义:抽样误差的概率度是测量抽样估计可靠程度的一个参数。用符号“ t ”表示。公式表示:t =ΔμΔ= t μ(t 是极限误差与抽样平均误差的比值)(极限误差是 t 倍的抽样平均误差)上式可变形为:**第三节 抽样估计的方法一、作为优良估计量的条件总体参数优良估计的标准无偏性一致性有效性**无偏性 (unbiasedness)P( )BA无偏有偏设是未知参数 的一个点估计量,若满足则称是 的无偏估计量,否则称为有偏估计量**一致性(consistency)一致性:随着样本容量的增大,估计量的值越来越接近被估计的总体参数AB较小的样本容量较大的样本容量P( )**有效性(efficiency)有效性:对同一总体参数的两个无偏点估计量,有更小标准差的估计量更有效AB的抽样分布的抽样分布P( )**第三节 抽样估计的方法二、总体参数的点估计总体参数点估计的特点:直接使样本指标等于总体指标:即令**三、总体参数的区间估计(一)总体参数区间估计的特点:第三节 抽样估计的方法区间估计三要素估计值抽样误差范围概率保证程度**1、根据给定的概率F(t),推算抽样极限误差及总体参数的可能范围分 析 步 骤:(1)抽取样本,计算样本指标。(2)根据给定的F(t)查表求得概率度 t 。(3)根据概率度和抽样平均误差计算抽样极限误差。(4)计算被估计值的上、下限,对总体参数作出区间估计。(二)总体参数区间估计的方法**2、根据给定的抽样误差范围,求概率保证程度分析步骤:(1)抽取样本,计算抽样指标。(2)根据给定的极限误差范围估计总体参数的上限和下限。(3)计算概率度。(4)查表求出概率F(t),并对总体参数作出区间估计。**某农场进行小麦产量抽样调查,小麦播种总面积为1万亩,采用不重复简单随机抽样,从中抽选了100亩作为样本进行实割实测,测得样本平均亩产400斤,方差144斤。1、以95.45%的可靠性推断该农场小麦平均亩产可能在多少斤之间?要求计算:例 题 一:2、以99.73%的可靠性推断该农场小麦平均亩产可能在多少斤之间?**例题一解题过程:已知:N=10000 n=100问题一解:1、计算抽样平均误差2、计算抽样极限误差3、计算总体平均数的置信区间上限:下限:即:以95.45%的可靠性估计该农场小麦平均亩产量在397.62斤至402.38斤之间.**同上解题过程:已知:N=10000 n=100问题二解:1、计算抽样平均误差2、计算抽样极限误差3、计算总体平均数的置信区间上限:下限:即:以99.73%的可靠性估计该农场小麦平均亩产量在396.43斤至403.57斤之间.**例 题 二:某纱厂某时期内生产了10万个单位的纱,按纯随机抽样方式抽取2000个单位检验,检验结果合格率为95%,废品率为5%,试以95%的把握程度,估计全部纱合格品率的区间范围及合格品数量的区间范围?已知:区间下限:区间下限:**例 题 三:为调查农民生活状况,在某地区5000户农民中,按不重复简单随机抽样法,抽取400户进行调查,得知这400户中拥有彩色电视机的农户为87户。要求计算:1、以95%的把握程度估计该地区全部农户中拥有彩色电视机的农户在多大比例之间?**例 题 三 的 问 题 一 解:已知:N=5000n=4001、计算样本成数:2、计算抽样平均误差:3、计算抽样极限误差:4、计算总体P的置信区间:下限:上限:即:以95%的把握程度估计该地区农户中拥有彩电的农户在17.87%至25.63%之间。**(三)样本单位数的计算方法:通过抽样极限误差公式计算必要的样本单位数。重复抽样:不重复抽样:抽样平均数抽样成数**某农场进行小麦产量抽样调查,小麦播种总面积为1万亩,采用不重复简单随机抽样,从中抽选了100亩作为样本进行实割实测,测得样本平均亩产400斤,方差144斤。要求计算:3、若概率保证程度为95.45%不变,要求抽样允许误差不超过1斤,问至少应抽多少亩作为样本?接 例 题 一:**问题三解:已知:则样本单位数:即:当至少应抽544.6亩作为样本。**接 例 题 三:为调查农民生活状况,在某地区5000户农民中,按不重复简单随机抽样法,抽取400户进行调查,得知这400户中拥有彩色电视机的农户为87户。以95%的把握程度。要求计算:2、抽样允许误差不超过0.02,其它条件不变,问应抽多少户作为样本?**解:当其他条件不变时:=1635(户)**一﹑简单随机抽样 (simple random sampling)从总体N个单位中随机地抽取n个单位作为样本,使得每一个容量为样本都有相同的机会(概率)被抽中抽取元素的具体方法有重复抽样和不重复抽样特点简单、直观,在抽样框完整时,可直接从中抽取样本用样本统计量对目标量进行估计比较方便局限性当N很大时,不易构造抽样框抽出的单位很分散,给实施调查增加了困难没有利用其他辅助信息以提高估计的效率第四节 抽样的组织形式**二﹑分层抽样(stratified sampling)将抽样单位按某种特征或某种规则划分为不同的层,然后从不同的层中独立、随机地抽取样本优点保证样本的结构与总体的结构比较相近,从而提高估计的精度组织实施调查方便既可以对总体参数进行估计,也可以对各层的目标量进行估计**三﹑整群抽样(cluster sampling)将总体中若干个单位合并为组(群),抽样时直接抽取群,然后对中选群中的所有单位全部实施调查特点抽样时只需群的抽样框,可简化工作量调查的地点相对集中,节省调查费用,方便调查的实施缺点是估计的精度较差**四﹑系统抽样(systematic sampling)将总体中的所有单位(抽样单位)按一定顺序排列,在规定的范围内随机地抽取一个单位作为初始单位,然后按事先规定好的规则确定其他样本单位先从数字1到k之间随机抽取一个数字r作为初始单位,以后依次取r+k,r+2k…等单位优点:操作简便,可提高估计的精度缺点:对估计量方差的估计比较困难**五﹑二阶抽样与多阶段抽样 (two&multi-stage sampling)先抽取群,但并不是调查群内的所有单位,而是再进行一步抽样,从选中的群中抽取出若干个单位进行调查群是初级抽样单位,第二阶段抽取的是最终抽样单位。将该方法推广,使抽样的段数增多,就称为多阶段抽样不需要对每个高级别的抽样单元建立关于低级别抽样单元的抽样框,节约调查费用需要包含所有低阶段抽样单位的抽样框;同时由于实行了再抽样,使调查单位在更广泛的范围内展开在大规模的抽样调查中,经常被采用的方法**抽样方法**抽样调查设计1.抽样方案设计抽样方法的选择和组合样本容量的确定2.调查方法确定例:问卷调查、座谈会调查、电话调查等3.估计量的构造建立由所得数据能够给出目标量估计值的估计方法估计量具有较好的概率性质,例如无偏性、方差小构造估计量方差的估计量采用自加权估计量 展开更多...... 收起↑ 资源预览