资源简介 (共77张PPT)第6章抽样推断2016/3/122第6章 抽样推断抽样推断的基本概念抽样误差抽样推断的方法抽样的组织形式2016/3/1236.1 抽样推断的基本概念抽样推断,从其内涵来说,包括抽样调查和抽样推断两部分,前者着重调查,后者着重推断。抽样推断是在抽样调查的基础上利用样本的实际资料计算出的样本数据,并运用概率估计方法,推算总体相应的数量指标的一种统计分析方法。2016/3/124抽样推断特点是由部分推算整体的一种认识方法。建立在随机取样的基础上。运用概率估计的方法,利用样本指标来估计总体参数。抽样推断的误差是可以事先控制的,用样本指标值推断总体指标值是存在一定误差的。2016/3/125抽样推断的作用应用于某些不可能作全面调查或很难作全面调查的场合。在可以使用全面调查的场合,抽样调查仍有其独特的作用。用于假设检验。2016/3/1261.总体(population)全及总体,所研究现象的整体,即包括所要调查的所有单位。N=1000总体是唯一的,确定的6.1.1 总体和样本2016/3/1272.样本(sample)子样,从全及总体中随机抽取出来,作为代表这一总体的那部分单位组成的集合体。样本不是确定的。也不是唯一的,而是可变的。n=502016/3/1286.1.2 参数和统计量1.参数(parameter)。根据总体各单位的标志值或标志属性计算的,反映总体数量特征的综合指标称为全及指标。全及指标是总体变量的函数,其数值是由总体各单位的标志值决定的。由于总体是唯一确定的,因此,全及指标也是唯一确定的,所以也称参数。常用的参数有总体平均数,总体成数、总体方差和总体标准差。2016/3/129(1)总体平均数 Population mean对于变量总体,由于各单位的标志可以用数量表示,因此可以计算总体平均数,通常用 表示。设X为总体的某一变量,其N项变量值为X1、X2、…Xn,则总体平均数为:2016/3/1210(2)总体成数 Proportion对于属性总体,由于各单位标志不能用数量表示,因此总体参数常以成数或比重来表示。通常以P表示总体中具有某种标志表现即“是”的单位数在总体单位数中所占的比重;以Q表示不具有某种标志表现即“非”的单位数所占的比重。设总体N个单位中,有N1个单位具有某种标志表现,N0个单位不具有某种标志表现,且N=N1+N0,则总体成数为:2016/3/1211红光灯泡厂生产的10000只灯泡中,有9550只是合格品,有450只是不合格产品,则总体成数即灯泡的合格率和不合格率分别为:统计上把只表现为“是”与“非”的标志称为是非标志,也称交替标志,如性别标志等。2016/3/1212(3)总体方差和总体标准差Variance & standard deviation用“1”表示“是”,用“0”表示“非”,那么“是”的成数就可视为是非标志的平均数,从而计算出属性总体的方差和标准差,即=(1-P)2P+(0-P)2Q=Q2P+P2Q=PQ(P+Q)=PQ=P(1-P)2016/3/12132.统计量(statistic) 。根据样本各单位标志值计算的反映样本特征的指标称为统计量,也称作样本指标sample statistic 。它是用来估计总体参数的。与总体参数相对应,统计量主要有2016/3/1214样本平均数 表示样本内各单位某一标志值的一般水平样本方差,反映样本中各单位标志值的离散程度,从而可说明样本平均数的代表性大小,记作S2,称S为样本标准差或均方差样本成数,指具有某种性质的单位在样本中所占比重(如抽样产品的合格率),记作p;样本成数的方差是p(1-p)2016/3/1215(1)样本平均数 Sample mean(2)样本成数(3)样本方差和样本标准差 Sample variance2016/3/1216样本是非标志的方差S2和标准差S的计算公式分别为2016/3/12176.1.3 样本容量和样本个数是两个有联系但又完全不同的概念。样本容量是指一个样本所包含位数样本个数又称样本可能数目。是指从一个总体上可能抽取的样本个数。2016/3/12186.1.4 重复抽样和不重复抽样重复抽样又叫重置sampling with replacement 抽样,也叫做有放回的抽样或重置抽样不重复抽样又叫不重置sampling without replacement 也叫做无放回抽样或非重置抽样样本可能数目样本可能数目2016/3/12196.2 抽样误差6.2.1 抽样误差的概念抽样误差(sampling error)是指由于随机抽样的偶然因素使各单位的结构不足以代表总体各单位的结构,而引起抽样指标和全及指标之间的绝对离差。是一种由于随机抽样引起的偶然的代表性误差,或随机误差random error \chance error。抽样误差不可消除,但可以计算和控制。2016/3/1220抽样调查中误差有以下两个来源一个是登记性误差。也叫调查误差data recording error,是指在调查登记过程中发生的误差,这类误差是可以避免的。二是代表性误差representative error,在抽样调查中,是指由于用抽样指标去代替总体指标时所产生的误差。代表性误差的发生的两种情况:第一,非随机的代表性误差;第二,随机性误差。2016/3/12216.2.2 抽样平均误差standard error是根据随机原则抽样时,所有可能出现的样本平均数的标准差。它反映样本平均数(样本成数)与总体平均数(总体成数)的平均误差程度,常用μ表示。2016/3/12221.抽样平均数的平均误差(1)重复抽样的抽样平均误差计算公式但是,σ是全及总体标准差,这是不知道的。如果知道,就无需进行抽样调查了。在这种情况下可用样本的方差s2来代替。其计算公式如下2016/3/1223(2)不重复抽样的抽样平均误差计算公式当全及总体单位数N很大时,N-1接近于N,即可用N代替,则上列公式可简化如下2016/3/1224从某学院2015级的2000名学生中,按简单随机抽样方式抽取40名学生,对公共理论课的考试成绩进行检查,得知其平均成绩为78.75分,标准差为12.13分,试根据重复抽样和不重复抽样的方法分别计算抽样平均误差。(1)按重复抽样计算抽样平均误差(2)按不重复抽样计算抽样平均误差2016/3/12252.抽样成数的抽样平均误差(1)重复抽样的抽样平均误差计算公式(2)不重复抽样的抽样平均误差计算公式2016/3/1226以上两个公式中的P,是总体成数,这是不知道的。而P(1-P)是总体方差,它等于 ,即也是不知道的。在这种情况下,可用样本的成数P和样本方差P(1-P)来代替,或者用过去类似调查的成数和成数方差来代替。成数方差的最大值为2016/3/1227从40000件产品中,随机抽取200件进行检验,结果有10件不合格,求合格率的抽样平均误差。(1)按重复抽样计算抽样平均误差(2)按不重复抽样计算抽样平均误差2016/3/12286.2.3 抽样极限误差1.抽样极限误差的概念抽样极限误差又称抽样允许误差,是指样本指标与总体指标之间产生抽样误差被允许的最大可能范围,它是根据所研究对象的变异程度和分析任务的要求来确定的可允许的误差范围,凡是在这个范围内的数字都算有效,统计上把这种可允许的误差范围称为抽样极限误差。2016/3/1229根据样本指标估计总体指标必会产生误差,但误差不能太大,以免使抽样估计失去意义;但误差也不是愈小愈好,因为这样就要增加样本单位数,必然提高很多费用,所以要确定一个误差范围。2016/3/1230抽样极限误差通常用样本指标可允许变动的上限或下限与总体指标的绝对离差表示。设和分别表示抽样平均数和抽样成数的抽样极限误差,则有上式可变换为下列不等式上式表明总体平均数 是以抽样平均数 为中心,在 的范围内变动。总体成数P也是如此,这个变动范围被称为估计区间。2016/3/12312.抽样误差的概率度基于概率估计的要求,抽样极限误差通常需要以抽样平均误差或为标准单位来衡量。把极限误差或分别除以或,得相对数t,它表示误差范围为抽样平均误差的若干倍,t是测量估计可靠程度的一个参数,称为抽样平均误差的概率度。2016/3/12326.3 抽样推断的方法抽样估计是指利用实际调查计算的样本指标值来估计相应的总体指标的数值。由于总体指标是表明总体数量特征的参数,所以也称为参数估计。总体参数估计有点估计和区间估计两种2016/3/12331.点估计。点估计(point estimation)的基本特点是,根据总体指标的结构形式设计样本指标作为总体参数的估计量,并以样本指标的实际值作为相应总体参数的估计值(例如以样本平均数的实际值作为相应总体平均数的估计值,以样本成数的实际值作为相应总体成数的估计值等)。2016/3/1234When the estimation of a population is expressed as a single numerical value, it is referred to as a point estimation.2016/3/1235常用概率度与概率保证度表概率度t 概率F(t) (%)1.00 2.00 3.00 1.64 1.96 2.58 68.2795.4599.7390.0095.0099.002016/3/1236抽样估计的优劣标准无偏性 unbiasedness有效性 efficiency一致性 consistency2016/3/1237无偏性 unbiasedness抽样指标的平均数等于全及指标。即:抽样指标的估计,平均说来是没有误差的。2016/3/1238有效性 efficiency作为优良估计量的方差应比其它估计量的方差小。即:方差最小原则。2016/3/1239一致性 consistency当样本容量充分大时,抽样指标也充分地靠近全及指标。即:n→N时,△→02016/3/12402.区间估计区间估计(interval estimation)是在一定的概率把握程度下,根据样本指标和抽样极限误差去估计总体指标所在可能范围的方法。在总体指标的区间估计公式中,有两个要素,一个是置信区间,另一个是置信概率。2016/3/1241置信区间(confidence interval)又称为估计区间,是指由低限到高限两个数值所构成的可能范围,由样本指标和极限误差组成。置信概率(confidence probability)是指区间估计的概率保证程度,也称为置信度。它是表明样本指标与总体指标的误差不超过一定范围的概率有多大估计的准确性问题估计的可靠性问题2016/3/1242置信区间2016/3/1243总体平均数的估计就是用抽样平均数来估计总体平均数考试成绩(分)学生人数(人)60以下1060-702070-802280-904090以上8按重复抽样方法以95.45%概率估计该校学生英语平均成绩的范围。下限= =74.32分 上限= =78.88分在95.45%概率保证程度下,该校学生英语考试的平均成绩在74.32-78.88分之间。2016/3/1244总体成数的估计就是用抽样成数来估计总体成数仍按上例资料,以同样的概率估计该校学生成绩在80分以上的学生所占的比重的范围。解:样本合格率为抽样平均误差为:抽样极限误差为:在95.45%的概率保证程度下,该校学生成绩在80分以上的学生所占的比重的范围在38.01%-57.99%之间。2016/3/12456.3.2 样本容量的确定1.确定必要样本容量的意义样本单位数越多,样本的代表性越大,抽样误差越小,抽样估计就越可靠。但样本容量过多会增加不必要的人力、物力和费用开支,造成浪费。样本容量减少,又会使抽样误差增大,达不到所需要的准确程度。基本原则是,在保证预期的抽样估计可靠程度的要求下,抽取的样本单位数不宜过多。2016/3/12462.影响样本容量的因素(1)总体各单位标志变异程度。总体标志变异程度大,要求样本容量大些;反之,总体标志变异程度小,样本容量可以小些。(2)抽样方法。在其他条件相同的情况下,重复抽样要比不重复抽样多抽取一些样本单位。(3)抽样组织形式 。一般来说,类型抽样和等距抽样的样本容量要小于简单随机抽样的样本容量。2016/3/1247(4)极限误差的大小。如果允许误差大,样本容量就小;反之,如果允许误差小,样本容量就大。(5)抽样估计的可靠程度即概率F(t)的大小。如果估计的可靠程度要求越高即F(t)越大,样本容量就越多;反之,如果估计的可靠程度要求越低,即F(t)越小,样本容量就越少。2016/3/12483.必要样本容量的计算公式(1)平均数的必要样本容量的计算公式在重复抽样的条件下为:在不重复抽样的条件下为:2016/3/1249(2)成数的必要样本容量的计算公式在重复抽样的条件下为:在不重复抽样的条件下为:2016/3/1250【实例】对某罐头厂生产的罐头质量进行抽样调查,抽样极限误差为5%,概率为0.9545,并知过去进行同样抽样调查,其不合格率为10%,试求必要的样本容量。根据题意可知:t=2、P=90%、=5%在重复抽样的条件下:(盒)2016/3/12514.计算必要样本容量应注意的问题第一,在实际中采用不重复抽样。但常用重复抽样下的公式近似代替。第二,若σ2,P未知,其处理方式是: ①用过去(近期)的数据代替;②用样本数据代替;③取P=0.5或最接近0.5的P值。第三,对同一总体,若求出的nx、np不等,这时取较大的一个作为必要抽样数目,以同时满足作两种调查的需要。第四,在实际工作中,常使用重复抽样下的简单随机抽样公式。2016/3/12526.3.3 抽样的组织形式抽样的基本组织形式可分为简单随机抽样(纯随机抽样)、类型抽样、机械抽样、整群抽样等几种。2016/3/12531 简单随机抽样simple random sampling又称纯随机抽样。它是按随机原则直接从总体N个单位中抽取n个单位作为样本。不论是重复抽样或不重复抽样,都要保证每个单位在抽选 中都有相等的中选机会。是一种最简单而又最基本的抽样组织形式,它往往带有盲目性 ,因此多用于对总体的初期研究。2016/3/1254简单随机抽样中抽选样本的常用方法有三种第一种是直接抽取法第二种是抽签摸球法第三种是利用随机数表法2016/3/12552 分层抽样又称类型抽样。它是先对总体各单位按主要标志加以分组,然后再从各组中按随机原则抽选一定单位构成样本。stratified random sampling类型抽样的方法又分两种:等比例抽样和不等比例抽样。2016/3/1256如果按比例分配样本单位,可以得到类型抽样误差公式1. 在重复抽样条件下变量总体:其中 是各组方差的加权平均数,习惯上称为平均组内方差。属性总体其中 是各组比率的方差加权平均数,是属性总体的平均组内方差。2016/3/12572.在不重复抽样条件下以上总体 参数、是未知的,习惯用样本值 、代替2016/3/12583 等距抽样systematic sampling也称机械抽样或系统抽样。它先按某一标志对总体各单位进行排队,然后依一定顺序和间隔来抽取样本单位的一种抽样组织可分为按无关标志排队和按有关标志排队两种按无关标志排队指采用的排队标志与所研究的问题没有直接关系或联系较少按有关标志排队指采用的排队标志与所研究的问题有直接关系。2016/3/12594 整群抽样cluster sampling又称聚点抽样或群体抽样,它是先将总体划分为若干群(R群),再从中任意抽取几群(r群),然后对抽中的群作全面调查,并据此结论对总体加以推断。整群抽样尤其适用于存在自然群的场合因为整群抽样是成群地抽选样本,故整群抽样的误差较大。由于整群抽样是成群地抽样,从而使样本对总体的代表性会降低。2016/3/1260由于对抽中的群作全面调查,因此整群抽样的误差主要受各群间的差异即群间方差的影响,而群内却不存在抽样误差问题。整群抽样下的平均误差公式如下:其中 , 称为群间方差2016/3/1261必要抽样群数r的确定公式类同简单随机抽样中有关公式。只不过现在确定的是r,并用组内方差 取代 。【实例】某产品合计生产3000批,每批产量大致相同,抽样检查产品合格品率。要求其允许误差不超过2%,若根据过去该产品质量资料,其各批群间方差为3%,问在95.45%(t=2)可靠程度下需抽多少批产品为宜?即要在全部产品中抽273批产品检查2016/3/12625 多阶段抽样multi-stage sampling是在组织抽样时,不是从总体中一次直接抽取样本单位,而是把抽样过程分成几个过渡阶段进行。到最后才具体抽取样本单位。它是先抽大单位,再在大单位中抽小单位,在小单位中抽更小单位,直到抽出最终能取得推断总体的基本单位为止。一般在总体很大,单位分布面积广时,如从总体中采取一次直接抽取足够多的样本很困难时,可采用多阶段抽样。2016/3/12636.4 参数假设检验6.4.1 假设检验的基本概念假设检验(Hypothesis testing)是利用样本的实际资料来检验事先对总体某些数量特征所作的假设是否可信的一种统计分析方法。2016/3/1264它和参数估计一样,都是利用样本资料对总体特征进行某种推断。但二者推断角度不同。参数估计是根据样本指标以一定的把握程度估计总体参数取值范围,更准确地说,是对总体参数进行了区间估计;假设检验则先对总体参数值提出一个假设,然后利用样本信息,以一定的概率水平去判断这个假设是否成立。2016/3/12656.4.2 假设检验的步骤一个完整的假设检验过程,通常包括以下四步骤:第一,提出原假设和备择假设;第二,选取和计算检验统计量;第三,根据显著性水平查临界值;第四,进行比较并做出决策。2016/3/12666.4.3 假设检验中的两类错误假设检验可能犯两种类型的错误。第一类错误(Type I error)指的是H0客观上真实但被检验所拒绝,这种错误也称为弃真错误。犯这种错误的概率就是显著水平α;第二类错误(Type II error)指的是H0客观上不真实但被检验所接受,这种错误也称为纳伪错误。犯这种错误的概率我们用β(读作“贝塔”)来表示。2016/3/12676.4.4 总体均值和总体成数检验1.大样本情况下总体均值检验在大样本(n≥30)情况下,总体均值的假设检验可以应用正态分布检验法。2.小样本情况下总体均值检验在小样本(n<30)情况下,总体均值的假设检验可以应用t分布检验法。此时,检验统计量为t统计量,它服从自由度为n-1的t分布。2016/3/1268【实例6.13】 某食品公司生产一种罐头,按标准每罐净重为227克,根据以往生产经验罐头重量的标准差为5克。现随机抽查该公司产品100罐,测得平均净重为228克,判断这批罐头是否符合标准?解:第一步提出原假设和备择假设。H0:=227 H1:≠227第二步选取和计算检验统计量。 ,代入数值,计算得 Z=3.33第三步根据显著性水平查临界值。由α=0.05,得临界值-Z0.025=-1.96,Z0.025=1.96第四步进行比较并做出决策。∵Z=3.33>Z0.025=1.96∴拒绝H0即这批罐头不符合标准。2016/3/1269【实例6.14】 某轮胎制造商在广告中声称,该公司生产的汽车轮胎在正常行使条件下平均寿命高于28000公里。检测部门随机挑选了40个轮胎进行测试,结果显示平均行使里程28200公里,样本标准差为1000公里,问该制造商广告是否属实?解:第一步提出假设。这需要确定检验的方向。题中制造商称轮胎寿命高于28000公里,表述为>28000,其余集为≤28000,由于等号在原假设上,故≤28000为原假设H0,>28000为备择假设H1,此为右单侧检验。第二步计算统计量。由于总体标准差s未知,用样本标准差S替 代。Z 统计量为 代入数值,得Z=1.26第三步查临界值。因为是右单侧检验,α=0.05时其临界值Z0.05=1.645第四步比较做决策。∵Z=1.26<Z0.05=1.645∴接受H0∴轮胎平均使用寿命不高于28000公里∴制造商广告不属实。2016/3/1270【实例6.15】 某批发商欲从厂家购进一批灯泡,根据合同规定,灯泡的平均使用寿命不能低于1000小时。从产品中随机抽取100只灯泡,测得平均寿命为960小时,标准差为200小时,请问批发商是否应该购买这批灯泡?解:第一步提假设。H0:≥1000 H1:<1000第二步计算检验统计量。采用Z统计量 ,代入数值,计算得Z=-2第三步查临界值。由α=0.05,左单侧检验得临界值- Z0.05=-1.645第四步比较做决策。∵Z=-2<- Z0.05=-1.645∴拒绝H0即批发商不应当购买这批灯泡。2016/3/1271【实例6.16】某食品公司生产袋装食品,采用自动打包机打包。每包标准净重应为1000克,每天开工后需要检验一次打包机工作是否正常。现从产品中随机抽取9包,实测每包净重如下:987,993,1012,1005,997,983,1021,995,1005,给定显著性水平α=0.05,问该日打包机工作是否正常?解:由于本题关心的是每包净重是否为1000克,因此是双侧检验问题。又因为是小样本资料,故采用t分布检验法。第一步提假设。H0:=1000 H1:≠1000第二步计算检验统计量。 ,样本平均数=999.8样本标准差S=1.212代入数值,计算得t=-0.495第三步查临界值。α=0.05,由于是双侧检验,自由度= n-1=8, 查t分布表,得临界值- t0.025(8)=-2.306,t0.025(8)=2.306第四步比较做决策。∵ - 2.306<t=-0.495<2.306∴接受H0∴该日打包机工作正常2016/3/12723.总体成数检验方法及步骤与总体均值检验一样,只是在统计量公式中需要用到成数的标准差。其统计量公式为【实例6.17】一家杂志声称其读者中至少有25%是在校大学生。从该杂志读者中抽取200名读者进行调查,发现其中42人是在校大学生。请问该杂志的论断是否正确(α=0.05)解:第一步提假设。H0:p≥25% H1:p<25%第二步计算检验统计量。p = n1/n=42/200=21%代入公式,计算得到 Z=-1.31第三步查临界值。由α=0.05,双侧检验得临界值- Z0.05=-1.645第四步比较做决策。∵Z=-1.31>- Z0.05=-1.645∴接受H0 即该杂志的论断正确。2016/3/12736.5 Excel在抽样推断中的应用6.5.1 利用Excel进行区间估计第一步:输入样本数据。第二步:输入相关变量的名称。本例中为C列的内容,相对应的D列为变量值所在单元格。第三步:计算要求的量的数值。1.计算样本个数。单击单元格D2,输入“=COUNT(A:A)”,回车后在单元格内显示出样本数据的个数,即A列中的数据的个数。2.计算样本均值。单击单元格D3,输入“=AVERAGE(A:A)”,回车后在单元格内显示出样本均值。2016/3/12743.计算样本标准差。单击单元格D4,输入“=STDEV(A:A)”,回车后在单元格内显示出样本标准差。4.计算样本标准误差。单击单元格D5,输入“=D4/SQRT(D2)”,回车后在单元格内显示出样本标准误差(样本标准误差=样本标准差/SQRT(样本个数)。5.输入置信度。单击单元格D6,输入“=95%”,回车后在单元格内显示出置信度95%。6.计算自由度。单击单元格D7,输入“=D2-1”,回车后在单元格内显示出自由度39(自由度=样本个数-1)。7.计算t值。单击单元格D8,输入“=TINV(1-D6,D7)”,回车后在单元格内显示出t值(t值=TINV(1-置信度,自由度))。2016/3/12758.计算置信区间半径。单击单元格D9,输入“=D8*D5”,回车后在单元格内显示出,置信区间半径的值(置信区间半径=t值*标准误差)。9.计算置信区间的上限。单击单元格D10,输入“=D3+D9”,回车后在单元格内显示出置信区间的上限的数值(置信区间的上限=样本均值+置信区间半径)。10.计算置信区间的下限。单击单元格D11,输入“=D3-D9”,回车后在单元格内显示出置信区间的上限的数值(置信区间的上限=样本均值-置信区间半径)。2016/3/12766.5.2 利用Excel进行假设检验具体的操作步骤如下:第一步:输入样本数据。第二步:在“插入函数”对话框中选择“统计”选项,找到STDEV后单击“确定”按钮,打开对话框。第三步:在Numberl中选择样本数据区域“A2:A31”,就可直接得到样本标准差s=1.072。第四步:同样在“插入函数”对话框中选择“统计”选项,找到ZTEST后单击“确定”按钮,打开对话框。第五步:在Array中选择样本数据区域“A2:A31”;在X文本框中输入均值150;在Sigma中输入样本标准差1.072,就可直接得Z统计量,Z= 0.0865第六步:比较后得结论。因为-1.96<Z= 0.0865<1.96,所以接受H0,即该批食品符合标准。谢谢! 展开更多...... 收起↑ 资源预览