资源简介 (共64张PPT)项目五 抽样推断——数理统计应用之一样本总体样本统计量计算随机抽样总体参数估计推断抽样误差(准确性)抽样推断全程图确定样本容量可靠性学习目标【知识目标】了解抽样推断的概念、特点和作用理解抽样推断的一般原理掌握纯随机抽样组织形式下抽样误差和样本容量的计算方法【能力目标】能够熟练地运用抽样方法进行区间估计能够按照可靠性和准确性要求确定必要的样本容量教学内容抽样推断概述抽样误差抽样估计方法必要样本容量的确定任务一 抽样推断概述抽样推断的意义抽样推断中的基本概念抽样方法与样本可能数目抽样组织形式一.抽样推断的意义㈠抽样推断的概念抽样推断是以概率论和数理统计为理论基础,按照随机原则从总体中抽取部分单位组成样本,并用样本指标对总体指标作出具有一定可靠性的推论和判断的一种统计方法。简而言之,就是:抽取样本,推断总体。例:从一所大学的5000名学生中抽100名,用这100名学生的平均身高和性别构成去推断那5000名学生的平均身高和性别构成。㈡抽样推断的特点1.目的在于从数量上推断总体。抽样推断的基本内容:用样本平均数或成数去推断总体平均数或成数。2.按随机原则抽取样本单位。随机原则(等概原则)即在总体中每个单位都有同等被抽取的机会,能否抽中,完全是随机的、偶然的事件。3.抽样误差不可避免,但可事先计算和控制。抽样推断的意义※为什么要遵守随机原则?⑴排除主观因素的影响,避免系统性误差(偏差)产生的可能性;⑵保证样本与总体同分布,使样本对总体有充分的代表性;⑶只有遵守随机原则,才能运用数理统计原理计算抽样误差、确定估计推断的可靠性。㈢抽样推断的作用抽样推断既是一种科学的调查方法,也是一种有效的分析方法,应用极为广泛。1.可以降低调查成本,提高调查资料的时效性,收到事办功倍的效果。2.能够解决不能用全面调查解决的问题。3.用于评价、补充或修正全面调查资料。4.用于工业生产过程的质量控制。5.用于对总体假设的检验。抽样推断的意义二.抽样推断中的基本概念㈠总体和样本1.总体(全及总体、母体)是指所要推断和认识的调查对象的全部单位组成的整体。总体单位数(总体容量)用N 表示。在特定研究目的下,总体具有唯一性。2.样本(抽样总体、子样)是指从全及总体中随机抽取的那部分单位的集合体。样本单位数(样本容量)用 n 表示。n≥30为大样本,n<30为小样本。样本不是唯一确定的,是一个随机样本。抽样推断中的基本概念㈡总体指标和样本指标1.总体指标(总体参数、估计量)理论上,是根据全及总体各单位的标志表现计算的,反映总体综合数量特征的指标。总体指标虽是唯一确定的,但却是未知的。2.样本指标(抽样指标、统计量)是需要根据样本各单位的标志表现进行计算的,用于推断总体数量特征的指标。样本指标不是唯一确定的,它是一个随机变量。或者说,样本指标是样本变量的函数,其数值随着样本的不同而不同。◎总体指标和样本指标总 体样 本指标单 位 数平均数成 数方 差标准差三.抽样方法与样本可能数目㈠抽样方法1.重复抽样(回置抽样)从总体中每次抽取一个单位进行观察,登记后再放回总体中参加下一次抽取,直至抽取n 个单位。重复抽样的特点:⑴ n次抽取相互独立,互不影响;⑵ n次抽取条件完全相同(母体不变);⑶每个总体单位在各次抽取中被抽中的概率相同;⑷每个总体单位有被重复抽中的可能。2.不重复抽样(不回置抽样)从总体中每次抽取一个单位进行观察,登记后不再放回总体中,依此直至抽取n 个单位。不重复抽样的特点:⑴ n次抽取实质上等于一次同时抽取n个单位;⑵ n次抽取相互不独立(对下次抽取有影响);⑶每个总体单位在各次被抽中的概率不同,即1~n次分别是1/N,1/N-1,1/N-2,…,1/N-n+1,但在每次抽取时机会仍然均等;⑷每个总体单位不会被重复抽中。◎抽样方法㈡样本可能数目样本可能数目是指从总体中有可能抽取出的样本的个数,用m 表示。在总体容量N和样本容量n一定的条件下,样本可能数目与抽样方法有关。而在同一抽样方法下,又与是否考虑各个样本单位的排列顺序有关。考虑顺序:如AB和BA,可作为两个样本。不考虑顺序:上述AB和BA只能算一个样本。◎抽样方法与样本可能数目样本可能数目的计算公式考虑顺序不考虑顺序不重复抽样重复抽样实际工作中,一般采用考虑顺序的重复抽样和不考虑顺序的不重复抽样。【例】从ABCD四个单位中抽两个作为样本:重复抽样不重复抽 样五.抽样组织形式㈠纯随机抽样——简单随机抽样纯随机抽样是对总体单位不作任何分类排队,直接从总体N中抽取n个样本单位。纯随机抽样亦称完全随机抽样,是最简单、最基本的抽样组织方式。抽样的原理是以简单随机抽样为基础来阐述的。纯随机抽样适用于均匀总体且单位数较少的情况。纯随机抽样的具体做法主要有摇号法、抽签法和随机数表法。抽样组织形式㈡类型抽样——分层抽样类型抽样是先将总体按某个主要标志分组,再从各组中按纯随机抽样方式抽取样本单位。N1N2N3n1n2n3通过分组,使组内具有同质性,组间具有差异性,从而可以减少抽样误差( 组内方差较小,组间方差又不影响抽样误差,对于各组而言是全面调查),提高样本的代表性。类型抽样适用于总体内部差异较大的抽样。类型抽样实际上是分组法与随机抽样的有机结合。◎类型抽样样本单位数分配方法⑴等数分配:各组分配同等的样本单位数。各组规模相当时才可使用,能使综合计算比较简单(无须加权)。⑵等比例分配:按照相同的比例分配样本单位数。抽样比为n/N,则各组应抽取的样本单位数:⑶不等比例分配:在各组中按不同的比例分配样本单位数。规模大、差异大的组,多分;规模小、差异小的组,少分。抽样组织形式㈢整群抽样——集团抽样整群抽样是先将总体(N)分为若干(R)群,再按随机抽样方法抽取一部分(r)群,对抽中群的所有单位(M)进行全面调查。N1N2N3……NiNRM1MiMrxij样本总体整群抽样中群的划分要满足两个条件:一是不重,群与群之间没有单位重叠;二是不漏,每个单位都必须属于某一个群。整群抽样的抽样误差只受群间方差而不受群内方差的影响(对抽中群作全面调查,无抽样误差)。因此群的划分,要尽量缩小群间的差异,加大群内的差异。由于样本单位过分集中在少数样本群,同样条件下抽样误差较大。欲不扩大误差,则需要增加一些样本群。◎整群抽样“群”的划分抽样组织形式㈣等距抽样——机械抽样等距抽样是先将总体单位按某一标志顺序排队,再按固定顺序和相等距离(间隔k)抽取样本单位。按无关标志排序,抽样的随机性与纯随机抽样基本相同。按有关标志排序,类似于类型抽样,只不过分类更细、组数更多,每个组(段)内只抽取一个样本单位而已。等距抽样可使样本单位均匀分布于总体,抽样误差较小。其随机性主要体现在第一个单位的确定上。0k2k3k4k(n-1)knk○○○○○任务二 抽样误差抽样误差的概念抽样平均误差抽样极限误差与概率度一.抽样误差的概念抽样误差是一种调查误差。如前所述:调查误差登记性误差代表性误差系统性误差随机性误差普遍存在可以防止不可避免但可控制抽样误差仅指随机性的代表性误差。它是按照随机原则抽取样本计算的样本指标与总体指标之间的离差,即 或 p-P。抽样误差的计算和控制,是抽样推断的核心问题!x-X三.抽样平均误差μ㈠抽样平均误差的概念从一个总体中可以抽取m个可能的样本,而每一个样本的样本指标与总体指标之间都会存在一定的抽样误差,并且会有大有小,有正有负,带有偶然性。我们说抽样误差是随机误差,原因就在于此。那么,用样本指标去估计总体指标时,抽样误差究竟有多大呢?我们不能只根据某一个样本的抽样误差,而要采用所有可能样本的抽样误差的平均数,即抽样平均误差,作为抽样误差的代表值或一般水平。抽样平均误差μ抽样平均误差(实际含义)是指所有可能样本的样本指标与总体指标的平均离差。即:由于各个样本的抽样误差之和等于零,即:所以抽样平均误差在计算上采取了标准差的形式。定义:抽样平均误差是指所有可能样本指标与总体指标的标准差。抽样平均误差μ抽样平均误差在抽样推断中有着极为重要的作用:它是衡量抽样误差大小的尺度;它是评价样本指标代表性的标准;它是计算误差范围、确定推断的精度和信度的依据。总之,抽样平均误差是整个抽样法的基础。抽样平均误差μ㈡抽样平均误差的计算前述的抽样平均误差是所有可能样本指标与总体指标的标准差,只是理论上的概念,所给公式也只是理论公式,并不能在实际中应用。因为在实际中,不仅总体指标 未知,且只抽取一个样本。如何计算抽样平均误差?抽样误差与总体标准差σ和样本容量 n有密切关系,与抽样组织形式和抽样方法也有一定关系。其关系值数理统计业已证明如下:抽样平均误差的计算抽样误差与总体标准差σ成正比,与样本容量 n 的平方根成反比。1.纯随机重复抽样:抽样平均误差的计算2.纯随机不重复抽样其抽样误差比重复抽样误差小。具体是在重复抽样误差公式的根号里添加一个修正系数:修正系数◎抽样平均误差计算公式说明第一,公式中的σ和P是未知的总体标准差和成数,可用样本的标准差 s 和成数 p 代替:x第二,不重复抽样公式中, 若抽样比很小,修正系数接近于1,对平均误差影响不大。为简便起见,实际工作中,即使采用不重复抽样方法也往往采用重复抽样公式计算抽样平均误差。抽样平均误差㈢影响抽样误差的主要因素1.样本容量n。样本容量大小与抽样误差成反比。当n=N,无抽样误差。此表明,若条件许可应尽量扩容。2.总体各单位标志变异程度。如总体标准差σ或总体方差 。标志变异程度大小与抽样误差成正比。当σ=0,无抽样误差。3.抽样组织形式。类型抽样和等距抽样的抽样误差较小,整群抽样误差较大。实践中,可利用抽样误差的大小来检验组织方式的有效性。4.抽样方法。重复抽样误差大,不重复抽样误差小.抽样平均误差算例某高校为了解该校12000名男生的抽烟情况,采用纯随机重复抽样方法抽取了100名进行调查,得知有28名有抽烟习惯,平均烟龄3.2年,烟龄的标准差0.65年。根据该样本对该高校男生抽烟烟龄及抽烟者所占比重进行推断,则抽样平均误差分别是多少?解:已知n=100,p=.028,sx=0.65平均烟龄的抽样平均误差为:抽烟者所占比重的抽样平均误差为:四.抽样极限误差与概率度进行抽样估计,需要解决两个问题:一是根据样本指标和误差范围,估计出总体指标所在的区间;二是确定出总体指标落在估计区间内的可靠程度(置信概率)有多大。为此,必须引入两个重要概念——抽样极限误差与抽样误差的概率度。(一)抽样极限误差⊿抽样极限误差(误差范围、允许误差)是指在一定的可靠程度或概率保证下,所允许的抽样误差的最大可能范围。理论上,它等于样本指标允许变动的上限或下限与总体指标之差的绝对值。即:样本平均数以总体平均数为中心在 之间变动.在区间 内的样本平均数与总体平均数的绝对离差不超过 。◎抽样极限误差示意图样本平均数允许误差样本成数允许误差样本成数以总体成数为中心在 之间变动。在区间 内的样本成数与总体成数的绝对离差不超过 。前面只是给出了抽样极限误差的理论描述,而在实际上,由于总体指标是未知数,并不能直接计算出样本指标与总体指标之间的绝对离差。怎样才能求出抽样极限误差呢?我们知道,它是在一定的可靠程度或概率保证下所允许的抽样误差的最大可能范围,因此必须联系可靠程度或置信概率 。而 与概率度t 有关。如何计算极限误差 啥是概率度 (二)抽样误差的概率度t基于概率估计的要求,极限误差的大小通常要以抽样平均误差μ为标准单位来衡量,即将极限误差Δ与μ对比,求得相对数 t(t=Δ/μ),t 表示误差范围为抽样平均误差的多少倍。这个相对数 t 即称为抽样误差的概率度。它既是反映抽样估计准确程度(精度)的一个相对数,又是测度抽样估计可靠程度(信度)的一个重要参数。置信概率 与概率度t 存在如下函数关系:标准正态分布函数常用概率度与置信概率根据标准正态分布函数式,给定t 值可计算出 。实际工作中,编有<正态分布概率表>可以备查。常用概率度与置信概率对照如下:概率度t 置信概率 百分比%1.001.641.962.002.583.00 0.68270.90000.95000.95450.99000.9973 68.2790.0095.0095.4599.0099.73关注准确性关注可靠性表明样本均数与总体均数之间不超过Δx的概率, 或者说样本均数取值在 之间的概率。样本指标置信概率示意图0.68270.95450.9973样本值次数0样本出现概率样本值信度、精度与概率度的关系信度即置信概率、可靠性或把握程度;精度即准确性,它等于 ;信度、精度均与概率度有关。三者的关系是:置信概率 概率度t 极限误差⊿ 精确度大 大 大 小小 小 小 大可靠性与精确性是一对矛盾,二者不可兼得。在实际处理时要二者兼顾。如果注重可靠性,可以先给定 ,一般应在90-95%;若关注准确性,则先给定⊿,取1-2倍的μ,最多不超过3μ 。◎抽样极限误差的计算方法由t=Δ/μ不难得出极限误差基本公式:Δ=tμ。具体的,平均数和成数的抽样极限误差为:可见,抽样极限误差就是t倍的抽样平均误差。【例】某保险公司从10000名投保人中纯随机抽取了200名,得知其平均年龄为36.5岁,年龄标准差为8.2岁。若要求推断的可靠程度为99.73%,则推断全部投保人平均年龄时的最大允许误差为多少?下面按重复抽样和不重复抽样方法,分别计算极限误差:抽样极限误差算例重复抽样时:不重复抽样时:任务三 抽样估计方法抽样估计的特点抽样估计的优良标准抽样估计的方法一.抽样估计的特点抽样估计(参数估计)就是利用抽样调查资料计算出的样本指标,估计相应的总体指标。主要是 ,也可以结合N进一步估计标志总量∑X和具有某种标志属性的单位数N1.抽样估计具有如下特点:1.在逻辑上运用归纳推理而不用演绎推理。2.在方法上运用概率估计法而不用数学分析法。因为样本数据与总体参数不存在函数关系。3.估计的结论有一定的抽样误差,误差大小与概率保证程度有关。二.抽样估计的优良标准进行抽样估计,总是希望样本指标能够最大限度地接近总体指标,也即希望估计是优良的、准确可靠的。但是,样本指标是一个随机变量,不同的样本会有不同的取值,就是同一个样本也有不同的算法,如:那么在大量的反复试验中,究竟哪一种取值(统计量)最接近于总体参数的真值,成为最优良的估计呢?判别标准有三:无偏性、一致性、有效性。○抽样估计的优良标准1.无偏性:即估计量的数学期望应等于被估计的总体参数。 。 2.一致性:是指在一次试验中,当样本容量 n 充分大时,样本指标应充分地靠近于总体指标。换句话说,随着样本单位数n 的无限增大,样本指标与总体指标之间的绝对离差为任意小的可能性也趋于必然性。3.有效性:是说作为优良估计量的方差应比其它估计量的方差小。三.抽样估计的方法㈠点估计——定值估计点估计是直接用样本指标作为总体指标的估计值,不一定要求给出误差范围和可靠程度.点估计并非严格意义上的抽样估计,但它却是抽样估计的基础。如前面大学生抽烟调查的例子:男生平均烟龄估计:抽烟男生所占比重估计:抽样估计的方法㈡区间估计——概率估计区间估计是在一定的把握程度要求下,用样本指标推断总体指标所在的可能范围。这个可能范围称为估计区间或置信区间。区间估计三要素:估计值、误差范围和置信度.总体平均数的估计区间:总体成数的估计区间:区间估计的步骤总体平均数估计 总体成数估计①计算样本平均数 ①计算样本成数p②样本平均数的方差 ②样本成数方差③平均数抽样平均误差 ③成数抽样平均误差④平均数抽样极限误差 ④成数抽样极限误差⑤总体平均数的估计区间⑤总体成数的估计区间*成数估计的② ③步可以合并计算区间估计综合算例【例】对某市10万手机用户进行月话费抽样推断。利用手机四位尾号和随机数表,抽中100用户,资料如下:月话费(元) 用户数 组中值15以下15~2525~3535~4545~5555以上 3253020157 102030405060 30500900800750420 -24-14-461626 5761961636256676 1728490048072038404732合计 100 — 3400 — — 16400区间估计综合算例要求在95.45%的概率保证程度下:⑴对全市手机用户月均话费支出进行区间估计;⑵对全市手机用户月话费支出总额进行区间估计;⑶对月话费45元以上用户所占比重进行区间估计;⑷估计月话费 45元以上用户数的可能范围。区间估计综合算例解:已知N=100 000,n=100,t=21.计算样本指标:2.计算抽样平均误差:区间估计综合算例3.计算极限误差:4.进行区间估计(可靠性95.45%):⑴月均话费支出:⑵月话费支出总额:⑶月话费 45元以上用户所占比重:P=22%±8.28%,即在13.72-30.28%之间⑷月话费 45元以上用户数的可能范围:任务四 必要样本容量的确定确定样本容量的必要性影响样本容量的主要因素样本容量的确定方法确定样本容量应注意的问题一.确定样本容量的必要性为了保证抽样工作的顺利进行,需要事先设计抽样方案。其内容一般包括调查的目的和要求、调查费用、抽样组织形式、抽样方法以及必要样本容量。必要样本容量是指在最大允许误差和可靠程度的要求下,至少应该从总体中抽取的样本单位数。在前面的讲述中,我们是先给定样本容量,再计算其有关指标,最后推断总体指标数值。实际上,在进行抽样之前就必须确定样本容量。之所以放在最后来讲,是因为确定必要样本容量需要事先掌握抽样误差的相关知识。确定样本容量的必要性在其他条件不变时,抽样误差的大小与样本单位数多少紧密相关。抽取的样本单位数越多,抽样误差就越小;反之,则相反。照此说来,应当尽量多的抽取样本单位,扩大样本容量,以减少抽样误差,提高抽样推断的准确性。但如果抽样单位数过多,不仅会影响统计资料的时效性,还可能受人力、物力和财力等物质条件的制约。如此说来,在满足一定的估计精度和信度的前提下,应尽量少抽样本单位数目。从某种意义上讲,确定必要样本容量是在抽样之前所关心的中心内容,在抽样方案设计中占有十分重要的地位。二.影响样本容量的主要因素1.总体各单位的标志变异程度。即总体标准差或方差( )的大小。2.允许误差Δ或推断的精度要求。3.置信概率F(t)或推断的信度要求。通常用概率度t来衡量。4.抽样组织形式和抽样方法。同样条件下,类型和等距抽样方式,抽样数目可少些;不重复抽样方法,抽样数目也可以少一些。5.人、财、物力的允许条件。三.必要样本容量的确定方法在抽样之前,一般都要给出精度和信度的要求。因此可以利用抽样极限误差公式来推导出必要样本容量的确定公式。这里只讨论纯随机抽样。1.重复抽样时:均数估计所需抽样数目:成数估计所需抽样数目:纯随机抽样必要样本容量的确定2.不重复抽样时:均数估计所需样本单位数:成数估计所需样本单位数:四.确定样本容量应注意的问题1.实际工作中,由于抽样比(n/N)一般很小,虽然采用的是不重复抽样,但仍按重复抽样的公式来计算必要抽样数目。2.公式中 一般未知,也没有样本数据可代替,通常是利用以往同类调查的数据,或通过测试取得。对于P,也可取0.5,以高估总体方差。3.一次抽样同时作平均数和成数两种估计,应取n较大者(取大)。4.抽样单位数应为整数(取整),若出现小数,遵循“遇小数便入”的原则。样本容量的确定举例对1000 份试卷随机抽样以推断学生的平均考分和及格率。据抽阅,考分的标准差为3分,及格率80%。现以95.45%的概率保证,平均考分误差不超过1分,及格率误差不超过10%,问最少应抽取多少份试卷 这里,采用重复抽样,需要的抽取的试卷份数为:应抽这么多样本容量的确定举例采用不重复抽样,需要抽取的试卷份数为:就抽这么多 展开更多...... 收起↑ 资源预览