资源简介 (共118张PPT)01 抽样调查的基本概念02 抽样平均误差03 抽样估计04 必要抽样单位数的确定05 抽样方案的确定06 假设检验(一)总体总体,也就是某个社会经济现象的所研究的全部对象,简称总体。总体也称为全及总体,是指所要认识对象的全体,总体是由具有某种共同性质的许多单位组成的,因此,总体也就是具有同一性质的许多单位的集合体。总体按其各单位标志性质不同,可以分为变量总体和属性总体两类。变量总体指构成变量总体的各个单位可以用一定的数量标志加以计量。变量总体又可分为无限总体和有限总体两类。无限总体所包含的单位为无限多,因而各单位的变量也就有无限多的取值。有限总体所包含的单位数则是有限的,因而它的变量值也是有限的,当然可以按顺序加以一一列举。有的标志只能用一定的文字加以描述。例如,要研究某高校1 000台教学用电脑设备的完好情况,这时只能用“完好”和“非完好”等文字作为品质标志来描述各台设备的属性特征,这种用文字描述属性特征的总体被称为属性总体。一、总体和样本第一节 抽样调查的基本概念(二)抽样总体抽样总体(样本)是从总体中随机抽取出来,代表总体部分单位的集合体。抽样总体的单位数通常用小写英文字母n表示。对于总体单位数N来说, n是个很小的数,它可以是N的几十分之一、几百分之一、几千分之一、几万分之一。一般说来,样本单位数达到或超过30个称为大样本,而在30个以下称为小样本。社会经济现象的抽样调查多取大样本,而自然实验观察则多取小样本。以很小的样本来推断很大的总体,这是抽样调查的一个特点。如果说总体是唯一确定的,那么,抽样样本就完全不是这样的。一个全及总体可能抽取很多个抽样总体,全部样本的可能数目和每一样本的容量有关,它也和随机抽样的方法有关。不同的样本容量和取样方法,样本的可能数目也有很大的差别。抽样本身是一种手段,目的在于对总体作出判断。因此,样本容量要多大,要怎样取样,样本的数目可能有多少,它们的分布又怎样,这些都是关系到对总体判断的准确程度,都需要认真研究。一、总体和样本第一节 抽样调查的基本概念(一)全及指标根据全及总体各个单位的标志值或标志特征计算的、反映总体某种属性的综合指标,称为全及指标。由于全及总体是唯一确定的,根据全及总体计算的全及指标也是唯一确定的。不同性质的总体,需要计算不同的全及指标。对于变量总体,由于各单位的标志可以用数量来表示,所以可以计算总体平均数。二、全及指标、抽样指标及统计抽样过程第一节 抽样调查的基本概念(一)全及指标二、全及指标、抽样指标及统计抽样过程第一节 抽样调查的基本概念(一)全及指标二、全及指标、抽样指标及统计抽样过程第一节 抽样调查的基本概念(二)抽样指标二、全及指标、抽样指标及统计抽样过程第一节 抽样调查的基本概念(二)抽样指标二、全及指标、抽样指标及统计抽样过程第一节 抽样调查的基本概念(三)统计抽样过程二、全及指标、抽样指标及统计抽样过程第一节 抽样调查的基本概念在统计调查中,为了要取得某一社会经济现象总体的综合特征,除了运用全面调查方法外,还可以对总体的部分单位进行部分调查,以此掌握总体的综合特征。特别是当总体的单位数非常多的时候,不便于采用全面调查,或者当某些社会经济现象总体的综合特征是要经过破坏性的测试才能取得的情况下,此时我们应该对总体的一部分单位进行调查从而推断总体。这种统计调查的方法,就是抽样调查。三、抽样调查第一节 抽样调查的基本概念三、抽样调查(一)抽样调查的特点第一节 抽样调查的基本概念三、抽样调查(二)抽样调查的适用范围第一节 抽样调查的基本概念样本的可能数目既和每个样本的容量有关,也和抽样的方法有关。当样本容量既定时,则样本的可能数目便决定于抽样的方法。抽样方法不同又可以从取样方式不同和对样本的要求不同等方面来研究。根据取样的方式不同,抽样方式可分为重复抽样和不重复抽样两种。(一)考虑顺序的不重复抽样数目四、抽样方法和样本可能数目第一节 抽样调查的基本概念(二)考虑顺序的重复抽样数目(三)不考虑顺序的不重复抽样数目四、抽样方法和样本可能数目第一节 抽样调查的基本概念(四)不考虑顺序的重复抽样数目四、抽样方法和样本可能数目第一节 抽样调查的基本概念(一)大数定律五、抽样调查的理论依据第一节 抽样调查的基本概念(一)大数定律五、抽样调查的理论依据第一节 抽样调查的基本概念(二)中心极限定理五、抽样调查的理论依据第一节 抽样调查的基本概念(二)中心极限定理五、抽样调查的理论依据第一节 抽样调查的基本概念由于样本是随机抽取的,必然会导致样本与总体的误差,这种纯粹是由于在样本抽取时产生的误差,抽样误差就是指样本指标和总体指标之间数量上的差别。以数学符号表示: 。抽样调查是用样本指标推断总体指标的一种调查方法,而推断的根据就是抽样误差。因此,怎样计算、使用和控制抽样误差是抽样调查的重要问题。为此,首先要把抽样误差的概念搞清楚。理解抽样误差可以从以下两方面着手。第一,抽样误差是指由于抽样的随机性而产生的那一部分代表性误差,不包括登记误差,也不包括可能发生的偏差。登记误差,如前述,是在调查过程中由于主、客观原因引起的登记、汇总或计算等方面的差错而造成的误差;代表性误差,是由于样本结构与总体结构不同(即就被研究标志而言。样本单位的构成与总体单位的构成不一致),样本不能完全代表总体而产生的样本指标与总体指标之间的误差。一、抽样误差的概念第二节 抽样平均误差代表性误差也有两种。一种是偏差,是指破坏了抽样的随机原则而产生的误差,如抽选到一个单位后,调查者认为它偏低或偏高,把它剔除掉而产生的偏差。这种偏差在进行抽样调查时应该设法避免,它不包括在抽样误差这个概念之内。另一种是指遵守了随机原则但可能抽到各种不同的样本而产生的误差。这种误差是必然会产生的,但可以对它进行计算,并设法加以控制,抽样误差就是指这种随机误差。第二,随机误差有两种:实际误差和抽样平均误差。实际误差是一个样本指标与总体指标之间的差别( ),这是无法知道的误差。抽样平均误差是指所有可能出现的样本指标的标准差,也可以说是所有可能出现的样本指标和总体指标的平均离差。抽样实际误差是无法知道的,而抽样平均误差是可以计算的。在讨论抽样误差时指的是抽样平均误差。一、抽样误差的概念第二节 抽样平均误差为了计算和控制抽样平均误差,需要分析影响抽样平均误差的因素。抽样平均误差的大小主要受以下四个因素的影响:(一)全及总体标志的变动程度全及总体标志变动程度越大,抽样平均误差就越大;反之,全及总体标志变动程度越小,则抽样平均误差越小。两者成正比关系的变化。例如,总体各单位标志值都相等,即标准差为零时,那么抽样指标就等于全及指标,抽样平均误差也就不存在了。这时每个单位都可作代表,平均指标也无须计算了。(二)抽样单位数的多少在其他条件不变的情况下,抽取的单位数越多,抽样平均误差越小;样本单位数越少,抽样平均误差越大。抽样平均误差的大小和样本单位数成相反关系的变化,这是因为抽样单位数越多,样本单位数在全及总体中的比例越高,抽样总体会愈接近全及总体的基本特征,总体特征就愈能在抽样总体中得到真实的反映。假定抽样单位数扩大到与总体单位数相等时,抽样调查就变成全面调查,抽样指标等于全及指标,实际上就不存在抽样误差。二、影响抽样平均误差的因素第二节 抽样平均误差(三)抽样调查的组织方式抽样平均误差除了受上述两个因素影响外,还受不同的抽样组织方式的影响。抽样的组织方式包括简单随机抽样、类型抽样、机械抽样、整群抽样、多阶段抽样,这部分将在以后章节中讨论。(四)抽样方法抽样方法不同,抽样误差也就不同,典型的抽样方法就有重复抽样和不重复抽样,一般情形下,重复抽样的误差比不重复抽样的误差更大。二、影响抽样平均误差的因素第二节 抽样平均误差抽样平均误差,是一系列抽样指标(平均指标或成数)的标准差。在进行抽样调查时,所得的抽样指标与全及指标产生误差,即抽样指标可能比全及指标大一些,也可能小一些,但用抽样平均误差来表示的抽样误差,它概括地反映了这些所有可能的结果,也就是平均说来会有这么大的误差。抽样平均误差的意义,它既是实际可以运用于衡量抽样指标对于全及指标代表性程度的一个尺度,也是计算抽样指标与全及指标之间变异范围的一个根据,在组织抽样调查中也是确定抽样单位数多少的计算依据之一。总之,抽样平均误差对于整个抽样推断分析具有很重要的意义。三、抽样平均误差的意义第二节 抽样平均误差(一)抽样平均数的抽样平均误差四、抽样平均误差的计算第二节 抽样平均误差(一)抽样平均数的抽样平均误差1.重复抽样条件下抽样平均数的抽样平均误差四、抽样平均误差的计算第二节 抽样平均误差四、抽样平均误差的计算第二节 抽样平均误差四、抽样平均误差的计算第二节 抽样平均误差四、抽样平均误差的计算第二节 抽样平均误差(一)抽样平均数的抽样平均误差2.不重复抽样条件下抽样平均数的抽样平均误差四、抽样平均误差的计算第二节 抽样平均误差(一)抽样平均数的抽样平均误差2.不重复抽样条件下抽样平均数的抽样平均误差四、抽样平均误差的计算第二节 抽样平均误差(一)抽样平均数的抽样平均误差2.不重复抽样条件下抽样平均数的抽样平均误差四、抽样平均误差的计算第二节 抽样平均误差(一)抽样平均数的抽样平均误差2.不重复抽样条件下抽样平均数的抽样平均误差四、抽样平均误差的计算第二节 抽样平均误差(二)抽样成数的抽样平均误差在掌握抽样平均数的平均误差公式的基础上,再来探求抽样成数的平均误差公式是比较简便的。只需将全及成数的标准差平方代替公式中的全及平均数的标准差的平方,就可以得到抽样成数的平均误差公式。全及成数标准差平方,也称“交替标志的方差”。有些社会经济现象的标志具体表现为两种情况,非此即彼,交替出现,如产品分为合格品与不合格品、水稻品种分为杂交品种与非杂交品种等。这种用“是”“否”或“有”“无”来表示的标志,称为交替标志,也叫是非标志。为计算交替标志的方差,必须将交替变异的标志过渡到数量标志。交替标志值仍以x表示,我们用x=1表示单位具有这一标志的标志值,即“是”的标志值;用x=0表示单位不具有这一标志的标志值,即“否”的标志值。具有这一标志的单位数用N1表示,不具有这一标志的单位数用N0表示,则这两部分单位数占全及总体单位数成数为四、抽样平均误差的计算第二节 抽样平均误差(二)抽样成数的抽样平均误差四、抽样平均误差的计算第二节 抽样平均误差(二)抽样成数的抽样平均误差四、抽样平均误差的计算第二节 抽样平均误差(二)抽样成数的抽样平均误差四、抽样平均误差的计算第二节 抽样平均误差(二)抽样成数的抽样平均误差在上面计算抽样平均误差的转化公式里,无论是平均数的标准差σ,还是交替标志的方差p(1-p),都是指全及总体而言的。但是在抽样调查的实践中,这两个指标一般都是未知的,因此,通常可以采用以下四种方法解决。1.用过去调查所得到的资料可以全面调查的资料,也可以用抽样调查的资料。如果有几个不同的总体方差的资料,则应该用数值较大的。四、抽样平均误差的计算第二节 抽样平均误差(二)抽样成数的抽样平均误差2.用样本方差的资料代替总体方差概率论的研究从理论上作了证明,样本方差可以相当接近于总体方差。这是实际工作中经常使用的一种方法,但它只能在调查之后才能计算。3.用小规模调查资料如果既没有过去的材料,又需要在调查之前就估计出抽样误差,迫不得已时,可以在大规模调查之前,组织一次小规模的试验性调查。4.用估计的材料例如,在农产量抽样调查中用农产量预计估产的资料,根据预计估产的资料计算出总体方差。(三)抽样平均误差计算实例(见课本165页,大家可以自己下去学习)四、抽样平均误差的计算第二节 抽样平均误差抽样调查的目的是用样本指标去推断总体指标,由于存在抽样平均误差,这种推断不可能是很精确的,问题在于对这个误差的大小要有一个科学的判断。一般来说,用抽样指标推断总体指标有三个要求或标准,满足了这三个要求,就可以认为是合理的推断或优良的估计。1.无偏性即用抽样指标估计总体指标,要求所有可能样本指标的平均数等于被估计的总体指标,如 ,因此样本平均数是总体平均数的无偏估计量。也就是说,虽然每一次的抽样指标和未知的总体指标可能不相同,但在多次反复的抽样中各个抽样指标的平均数应该等于总体指标,即抽样指标的估计平均来说是没有偏差的。一、抽样估计的理论基础及抽样估计要求第三节 抽样估计2.一致性即用抽样指标估计总体指标,要求当抽样单位数充分大时,抽样指标也充分地靠近总体指标。由大数定律我们知道, 抽样指标和未知的总体指标之间的绝对离差为任意小的可能性也趋于必然性。3.有效性即用抽样指标估计总体指标,要求作为优良估计量方差应该比其他估计量的方差小。例如用抽样平均数和总体另一变量来估计总体平均数,虽然两者都是无偏的估计量,而且在每一次的估计中两种估计量和总体平均数都可能有离差,但样本平均数更靠近在总体平均数的周围,一般而言,它的离差比较小,所以对比说来,抽样平均数是更为优良的估计量。一、抽样估计的理论基础及抽样估计要求第三节 抽样估计(一)点估计点估计也叫定值估计(或直接估计),就是把样本平均数或样本成数直接作为总体平均数或总体成数的估计值。1.直接换算法【例6-3】对某大学在校的20 000名大学生,对其实际月消费支出进行调查,结果表明,该20 000名大学生的月平均消费支出为1 865元,我们就推断说,该校全体大学生月消费支出为1 865元。二、抽样推断的方法第三节 抽样估计(一)点估计【例6-4】有一建筑工地,运来一批红砖,抽查600块,发现有3块破损,即样本成数为P=3/600=0.5%,则认为所有运来的红砖的破损率也为0.5%,那么要保证100万块砖的质量,并考虑砖的破损率,必须运多少砖?解:1 000 000×0.5%=5 000,即有5 000块破碎,所以要保证工程够用,必须运1 000 000+5 000=1 005 000才能保证工程顺利进行。直接换算法的优点是简便、易行、原理直观,常为实际工作者所采用。但也有不足之处,即这种估计没有表明抽样估计的误差,更没有指出误差在一定范围内的概率保证程度有多大。要解决这个问题,就必须采用区间估计的方法。二、抽样推断的方法第三节 抽样估计(一)点估计2.修正系数法修正系数法是指用抽样所得的调查结果同有关资料对比的分数来修正全面统计资料时采用的一种方法。此法要计算:修正系数=(抽样复查数-全面调查数)/全面调查数×100%【例6-5】某地区人口普查时登记人数为7 671 180人。为了核实和订正普查数字,随机抽取一部分单位进行复查,被抽查的单位在人口普查时登记数为7 602 230人,抽查登记为7 583 325人。根据抽查资料,修正该地区人口数为:修正系数=(7 602 230-7 583 325)/7 583 325×100%=0.2%该地区人口数应修正为:7 671 180×(1+0.2%)=7 690 304(人)二、抽样推断的方法第三节 抽样估计(二)区间估计1.区间估计的意义在一定概率的保证下,用样本指标去推断总体指标,在考虑抽样误差的前提下,使得总体指标落到某一范围之内,即根据抽样指标定出置信区间和置信度。因这类推断方法有一定理论基础,所以在抽样推断中被广泛应用。2.抽样极限误差前面所讨论的抽样平均误差并不是全及指标与抽样指标之间的真实误差,而是这种误差的平均数。由于未知的全及指标是一个确定的量,而抽样指标会随各个可能样本的不同而变动,它是围绕着全及指标上下随机出现的变量。它与全及指标可能产生正离差,也可能产生负离差,这样,抽样指标与全及指标之间就有个误差范围的问题。抽样误差范围就是指变动的抽样指标与确定的全及指标之间离差的可能范围。它是根据概率理论,以一定的可靠程度保证抽样误差不超过某一给定的范围。统计上把这个给定的抽样误差范围叫作抽样极限误差,也称置信区间。二、抽样推断的方法第三节 抽样估计(二)区间估计2.抽样极限误差二、抽样推断的方法第三节 抽样估计(二)区间估计2.抽样极限误差二、抽样推断的方法第三节 抽样估计(二)区间估计3.可信程度二、抽样推断的方法第三节 抽样估计(二)区间估计3.可信程度二、抽样推断的方法第三节 抽样估计(二)区间估计3.可信程度二、抽样推断的方法第三节 抽样估计如前所述,抽样误差是抽样调查不可避免的,虽然不能消除,但是可以控制,抽样的方法以及抽样的方式就是可以控制抽样误差的主要手段。那么在选定适合对象特点的抽样组织方式之后,就须决定从总体中抽取多少个样本单位。因为当进行一项抽样调查时,抽取的样本单位数越多,所得的抽样调查资料的代表性就越高,抽样推断的效果就越好;反之,如果抽样单位数越少,所得的抽样调查资料的代表性就越低。但是在确定样本容量时并不是一味地追求多样本的抽样,需要结合实际的研究情况以及调查目的,所以确定必要抽样单位数的原则是:在保证抽样推断能达到预期的可靠程度和精确程度的要求下,确定一个恰当的抽取样本单位的数目。一、确定抽样单位数的意义和原则第四节 必要抽样单位数的确定根据以上原则,首先,抽样单位数决定于调查者对一项抽样推断的可靠程度和精确程度的要求。如果要求抽样的可靠程度和精确程度比较高,那么抽样单位数就要多些;反之,就可以少些。其次,抽样单位数决定于总体标志的变异程度。总体标志的变异程度越大,须抽取的样本单位数就越多;反之,须抽取的样本单位数越少。再次,抽样单位数决定于不同的抽样组织方法。一般来说,类型抽样和机械抽样可比简单随机抽样需要的抽样单位数少,单个抽样比整群抽样需要的抽样单位数少,不重复抽样比重复抽样需要的抽样单位数少。最后,按上述依据确定的抽样单位数,还要结合调查的人力、物力和财力的许可情况加以适当调整,然后作出最后的确定。由此可见,上述几个方面都是确定抽样单位数的依据,在应用时应加以综合考虑,不能孤立地仅仅依据其中一两项因素来确定。二、确定抽样单位数的依据第四节 必要抽样单位数的确定根据上面确定抽样单位数的前三个依据,可以由抽样极限误差公式反映它们之间的联系。因此,将抽样极限误差公式加以推演,就可导出各种不同抽样方法计算必要抽样单位数的公式。计算简单随机重复抽样平均指标的必要抽样单位数公式:三、抽样单位数的计算公式第四节 必要抽样单位数的确定三、抽样单位数的计算公式第四节 必要抽样单位数的确定三、抽样单位数的计算公式第四节 必要抽样单位数的确定三、抽样单位数的计算公式第四节 必要抽样单位数的确定三、抽样单位数的计算公式第四节 必要抽样单位数的确定如何科学地组织抽样调查是抽样推断中一个重要的问题,在抽样调查之前首先要有一个抽样方案的设计。抽样方案的设计和施工的蓝图一样是抽样调查的一个总体规划,应包括如何从总体中抽取样本,说明调查要取得哪些项目的资料,用什么方法取得这些资料,要求资料的精确程度和确定必要的样本单位数目,等等。完整的抽样方案还应该包括一些必要的附件,如调查人员的培训计划、调查的问卷或调查表的设计、调查项目的编码以及汇总表的格式等,同时抽样设计必须掌握两个基本原则。一、抽样方案设计的基本原则第五节 抽样方案的确定(一)保证实现抽样随机性的原则随机原则是概率抽样的基础,只有排除了有意识地抽选样本,保证每个样本都有一个已知的概率被抽中,才能应用概率论的原理对总体作出正确的判断。若不遵守随机原则或者虽然按随机原则抽选,但抽样后未按规定进行调查,破坏了随机性的原则,就容易产生偏差。在抽样中有一种常见的破坏随机原则的现象,就是在按规定抽选样本后,有些单位看似与总体的平均水平相差很远,便故意把它们抛弃或更换。实际上抽样调查的代表性要以样本作为一个整体来代表,并不是要求每一单位均有代表性,这样做的结果就会人为地缩小样本方差,从而无法正确计算抽样误差,给抽样推断带来不好的后果。在抽样设计时一定要保证随机抽选,而且还应考虑到由于种种原因中选单位未能取得资料而须替补的方法。若不按随机原则,临时更换也容易产生偏差。例如,在抽选住户进行调查时,若该住户不在就用邻居户代替。我们知道双职工住户不在家的机会较多,而有孩子、老人的住户在家机会较多,这样更换的结果就会使双职工住户的比重下降而产生偏差。因此,随机原则是抽样调查的一个重要原则。一、抽样方案设计的基本原则第五节 抽样方案的确定(二)保证实现最大的抽样效果原则抽样调查和其他工作一样,也有一个经济效益的问题,就是如何以较小的费用支出取得一定准确程度的数据。因为任何一项抽样调查都是在一定费用的限制条件下进行的,抽样方案设计应该力求调查费用最省;也因为抽样调查的内容是千差万别的,有些要求精度(指希望估计区间的长度越短越好)较高,而有些调查并不一定要有很高的精度,因而在抽样方案设计时要视情况而定。在通常情况下,提高精度的要求和节省费用的要求往往有矛盾,因为要求抽样误差愈小,就要增加抽样单位数目,相应地要增加调查费用。但实际工作中并非抽样误差最小的方案就是最好的方案,因为不同的调查项目对于精度的要求往往是不同的。一、抽样方案设计的基本原则第五节 抽样方案的确定简单随机抽样又称纯随机抽样。它是对总体不作任何处理,不进行分类也不进行排队,而是从总体的全部单位中随机抽选样本单位。这可以有各种不同的具体做法。(一)直接抽选法从调查对象中直接抽选样本,如从仓库中存放的所有同类产品中随机指定若干箱产品进行质量检验;从粮食仓库中不同的地点取出若干粮食样本进行含杂量、含水量的检验等。(二)抽签法先给每个单位编上序号,将号码写在纸片上,掺和均匀后从中抽选,抽到哪一个单位就调查哪个单位,直到抽够预先规定的数量为止。这种方法简单易行,总体单位数目不多时也可以使用。(三)随机数码表法首先要将全及总体中所有的单位加以编号,根据编号的位数确定选用随机数码表中若干栏数字。然后从任意一栏、任意一行的数字开始数,可以向任何方向数过去,碰上属于编号范围内的数字号码就定下来作为样本单位。如果是不重复抽样,则碰上重复的数字时不要它,直到抽够预定的数量为止。二、简单随机抽样第五节 抽样方案的确定类型抽样又称分类抽样,它的优点是先对总体各单位按一定标志加以分类(层或组),然后再从各类(层或组)中按随机原则抽取样本,由各类(层或组)内的样本组成一个总的样本。(一)类型抽样的作用三、类型抽样第五节 抽样方案的确定(二)类型比例抽样方法单位数的确定三、类型抽样第五节 抽样方案的确定(三)类型适宜抽样方法单位数的确定三、类型抽样第五节 抽样方案的确定(三)类型适宜抽样方法单位数的确定三、类型抽样第五节 抽样方案的确定(四)类型抽样的抽样误差计算类型抽样将分类法与抽样原理结合运用。通过分类,将全及总体标志值比较接近的单位归为一组,这样可以避免标志值比较接近的单位同时被抽中,使样本单位的分布更接近总体分布,可以提高样本的代表性。类型抽样对每个组都要抽取样本单位,因此对于所有组来讲,实际上是全面调查,所以,各组之间方差已不再影响抽样平均误差,影响抽样平均误差的只是各组之间的方差。所以,类型抽样可以减少抽样平均误差。全及总体方差=组间方差+组内方差在计算类型抽样平均误差时,只要考虑组内方差就可以了,故类型抽样的抽样误差计算公式如下。在重复抽样条件下:三、类型抽样第五节 抽样方案的确定(四)类型抽样的抽样误差计算在实际工作中,因为不知道全及总体各类型组内方差,所以各类型组标准差平方σ2i用各类的样本标准差平方代替。各类型的成数Pi用各类型样本成数代替。三、类型抽样第五节 抽样方案的确定(一)系统抽样的概念和作用2.系统抽样的作用(1)简便易行。就简单随机抽样来说,在抽样之前须对每个单位加以编号,然后才能利用随机数码表等方法抽选样本,当总体单位很多时,编号与抽选也都比较麻烦。就等距抽样而言,只要确定了抽样的间隔和起点,整个样本的所有单位也自然确定。它可以利用现成的各种排列,如某市的服务业企业可以按照有关服务业分类的习惯顺序排列,抽样时就可以直接利用这些顺序进行等距抽样。这种抽样方法也便于推广,为不熟悉抽样调查的人员所掌握,也适合某些基层现场的抽样调查。例如,在森林调查中,常常很难在林地中划分抽样单位,然后随机抽选,而系统抽样就比较方便。(2)系统抽样的误差大小与总体单位的顺序有关。因此,当对总体的结构有一定了解时,可用已有的信息对总体进行排列后采用系统抽样,就能提高抽样效率。在一般情况下,等距抽样使本单位在总体中散布比较均匀,其抽样平均误差要小于简单随机抽样。因此,这是大规模抽样调查中一种比较常用的抽样方法。四、系统抽样第五节 抽样方案的确定(二)系统抽样排队所依据的标志不同,分为无关标志排队法和有关标志排队法1.按无关标志排队是指排队的标志与调查的内容无关例如,调查职工生活水平时,职工按姓氏笔画排队;调查学生的学习成绩,按照学生身高进行排序;对产品进行质量检查,按产品入库顺序排队等都是按无关标志排队。因为排序的指标与要研究的标志值并没有必然的联系。2.按有关标志排队是指排队的标志与调查的内容有关例如,对耕地的农产量进行调查,把地块按往年平均亩产的高低进行排队;调查学生身高,将全部学生按入校体检时的身高由高到低排列;对职工家庭生活水平进行调查,把职工按工资水平的高低进行排队等都是按有关标志排队。这类排序就是有关标志的排序。四、系统抽样第五节 抽样方案的确定(三)系统抽样按样本单位抽选的方法不同,分为随机起点等距抽样、半距中点等距抽样、对称等距抽样以及循环等距抽样1.随机起点等距抽样这是运用最为广泛的,当抽取间隔k确定以后,在第一组随机抽选一个样本单位,设该样本单位的顺序号为a,则第二个样本单位的顺序号为k+a,第三个样本单位的顺序号为2k+a,其余类推,第n个样本单位的顺序号为(n-1)k+a。当总体按无关标志排队时,随机起点等距抽样是可以应用的。当总体按有关标志排队时,随机起点等距抽样会产生系统性误差。四、系统抽样第五节 抽样方案的确定(三)系统抽样按样本单位抽选的方法不同,分为随机起点等距抽样、半距中点等距抽样、对称等距抽样以及循环等距抽样2.半距中点等距抽样无论按有关标志排队还是按无关标志排队,都可以采用这种方法,这种方法的优点是简单易懂、易于实践。当总体按有关标志排队时,采用这种方法能保证样本有充分的代表性,长期以来在大规模社会经济调查中被广泛运用,实际检验其效果也是令人满意的。但半距起点等距抽样也存在一定的局限性。首先,随机性不明显,当总体排队确定,样本容量确定,则样本单位也随之确定了。其次,只能抽取一个样本,不能进行样本轮换,抽样的利用率太低。四、系统抽样第五节 抽样方案的确定(三)系统抽样按样本单位抽选的方法不同,分为随机起点等距抽样、半距中点等距抽样、对称等距抽样以及循环等距抽样3.对称等距抽样要求在第一组随机抽取第一个样本单位,假设该单位的顺序号为a,在第二组与第一个样本单位对称的位置抽取第二个样本单位,它的顺序号为2k-a。在第三组与第二组样本单位对称的位置抽取第三个样本单位,它的顺序号为2k+a。以后抽出的样本单位序号依次为(4k-a)、(4k+a)、(6k-a)、(6k+a)……之所以采用对称等距抽样,是因为按有关标志进行排列时,如果采用直线等距抽样,第一个间隔内抽取的标志值偏大,后面的间隔内抽取的标志值也必然会比较大,这样抽取的样本的代表性就不够全面,但是对称等距抽样就不会出现类似情况,如果在第一个间隔内抽取的数较大,那么第二个间隔内的对称数就是较小的了,这样的抽取方式不仅保留了半距起点等距抽样样本代表性较好的优点,而又避免了它的局限性,我们可以任意抽取间隔内的数,不存在只能抽取一个样本群的缺陷,使其优点更加明显。四、系统抽样第五节 抽样方案的确定(三)系统抽样按样本单位抽选的方法不同,分为随机起点等距抽样、半距中点等距抽样、对称等距抽样以及循环等距抽样4.循环等距抽样四、系统抽样第五节 抽样方案的确定(四)系统抽样的抽样误差计算公式无关标志排队法等距抽样近似于简单随机抽样。因此,一般认为可以按简单随机不重复抽样方法计算抽样误差,即有关标志排队法等距抽样实质上可以看作一种特殊的分类抽样,不同的是分类更细致、组数更多,而在每个组之内则只抽选一个样本单位。因此,一般认为可以用类型抽样不重复抽样的误差公式来计算抽样误差。四、系统抽样第五节 抽样方案的确定(四)系统抽样的抽样误差计算公式四、系统抽样第五节 抽样方案的确定整群抽样是将总体划分为由总体单位所组成的若干群,然后,以群作为抽样单位,从总体中抽取若干个群体作为样本,而对中选群内的所有单位进行全面调查的抽样方式。例如,若欲调查某大学的学生身高,组成总体的基本单位是每个学生,但抽样单位可以是由学生组成的寝室、班级或专业等,对中选的寝室、班级或专业的全部学生作为样本进行观察。(一)整群抽样的作用五、整群抽样第五节 抽样方案的确定(二)整群抽样的抽样误差受三个因素影响1.抽出群数多少设所有的群数为R,抽出群的数目为r。显然抽出的r的数目越多,则抽样误差越小。2.群间方差群间方差也成组间方差,它说明群和群之间的差异度。在整群抽样时,群内方差(组内方差)无论多大都不影响抽样误差。因为对每一个群体来讲,进行的全面调查,不发生抽样误差问题。群间方差的计算方法如下:五、整群抽样第五节 抽样方案的确定(二)整群抽样的抽样误差受三个因素影响2.群间方差五、整群抽样第五节 抽样方案的确定(二)整群抽样的抽样误差受三个因素影响3.抽样方法五、整群抽样第五节 抽样方案的确定五、整群抽样第五节 抽样方案的确定(一)多阶段抽样基本理论和方法在抽样调查中,当总体个数很多,内部结构又比较复杂时,要一次从中抽取样本会产生很多困难,并且抽取的样本质量也不能保证,所以我们需要分阶段地进行抽样,即多阶段抽样,顾名思义就是在抽样调查抽选样本时并不是一次直接从总体中抽取,而是分两个或两个以上的阶段来进行,先从总体中抽取若干个大的样本群,称之为一级单位,再从抽中的一级单位中抽取若干个体,合在一起构成一个样本,叫作两阶段抽样;如果在第二步中继续抽取若干个个体,便叫作三级抽样,依次类推就叫作多阶段抽样。例如,某奶制品公司要进行全国性的产品销售情况调查,在全国的范围内,我们首先抽取几个省,接着在省中抽取若干地级市,然后抽取若干县区,最后再抽取某几个居委会或者乡村作为调查的样本单位。六、多阶段抽样第五节 抽样方案的确定(二)多阶段抽样的作用(1)当抽样调查的面很广,没有一个包括所有总体单位的抽样框,或者总体范围太大而无法直接抽取样本时,须采用多阶段抽样。例如,全国农产量调查和城市居民的住户调查,样本单位遍布全国各地,显然不可能直接一次抽到所需的样本,只能分成几个阶段来逐级抽取。(2)可以相对地节约人力与物力。从一个比较大的总体抽取一个随机样本,势必使抽到的样本单位比较分散,若要派人调查,人力和物力的支出比较大。例如,一个县要确定一些农户作样本,用一次随机抽样的样本很可能分布在全县各个乡,调查往返的路费就比较大。如果分阶段进行,先抽n个乡,然后在抽中的乡再抽若干户,这样可以使样本相对比较集中,因而可以节省人力和物力。(3)可以利用现成的行政区划、组织系统作为划分各阶段的依据,为组织抽样调查提供方便。六、多阶段抽样第五节 抽样方案的确定(三)多阶段抽样的步骤和方法以某省粮食产量调查为例。可以按行政区域划分层次,以省为总体,以县为抽样单位。步骤为:(1)从全省所有县级单位中,抽取部分县作为第一阶段抽取的样本;(2)从被抽中县的所有乡或村中,抽取部分乡或村作为第二阶段抽取的样本;(3)从被抽中乡或村的所有农户中,抽取部分农户作为第三阶段抽取的样本;(4)从被抽中农户的所有播种面积中,抽取部分地块,进行实割实测的调查,作为最基层阶段的样本,计算其样本平均亩产量,然后逐级往上综合估算平均亩产量,并推算总产量。多阶段抽样所划分的抽样阶段数不宜过多,一般以划分两个至三个阶段为宜,至多四个阶段。六、多阶段抽样第五节 抽样方案的确定(三)多阶段抽样的步骤和方法在多阶段抽样中,前几个阶段的抽样,都类似整群抽样。每一阶段抽样都会存在抽样误差。为提高抽样指标的代表性,各阶段抽取群数的安排和抽样方式,都应注意样本单位的均匀分布。首先,适当多抽第一阶段的群数,使样本单位在总体中得到均匀分布。但是,样本过于分散则需要更多的人力和经费。其次,根据方差的大小,来考虑各阶段抽取群数的多少。对于群间方差大的阶段,应当适当多抽一些群;反之,则可少抽一些群。最后,各阶段抽样时,可以根据条件,将各种抽样组织方式灵活运用,而且尽可能利用现成资料。六、多阶段抽样第五节 抽样方案的确定(四)多阶段抽样的实际应用——以城市住户抽样调查为例城市住户抽样调查内容包括:居民家庭人口状况,劳动就业状况,收入状况,文化水平程度,医疗保险状况,现金收支状况,消费水平和消费结构状况等。在城市住户的调查中,市场价格变动对各类居民家庭的实际消费水平、消费结构、消费心理及承受能力都会产生很大不确定的影响。此外居民购买主要商品的数量及变化情况,耐用消费品的拥有量及变化情况,各类居民家庭之间收入消费差异情况等也都会受到很多因素的影响。调查内容不同,但其抽样框的选取和确定却基本一样。目前在我国对于城市住户的抽样方法多采用多阶段、随机等距抽样等方法。特大城市、大城市中采用三阶段抽样,中小城市采用两阶段抽样。六、多阶段抽样第五节 抽样方案的确定(四)多阶段抽样的实际应用——以城市住户抽样调查为例1.调查户数和选户方法城市住户抽样调查户数及选户方法一般为:(1)根据现有辅助资料计算出市辖各区非农业居民占全市总计的比重。(2)确定各区第一阶段抽选第二阶段抽样单位——居委会数。(3)根据各重点调查市、县区各阶层居民家庭居住分布以及调查力量的情况,确定第三阶段整群抽样的规模,即在每个抽中居委会中抽选多少居民家庭。第一步:计算各县区非农业居民数所占比例;第二步:根据不同阶层居民家庭居住的分布情况及调查力度情况,规定从每个抽中居委会抽选25户居民家庭。如果要求调查1 000户,因此需要调查40个居委会;第三步:为了使每个调查员工作量分配均匀,应最优分配给城市抽样调查队调查员;第四步:分配好每个街道的调查员后,按照系统抽样或拟抽选合适的居委会;第五步:在抽中的居委会中抽选同等数量的居民家庭,使得调查的组织实施简单易行,同时也兼顾了各区非农业户占全市总计的比例,使样本分布相对合理,从而提高样本的效率。六、多阶段抽样第五节 抽样方案的确定(四)多阶段抽样的实际应用——以城市住户抽样调查为例2.抽样框的编制和抽选(1)第一阶段。1)抽样框的编制。我国城市“人口变动情况统计表”的起报单位一般是街道办事处,各区在上报统计局该区人口变动的情况中包括区内各街道的资料,要求将街道名称和非农业户数列出就可成为调查第一阶段的抽样框。由于各区应抽选多少街道办事处,事先已定好,因此是以区为单位抽选街道办事处的。一个城市有几个区,就应该分别做几个第一阶段抽样框,然后分区抽选。2)抽样方法。具体步骤:第一步:计算抽选距离,即计算每隔多少户抽选一个街道办事处;第二步:确定起点街道办事处;第三步:然后找到非农业居民户所在的街道办事处;第四步:接着按照规定确定其余6个应抽中的街道办事处。六、多阶段抽样第五节 抽样方案的确定(四)多阶段抽样的实际应用——以城市住户抽样调查为例2.抽样框的编制和抽选(2)第二阶段。1)抽样框的编制。第二阶段抽样单位是居委会,到抽中街道办事处索取居委会名称和各居委会居民家庭户数一览表,按表中要求登记,具体做法同第一阶段相似,便将第二阶段抽样框制作完毕。2)抽样方法。如前所述,按照系统抽样在各抽中街道拟抽选若干个居委会。(3)第三阶段。无须另行编制抽样框,可从抽中街道办事处或派出所索取抽中居委会的居民户登记册,或从抽中居委会索取类似的居民户口登记卡片,作为第三阶段的抽样框,并从中抽选最终抽样单位——居民家庭。六、多阶段抽样第五节 抽样方案的确定(一)假设检验的基本思想假设检验是先对研究总体的参数作出某种假设,然后利用样本提供的数据资料来检验事先对总体某些数量特征所作的假设是否可信的一种统计方法。当对总体参数的真实性感到怀疑,需要通过样本来考察其正确与否时,往往借助于假设检验作判断,从而决定接受或拒绝这一假设。例如,有一个厂商声称其产品的合格率可以达到99%,那么从一批产品(100件)中随机抽取1件,这一件恰好是次品的概率就非常小,只有1%。如果厂商宣称是真的,按照小概率事件原理,随机抽取1件是次品的情况几乎不可能发生,但如果这种情况发生了,我们就有足够的理由拒绝该产品中只有1%的次品这一假设。一、假设检验的基本理论第六节 假设检验(二)假设检验的两类错误一、假设检验的基本理论第六节 假设检验(二)假设检验的两类错误一、假设检验的基本理论第六节 假设检验(二)假设检验的两类错误一、假设检验的基本理论第六节 假设检验(三)假设检验的步骤和特点1.假设检验的一般步骤一、假设检验的基本理论第六节 假设检验(三)假设检验的步骤和特点1.假设检验的一般步骤一、假设检验的基本理论第六节 假设检验(三)假设检验的步骤和特点1.假设检验的一般步骤一、假设检验的基本理论第六节 假设检验(三)假设检验的步骤和特点2.假设检验的特点一、假设检验的基本理论第六节 假设检验二、单个正态总体的假设检验第六节 假设检验二、单个正态总体的假设检验第六节 假设检验二、单个正态总体的假设检验第六节 假设检验二、单个正态总体的假设检验第六节 假设检验二、单个正态总体的假设检验第六节 假设检验二、单个正态总体的假设检验第六节 假设检验二、单个正态总体的假设检验第六节 假设检验二、单个正态总体的假设检验第六节 假设检验二、单个正态总体的假设检验第六节 假设检验二、单个正态总体的假设检验第六节 假设检验二、单个正态总体的假设检验第六节 假设检验(二)一个总体方差的假设检验二、单个正态总体的假设检验第六节 假设检验(二)一个总体方差的假设检验二、单个正态总体的假设检验第六节 假设检验二、单个正态总体的假设检验第六节 假设检验二、单个正态总体的假设检验第六节 假设检验(三)一个总体成数的假设检验二、单个正态总体的假设检验第六节 假设检验(三)一个总体成数的假设检验二、单个正态总体的假设检验第六节 假设检验(三)一个总体成数的假设检验二、单个正态总体的假设检验第六节 假设检验(三)一个总体成数的假设检验二、单个正态总体的假设检验第六节 假设检验 展开更多...... 收起↑ 资源预览