资源简介 (共36张PPT)基础统计实务项目七:抽样推断分析法抽样推断分析法7.1.1抽样推断的意义抽样推断是一种非全面的调查。抽样推断是按照随机性的原则,从研究对象中抽取一部分进行观察,并根据所得到的观察数据,对研究对象的数量特征做出具有一定可靠程度的估计和推断,以达到认识总体的一种统计方法。7.1.2抽样推断的特点抽样推断的特点主要表现在以下几个方面。(1)抽样推断属于非全面调查的一种,它只调查总体中的一部分单位,而全面调查需要对总体中的所有单位都进行调查。(2)按照随机原则从总体中抽取样本单位。而典型调查、重点调查抽取样本单位时是有意识地选取单位。(3)抽样推断是用样本的指标数值去推断总体的指标数值。抽样推断的目的不在于了解部分单位的情况,而是根据这部分单位的数量特征来推断总体的数量特征。(4)抽样误差是可以事先计算并控制的。在抽样推断中,以样本指标去推断总体指标不可避免地会产生抽样误差,但抽样误差是可以事先通过一定的资料加以计算,并在抽样过程中可以采取一定的措施来控制误差,从而保证抽样推断的结果达到一定的可靠程度。抽样推断分析法7.1.3抽样推断适用范围由于抽样推断具有省时、省力、经济等特点,因此抽样推断在统计工作中应用非常广泛。(1)有些事物在测量或试验时有破坏性,不可能进行全面调查。例如炸弹的爆炸能力检测、人体血液指标化验、衣料成分含量检测等,都是有破坏性的,不可能进行全面调查,只能使用抽样推断。(2)有限总体从理论上讲可以进行全面调查,但没有必要进行全面调查。例如,了解水库里鱼尾数、城镇居民可支配收入、农民纯收入等等。对这类情况的了解一般采取抽样推断。(3)全面调查后往往采取抽样推断的方法检查其质量。如历次全国人口普查后,都要进行人口抽样,以检查人口普查中各项指标的准确性。(4)无限总体。如对生产流水线上的产品进行质量控制,可以认为产品是无限总体。抽样推断分析法7.1.4抽样推断中的一些基本概念(1)总体指标根据总体各个单位的标志值或标志特征计算的、反映总体某种属性的综合指标,称为总体指标。总体指标又称为全及指标。由于总体是唯一确定的,根据总体计算的总体指标也是唯一确定的。不同性质的总体,需要计算不同的总体指标。对于变量总体,由于各单位的标志可以用数量来表示,所以可以计算总体平均数。对于属性总体,由于各单位的标志不可以用数量来表示,只能用品质标志来描述,例如合格与不合格,所以,对于属性总体只能计算结构相对指标,称为总体成数。用大写英文字母 表示,它说明总体中具有某种标志的单位数在总体中所占的比重。变量总体也可以计算成数,即总体单位数在所规定的某变量值以上或以下的比重,视同具有或不具有某种属性的单位数比重。设总体 个单位中,有 个单位具有某种属性, 个单位不具有某种属性, , 为总体中具有某种属性的单位数所占的比重, 为不具有某种属性的单位数所占的比重,则总体成数为抽样推断分析法此外,总体指标还有总体方差 和总体标准差 ,它们都是测量总体标志值分散程度的指标。抽样推断分析法(2)样本指标根据样本各个单位的标志值或标志特征所计算的指标称为样本指标。和总体指标相对应还有样本平均数 、样本成数 、样本标准差 和样本方差 等。 和 用小写英文字母表示,以示区别。设样本 个单位中有 个单位具有某种属性, 个单位不具有某种属性, , 为样本中具有某种属性的单位数所占的比重, 为不具有某种属性的单位数所占的比重,则成数为抽样推断分析法抽样推断分析法(3)重复抽样与不重复抽样在抽样调查中,从总体中抽取样本时,根据抽取每个单位是否允许重复抽取可将抽取样本方法分为重复抽样和不重复抽样。重复抽样。其特点是:①每次抽中的单位将其数量标志登记后放回原总体,重新参加下一次抽选。②每个单位在每次抽取过程中,抽中与不抽中的机会都完全一样。不重复抽样其特点是:①每个单位最多只能被抽中一次。②每个单位抽中与不抽中的机会在各次抽选过程中是不一样的。(4)抽样的组织形式① 简单随机抽样简单随机抽样主要有以下两种做法:1)抽签法。2)随机数表法。② 分层抽样③ 等距抽样④ 整群抽样抽样推断分析法(5)抽样误差① 抽样误差抽样误差是指通过调查搜集到的数据与研究对象真实结果之间的差异。抽样误差有两类:登记性误差和代表性误差。登记性误差是指在调查过程中,由于观察、测量、登记、计算上的差错所引起的工作误差。代表性误差是指用总体中的部分单位的统计数据为代表去推断总体指标所产生的误差。随机误差可以分为抽样实际误差和抽样平均误差。② 抽样平均误差抽样平均误差是指所有可能出现的样本指标与总体指标之间的平均离差,用以反映抽样误差的一般水平。抽样推断分析法③ 影响抽样平均误差的因素1)总体标志的变异程度。总体标志变异程度越大,抽样平均误差就越大;反之,总体标志变异程度越小,则抽样平均误差就越小。2)样本容量 的多少。在其他条件不变的情况下,样本容量 越大,抽样误差就越小;反之,抽样误差越大。3)抽样方法的选择。在抽样调查时,采用何种方式和组织形式会直接影响到抽样误差的大小。在相同的情况下,不重复抽样比重复抽样的误差小,是因为重复抽样存在同一单位被多次抽中的可能,所以样本对总体的代表性就较差。④ 抽样平均误差的计算1)抽样平均数的平均误差设以 表示抽样平均数的平均误差, 表示全部可能的样本数目,则抽样推断分析法(6)抽样极限误差① 抽样极限误差的概念和计算抽样平均误差说明了某一总体的所有样本指标与总体指标间误差的平均数,但在实际工作中往往只能抽取一个样本,因此实际抽样误差一般不会等于抽样平均误差。② 抽样估计的概率度抽样极限误差 是单个样本值与总体指标值之间的绝对离差,而抽样平均误差 是所有可能样本值与总体指标值之间的平均离差,用抽样极限误差与抽样平均误差相比,从而使由单一样本值得到的抽样极限误差标准化,这样可称为抽样标准极限误差,但通常称其为概率度 或相对误差范围。③ 抽样估计的可靠程度置信区间的测定总是在一定的概率保证程度下进行的,因为既然抽样误差是一个随机变量,就不能指望抽样指标落在置信区间内成为必然事件,只能视为一个可能事件,这样就必定要用一定的概率来给予保证。抽样推断分析法7.2.1点估计点估计也称定值估计,它是以抽样得到的样本指标作为总体指标的估计量,并以样本指标的实际值直接作为总体未知参数的估计值的一种推断方法。如电信公司随机抽取了最近一个月100位客户的账单,计算每个客户的通话时长为308分钟,用这个样本均值统计量作为总体均值的一个估计量,那么这个样本均值就是被用作点估计。点估计的精度取决于样本的代表性。如果从总体中抽取了其他的随机样本,那么这些样本的点估计有可能不同。所以点估计适用于对推断准确程度与可靠程度要求不高的情况。抽样推断分析法7.2.2区间估计点估计能够给出总体参数的具体估计值,但是点估计无法提供这个估计值的精确性和可靠性。区间估计就是以一定的概率保证估计包含总体参数的一个值域,即根据样本指标和抽样平均误差推断总体指标的可能范围。它包括两部分内容:一是这一可能范围的大小;二是总体指标落在这个可能范围内的概率。区间估计既说清估计结果的准确程度,又同时表明这个估计结果的可靠程度,所以区间估计是比较科学的。用样本指标来估计总体指标,要达到100%的准确而没有任何误差,几乎是不可能的,所以在估计总体指标时就必须同时考虑估计误差的大小。抽样推断分析法在重复抽样情况下,抽样平均数的平均误差 与总体标准差 和样本容量 有关,计算公式不重复抽样条件下,抽样平均数的平均误差 不仅与总体标准差 和样本容量 有关,还和总体单位数 有关,其计算公式抽样推断分析法由于 和 是预先给定的抽样方案中所允许的误差范围,所以利用 和 可以反过来估计未知的总体指标的取值可能的范围。抽样推断分析法在抽样调查时,应当确定一个适当的样本容量,也就是抽取多大的样本来估计总体参数。样本的容量越大,抽样误差就越小,但是样本容量越大,成本就越高;样本容量过小,使得抽样误差增大。抽样推断分析法7.3.1样本容量的概念7.3.2影响样本容量的因素(1)总体各单位标志值的差异程度。在其他条件不变的情况下,总体各单位标志值的差异度越大,样本对总体的代表性就越小,就需要更大的样本容量;总体各单位标志值的差异度越小,样本对总体的代表性就越大,就需要小一些的样本容量。(2)抽样极限误差的大小。在其他条件不变的情况下,要求的抽样误差越小,则需要需要的样本容量越大,反之也亦然。对于重复抽样而言,在其他条件不变的情况下,误差范围缩小 ,则样本容量必须增加至4倍;而误差范围扩大1倍,则样本容量只需原来的 。(3)抽样推断的置信度。抽样推断要求的置信度越高,则需要的样本容量越大,如果要求的置信度越低,则需要的样本容量则可以小一些。抽样推断分析法7.3.3样本容量的计算(1)推断总体均值时样本容量的确定重复抽样时:不重复抽样时:(2)推断总体成数时样本容量的确定① 重复抽样时:抽样推断分析法② 不重复抽样时:抽样推断分析法7.3.4样本容量的计算时应注意的问题(1)计算得到的样本容量如果是小数时,一般是取整,小数是只进不舍,而不是通常的四舍五入的方法。(2)在相同条件下,不重复抽样需要的样本容量要比重复抽样的样本容量要小。在实际工作中,一般 比较大时,两个公式的计算的结果相差不大,所以计算一般使用重复抽样的公式以简化计算。(3)对于同一总体既要进行样本平均数的推断,又要进行样本成数的推断时,应采用较大的样本容量,使之同时满足两个指标的抽样要求。抽样推断分析法相关分析与回归分析法8.1.1相关关系的含义(1)函数关系函数关系是指变量之间存在的一种完全确定性的一一对应关系,在这种关系中,对于某一变量的一个数值,都有另一变量的唯一确定的值与之对立。客观世界的各种现象之间,特别是在自然界,广泛存在着函数关系。(2)相关关系相关关系是指变量之间的一种不完全确定的关系,即对于某一变量的每一个数值,另一变量有若干个数值与之相适应在相关关系中,相互联系的现象之间通常存在着一定的、因果关系,这时就把其中起着影响作用的变量叫作自变量(用x来表示),由于受到自变量响而发生变动的变量叫作因变量(用y来表示)。8.1.2相关关系的类型(1)按变量之间相关因素的多少分按变量之间的相关因素的多少分,有单相关和复相关。(2)按变量之间相关关系的方向分按变量之间相关关系的方向分,有正相关和负相关。(3)按变量之间相关关系的表现形式分按变量之间相关关系的表现形式分,有直线相关和曲线相关。(4)按变量之间相关的程度分按变量之间相关的程度分,有完全相关、不相关和不完全相关。相关分析与回归分析法8.1.3相关关系分析的内容(1)相关分析通过相关分析,确定现象之间有无关系及相关关系的表现形式。① 确定现象之间相关关系的类型由于相关分析的研究对象是现象之间的相关关系,然而现象之间有无关系是个定性认识的问题。所以进行相关分析之前,首先要根据经济理论、专业知识和实践经验对被研究对象进行定性判断。当确认现象之间具有相关关系时,才能运用相关分析方法进行定量分析。为了验证定性判断是否正确,还要运用大量的实际资料,通过编制相关表、绘制相关图及计算相关系数对被研究现象是否真正存在相关关系,以及相关关系的形式做出进一步的判断。② 测定现象之间相关关系的密切程度由于相关关系是一种不严格的数量关系,它们的关系有的不大密切,有的比较密切。所以相关分析的一个重要内容,就是要从现象之间不严格的数量关系中想办法来判断它们之间相关关系的密切程度,只有相关关系的密切程度达到一定的标准,对其进行研究才具有实际意义。判断相关关系密切程度的主要方法是计算相关系数或相关指数。相关图表能帮助我们做出一般性的判断,相关系数能从数量上明确说明直线相关关系的密切程度与方向,要确定曲线相关关系的密切程度则需要计算相关指数。相关分析与回归分析法(2)回归分析通过回归分析,说明现象变量之间的数量影响关系。① 建立相关变量之间的一般关系的数学表达式(即回归方程)如果相关的程度高,就需要进行回归分析,即建立相关变量之间的一般关系的数学表达式。如果现象之间表现为直线相关,采用配合直线方程的方法;如果表现为曲线相关,就采用配合曲线方程的方法。所配合的方程称为回归方程式,它是进行判断、推算和预测的依据。② 对因变量估计值的可靠程度进行检验根据回归方程,可以给出自变量的若干数值,求得因变量的相应的估计值。估计值与实际值之间存在误差的,确定因变量估计值误差大小的指标叫作回归误差。回归误差越小,则因变量估计值的可靠程度越高;反之,因变量估计值的可靠程度越低。相关分析与回归分析法8.2.1相关表和相关图对两个现象变量作相关分析时,首先必须取得一系列的成对的统计资料。这是相关分析的原始数据。根据资料是否经过分组,相关表可以分为简单相关表与分组相关表。简单相关表是指根据总体单位的原始资料,将其中一个变量的数值按一定的顺序排列,同时列出与之对应的另一个变量的变量值而形成的表格。例如,研究棉纱产量与单位成本之间的关系,搜集数据排列形成表8—1就是简单相关表。相关分析与回归分析法月份 产量(吨) 单位成本(千元/吨)1 97 7.22 100 73 103 6.94 109 6.75 110 6.56 115 6.57 108 7.28 106 7.29 114 6.810 118 6.8表8—1 某种棉纱产量与单位成本之间的关系相关分析与回归分析法相关图也称散点图,是根据原始数据,在直角坐标中绘制出两个变量相对应的观察值的所有点,从这些点的分布情况观察分析两个变量间的关系,这个图称为相关图。该图表明相关点分布状况,如将上表的资料画在一坐标系中,以x轴代表产量,y轴代表单位成本,各点的分布状况如图,即散点图(相关图)。相关分析与回归分析法分组相关表和相关图当相关资料包括的对应数值很多时,直接根据两变量各原始值编制相关表、绘制相关图进而计算各相关指标,工作量很大,且相关表会很长,也不方便,相关图也不好绘制,在这种情况下,可编制分组相关表或绘制分组相关图。分组相关表是指将原始资料按某一变量的变量值进行统计分组,并计算相对应的变量值的平均数以后整理形成的表格。例如,为研究耕作深度与亩产量的关系,分别搜集了30块地的耕作深度与亩产量的数据,共60个数据值。由于数据多,所以把30块地按耕作深度分组,形成成分组相关表如表8一2。耕作深度(厘米) 田块数(块) 平均亩产量(公斤/亩)81012141618 459741 427498568631683734合计 30 ——表8—2 某乡某农作物耕作深度与平均亩产量分组资料相关分析与回归分析法8.2.2相关系数相关关图表可以帮助我们直观地看出所观察的两个现象的数量变动之间是否存在直线相关关系和相关方向。相关系数是研究和判断两个现象之间线性相关密切程度大小的一个统计分析指标。通常用r来表示。相关系数的最简单的一种计算方法是积差法,它是用两个变量的协方差与其标准差的乘积之比来计算的。其计算公式如下:从上式可以看到,相关系数的性质表现为:(1)取值范围是在一1和+1之间,即一l≤r≤+1;(2)r>0为正相关,r<0则为负相关;(3)r的绝对值越接近于1,表示相关关系越强,越接近于0,表示相关关系越弱;(4)|γ|=1,则表明两个变量完全相关,r=0,则表明两个变量不存在直线相关关系。相关分析与回归分析法分组相关表更能清晰地反映两变量之间相关关系的存在。从分组相关表中可以看出,耕作深度每增加2厘米,平均亩产量增加大致均等的量(即60公斤左右),由此可以初步判断耕作深度与亩产量之间存在直线正相关关系。相关分析与回归分析法8.3.1回归分析的意义(1) 回归分析的含义和种类(2)回归分析的特点一元线性回归分析具有以下特点:① 区分自变量和因变量。两含变量不是对等的,必须区分出自变量和因变量。如果是互为因果关系则根据研究的目的来确定因变量(y)与自变量(x)。② 求回归方程。在没有明显的因果关系的两个变量x与y之间可以求得两个回归方程——y依x的回归方程及x依y的回归方程。两个方程是互相独立的,不能互相替换。③ 回归方程的作用。回归方程的主要作用在于给出自变量的数值来估计因变量的数值。一个回归方程只能做一种推算。相关分析与回归分析法8.3.2直线回归方程的建立与应用直线的一般方程为:y=a+b x,这个方程中的y值是x值的函数,是确定性关系,也就是说只要给定一个x值,y值也就随之确定,但是前面已经讲过,具有相关关系的两个变量之间的数量关系是不严格的、非确定性的。方程式应改写为:式中, 表示因变量的估计值, 为自变量的实际值;a、b为待定参数。其几何意义是:a是直线方程的截距,b是斜率。其经济意义是:a是当x为零时y的估计值,b是当x每变动一个单位时,y平均变动的数量,b也叫回归系数。回归系数b的符号与相关系数r的符号一致并且意义相同。当b的符号为正时,自变量和因变量同方向变动;当b的符号为负时,自变量和因变量反方向变动。回归系数b与相关系数r的区别是:相关系数r的取范围是确定的,即一1至+1之间,而回归系数b的取值并没有一个确定的范围,其大小是依据y的计量单位而确定。相关分析与回归分析法最小平方法配合直线,就是要求实际值与回归值的离差平方和最小。其求a、b参数的方法同任务五中介绍的。相关分析与回归分析法8.3.3回归标准误差估计标准误差是用来说明回归方程代表性大小的统计指标。它是以回归直线为中心反映各观察值与估计值平均数之间离差程度的大小,从另一方面看,也就是反映着估计值平均数yc的代表性的可靠程度,其计算原理与标准差基本相同,计算公式如下:?估计标准误差的计算有两种方法:公式中Syx代表估计标准误差,即x为自变量,y为因变量时的估计标准误差。此种方法在计算时运算量比较大的,也比较麻烦,需计算出所有的估计值。如果已经有了直线回归方程的参数值,可用下面方法计算。在相关回归分析中,估计标准误差的作用主要表现在两个方面:一是可以说明以回归直线为中心的所有相关点的离散程度。估计标准误差值愈小,则所有观察点愈靠近回归直线即关系愈密切;反之,则所有观察点离回归直线愈远,即愈不密切。二是可以说明回归直线的代表性大小。??相关分析与回归分析法 展开更多...... 收起↑ 资源预览