资源简介 (共65张PPT)相关与回归分析第八章返回键人均寿命的影响因素分析根据2010年第6次全国人口普查详细汇总资料计算,我国人口平均预期寿命达到74.83岁,比2000年的71.40岁提高3.43岁。按性别来区分,男性为72.38岁,比2000年提高2.75岁;女性为77.37岁,比2000年提高4.04岁。按地区来区分,虽然各省市的人均寿命都比10年前显著提高了,但各省市之间仍存在明显的差别,东部省市的人口平均预期寿命普遍高于中西部地区。2010年世界人口的平均预期寿命为69.6岁,其中高收入国家及地区为79.8岁,中等收入国家及地区为69.1岁。可见,我国人口平均预期寿命不仅明显高于中等收入国家及地区,也大大高于世界平均水平,但比高收入国家及地区平均水平低5岁左右。导入案例键人均寿命的影响因素分析导入案例分析影响人均寿命的因素根多,不仅有经济发展、医疗卫生、文教体育等方面的发展水平,也有人口结构、自然环境及其他因素。各地区的人均寿命究竟与哪些因素或变量密切相关呢?如何找出导致不同地区寿命存在显著差异的主要影响因素?人均寿命与其主要影响因素之间存在什么样的数量依存关系?如何根据各主要影响因素的变化对人均寿命进行预测呢?通过学习本章的内容就能找到答案。目录1第一节 相关关系的概念和种类2第二节 相关关系的测定3第三节 一元线性回归分析第一节 相关关系的概念和种类1一相关关系的概念和种类一、相关关系的概念在自然界和社会中的许多事物或现象,彼此之间都是有机地相互联系、相互制约的。离开周围的现象和条件而孤立地存在的现象是不存在的。事物或现象的相互联系、相互制约,构成错综复杂的客观世界,构成世界的运动和发展。社会经济现象也是在错综复杂的相互联系中存在和发展的,任何一个部门的现象都会影响到其他部门,并受到其他部门的影响和制约。在企业内部的生产和经营活动也是如此。所有各种现象之间的相互联系,都可以通过数量关系反映出来。一相关关系的概念和种类(一)确定性关系如果进一步加以考察,可以发现,现象之间的相互联系一般可以区分为两种不同的类型:确定性关系也称为函数关系。函数关系反映着现象之间存在着严格的依存关系。在这种关系中,对于某一变量的每一数值,都有表达式反映出来。例如:圆的面积对于半径的依存关系就是属于确定性关系。若是用S 表示圆的面积、 R表示半径,则二者的关系就是:一相关关系的概念和种类这里,圆的面积是随半径的大小而变动的,当 R的值一经确定,就可以得到S 的确定的值。在工业企业里,产品的总价值 V与单位产品价格 p,产品总产量 q三者之间的关系可表示为:若单位产品价格 p保持不变,则产品总价值V 便随着总产量 q的增加或减少而成比例地变动。由此可见,确定性关系反映现象之间具有严格的依存性,当一个变量发生变动,另一个变量便严格地按照一定的规律作相应的变动。客观世界的各种现象之间,特别是在自然界,广泛存在着函数关系。一相关关系的概念和种类(二)相关关系相关关系的主要特征是:某一现象的标志值与另外的标志值之间存在着一定的依存关系,但与函数关系不同,即它们不是确定的和严格依存的。在这种关系中,对于某项标志的每一个数值,可以有另外标志的若干个数值与之相适应,表现一定的波动性,但又总是围绕着它们的平均数并遵循一定的规律而变动。这种依存关系称为相关关系。例如:每亩耕地的施肥与亩产量之间存在着一定的依存关系。在一般情况下,施肥量适当增加,亩产量便相应地提高。但是亩产量的增长与施肥量增长的数值之间,并不存在严格的依存关系。因为对每亩耕地的产量来说,除了施肥量多少这一因素外,还受到种子品质、土壤条件、降雨降雪量等其他因素的影响。但即使如此,它们之间仍然存在着一定的规律性,即在一定范围内,随施肥量的增加,亩产量便相应地有所提高。一相关关系的概念和种类在各种经济活动和生产过程中,许多经济的、技术的因素之间,都存在着这种相关关系。分析这种关系的内在联系和表现形式以研究和掌握其规律性,是统计研究的一项重要任务。函数关系与相关关系是两种不同类型的关系,但是它们之间并不存在严格的界限。由于在观察或实验中出现的误差,函数关系也有时通过相关关系反映出来,而当现象之间的内在联系和规律性了解得更加清楚的时候,相关关系又可能转化为函数关系。在相关关系中,通常在相互的现象中间存在着一定的因果关系,这时就把其中的起着影响作用的现象具体化,通过一定的标志反映出来。这样的标志称为自变量,把由于受到自变量变动的影响而发生变动的某项标志,称为因变量。一相关关系的概念和种类二、相关关系的种类根据现象变量之间相关的形态和特征,我们可以把相关关系分为以下几种。按照研究变量个数分为:单相关、复相关和偏相关。两个变量之间的相互关系,称为单相关。当所研究的是一个变量对两个或两个以上其他变量的相关关系时,称为复相关。当我们研究多个变量之间的关系时,如果假定其他变量不变,其中两个变量的相关关系称为偏相关。例如,某种商品的需求量与其价格水平之间的相关关系为单相关;某种商品的需求量与其价格水平、人们收入水平之间的相关关系为复相关;在假定人们收入不变的条件下,某种商品的需求量与其价格水平之间的关系为偏相关。(一)按照所研究变量个数的多少划分一相关关系的概念和种类(二)按照相关关系的程度划分按照相关关系的程度分为:完全相关、不完全相关和不相关。当一个变量的变化完全由另一个变量确定时,称这两个变量之间的关系为完全相关,例如,在价格不变的条件下,某种商品的销售收入由其销售量完全确定,这时,相关关系实际上是函数关系,因此,可以说,函数关系是相关关系的一个特例。当两个变量彼此互不影响,相互独立,我们称这两个变量之间为不相关。例如,人的姓氏笔画和收入之间是不相关的。介于完全相关和不相关之间的两个变量之间的关系,称为不完全相关。我们可以用图8-1表示变量相关程度之间的这三种关系。一相关关系的概念和种类(a)完全相关 (b)不完成相关 (c)完全不相关一相关关系的概念和种类按照相关关系表现的形态分为:线性相关和非线性相关。当两个变量之间的关系大致呈现为线性关系时,称这两个变量之间的关系为线性相关。如果两个变量之间的关系大致近似于某种曲线方程的关系,则这两个变量之间的关系为非线性相关关系。我们可以用图8-2表示出相关关系的两种表现形态。(三)按照相关关系表现的形态划分一相关关系的概念和种类(a)线性相关 (b)非线性相关一相关关系的概念和种类按相关变量变化的方向分为:正相关和负相关。当一个变量增加时,相应的另一个变量随之也增加,我们称这两个变量之间为正相关;反之,当一个变量增加时,相应的另一个变量随之减少,我们称这两个变量之间为负相关。例如空气中污染物的数量与人口寿命呈负相关关系,而身高和体重之间为正相关关系。我们可以用图8-3表示出变量之间的方向的变化。(四)按照相关变量变化的方向划分一相关关系的概念和种类(a)正相关 (b)负相关一相关关系的概念和种类三、相关关系分析的主要内容相关关系分析的目的在于研究现象之间相互依存关系的形式及密切程度,并用一定的数学形式把这种关系反映出来,为统计估算和预测提供重要的依据和方法。相关关系分析的内容具体包括:(1)确定现象之间是否存在相关关系及相关关系的种类现象之间有无相关关系是能否运用相关关系分析法的前提。确定现象之间有无相关关系的方法有两种:一是作定性判断,它是从现象之间的本质联系着手,根据有关的理论及实践经验进行分析研究来判断的;二是绘制相关图表,判断现象之间有无相关关系,相关的方向、形式等。一相关关系的概念和种类(2)确定现象之间相关关系的密切程度当现象之间存在相关关系时,就要测定它们之间相关关系的密切程度,为进一步分析研究问题提供依据。确定现象之间相关关系密切程度的方法是:绘制相关图和计算相关系数。相关图对相关关系的密切程度可以做出粗略的判断,而相关系数能从数量上对经济现象之间的相关程度做出明确的测量。(3)建立现象之间数量变动关系的数学方程式当变量之间至少呈现显著相关时,可以选择一个适当的数学模型近似地描述现象之间的变动规律,这里的数学模型称为回归方程,用以说明自变量发生变动时,因变量平均来说会发生多大的变化。一相关关系的概念和种类(4)计算因变量的佑计标准误差根据变量之间变动关系的数学方程式可以计算出各个因变量的估计值,这些估计值与实际值之间存在一定的差异。差异小,表示估计值比较可靠,回归方程的代表性高;差异大,表示估计值不准确,回归方程的代表性低。所以相关关系分析还要测定因变量估计值和实际值之间差异的大小,用以反映因变量估计值的准确程度及回归方程的代表性高低。这种用来反映因变量估计值准确程度的指标叫估计标准误差。其中,研究现象之间是否存在相关关系、相关关系的种类及相关关系的密切程度的内容属于相关分析。根据变量之间变动关系的数学方程式计算各个因变量的估计值,并且通过计算估计标准误差判断估计值的准确性、回归方程的代表性等内容属于回归分析。第二节 相关关系的测定2二相关关系的测定一、定性分析(一)相关表判别现象之间有无相关关系有两种方法,一种是定性分析,另一种是定量分析。相关表是一种统计表,它是直接根据现象之间的原始资料,将一变量的若干变量值按从小到大的顺序排列,并将另一变量的值与之对应排列形成的统计表。定性分析是依据研究者的理论知识、专业知识和实践经验,对客观现象之间是否存在相关关系以及有何种相关关系做出的判断,并可在定性认识的基础上,编制相关表、绘制相关图,以便直观地判断现象之间相关的方向、形态及大致的密切程度。二相关关系的测定【例8-1】某财务软件公司在全国有许多代理商,为研究它的财务软件产品的广告投入与销售额的关系,统计人员随机选择310家代理商进行观察,搜集到年广告投入费和月平均销售额的数据,并编制成相关表,如表8-1所示。表8-1 广告费与月平均销售额相关表 单位:万元年广告费投入 月均销售额12.5 21.215.3 23.923.2 32.926.4 34.133.5 42.534.4 43.239.4 49.045.2 52.855.4 59.460.9 63.5二相关关系的测定从表中可以直观地看出,随着广告投入费的增加,销售量也增加,两者之间存在一定的正相关关系。二相关关系的测定(二)相关图相关图又称散点图,它是用直角坐标系的x轴代表自变量,y轴代表因变量,将两个变量间相对应的变量值用坐标点的形式描绘出来,用以表明相关点分布状况的图形。根据表8-1的资料可以绘制相关图,如图8-4所示。从相关图可以直观地看出年广告费投入与月平均销售额之间相关密切,且有线性正相关关系。图8-4 广告投入与销售额的相关图二相关关系的测定二、定量分析相关表和相关图可反映两个变量之间的相互关系及其相关方向,但无法确切地表明两个变量之间相关的程度。著名统计学家卡尔 皮尔逊(Karl Pearson)设计了统计指标—相关系数,它是用以反映变量之间相关关系密切程度的统计指标。依据相关现象之间的不同特征,其统计指标的名称也有所不同。例如,将反映两变量间线性相关关系的统计指标称为相关系数(相关系数的平方称为判定系数);将反映两变量间曲线相关关系的统计指标称为非线性相关系数、非线性判定系数;将反映多元线性相关关系的统计指标称为复相关系数。二相关关系的测定相关系数用的测定方法,直接来源于数理统计中相关系数的定义。在这里,我们不对公式做理论上的推导和证明,只简要介绍各公式间的联系。相关系数的定义公式为式中 n 表示资料项数;表示 x 变量的标准差;表示 y 变量的标准差;表示两个变量的协方差。(8-1)二相关关系的测定公式(8-1)的分子分母中,有公因子1/n ,同时化简得公式(8-2)是通过各个变量离差乘积的方法来计算相关系数的,也称为“积差法”相关系数公式。由于各变量的离差通常带有小数,因而“积差法”公式的计算结果往往缺乏准确性。在实际应用中,如果依据原始资料计算相关数,可将公式(8-2)简化计算。(8-2)二相关关系的测定现将公式(8-2)的分子分母转换为把以上结果代入公式(8-2),可得(8-3)二相关关系的测定相关系数的值介于-1与+1之间,即-1≤ r ≤+1。其具有下面几种性质。(1)当 r >0时,表示两变量正相关,当 r<0时,表示两变量负相关。(2)当| r |=1时,表示两变量为完全线性相关,即为函数关系。(3)当r =0时,表示两变量间无线性相关关系。(4)0<| r |<1时,表示两变量存在一定程度的线性相关。| r |越接近于1,两变量间线性关系越密切;|r |<0.4为低度线性相关;0.4≤| r |<0.7为显著性相关;0.7≤| r |<1为高度线性相关。二相关关系的测定【例8-2】根据表8-1的资料,计算相关系数。根据表8-1相关数据,得相应表8-2所列数据。表8-2 相关系数计算表序号 广告投入x (万元) 月均增销额 y(万元)1 12.5 21.2 156.25 449.44 265.002 15.3 23.9 234.09 571.21 365.673 23.2 32.9 538.24 1082.41 763.284 26.4 34.1 696.96 1162.81 900.245 33.5 42.5 1122.25 1806.25 1423.756 34.4 43.2 1183.36 1866.24 1486.087 39.4 49.0 1552.36 2401.00 1930.608 45.2 52.8 2043.04 2787.84 2386.569 55.4 59.4 3069.16 3528.36 3290.7610 60.9 63.5 3708.81 4032.25 3867.15合计 346.2 422.5 14304.52 19687.81 16679.09二相关关系的测定将表8-2有关数据代入相关系数公式得:相关系数为0.9942,说明广告投入费与月平均销售额之间有高度的线性正相关关系。解二相关关系的测定这里需要指出的是,相关系数有一个明显的缺点,即它接近于1的程度与数据组数 n 相关,这容易给人一种假象。因为当 n 较小时,相关系数的波动较大,对有些样本相关系数的绝对值易接近于1;当 n 较大时,相关系数的绝对值容易偏小。特别是当 n=2时,相关系数的绝对值总为1。因此在样本容量 n 较小时,我们仅凭相关系数较大就判定变量 x 与 y 之间有密切的线性关系是不妥当的。例如,在研究我国深沪两股市资产负债率与每股收益率之间的相关关系时发现1999年资产负债率前40名的上市公司,两者的相关系数为r =-0.6139;资产负债率后20名的上市公司,两者的相关系数 r =0.1072而对于沪、深全部上市公司(基金除外)的结果却是,r =-0.5509,r =-0.4361,根据三级划分方法,两变量为显著性相关。这也说明仅凭 的计算值大小判断相关程度有一定的缺陷。第三节 一元线性回归分析3三一元线性回归分析一、回归分析的含义相关分析中的相关系数指标,可以从数量上说明在直线相关的条件下,变量之间相关关系的方向和密切程度,但它不能反映一个变量发生一定数量的变化,另一个变量会发生多少变化。为解决这一问题,就必须采用回归分析方法。三一元线性回归分析回归分析通过一个变量或一些变量的变化解释另一变量的变化。其主要内容和步骤是:首先,根据理论和对问题的分析判断,将变量分为自变量和因变量;其次,设法找出合适的数学方程式(即回归模型)描述变量间的关系;由于涉及的变量具有不确定性,接着还要对回归模型进行统计检验;统计检验通过后,最后是利用回归模型,根据自变量的数值去估计因变量的数值。三一元线性回归分析回归分析可以从不同的角度划分为不同的种类。按照自变量的个数多少可分为一元回归分析和多元回归分析,只有一个自变量的回归分析叫一元回归分析,有两个或两个以上自变量的回归分析叫多元回归分析;按照回归的形式可分为直线回归分析和曲线回归分析。这里我们只讨论一元直线回归分析。三一元线性回归分析二、相关分析和回归分析的关系(一)相关分析和回归分析的联系相关分析是回归分析的基础和前提,回归分析则是相关分析的深入和继续。相关分析需要依靠回归分析来表现变量之间数量相关的具体形式,而回归分析则需要依靠相关分析来表现变量之间的相关程度。只有当变量之间存在高度相关时,进行回归分析寻求其相关的具体形式才有意义。如果在对变量之间是否相关以及相关方向和程度做出正确判断之前,就进行回归分析,很容易造成“虚假回归”。与此同时,相关分析的具体形式,也无法从一个变量的变化来推测另一个变量的变化情况,因此,在具体应用过程中,只有把相关分析和回归分析结合起来,才能达到研究和分析的目的。三一元线性回归分析(二)相关分析和回归分析的区别(1)在相关分析中涉及的变量不存在自变量和因变量的划分问题,变量之间的关系是对等的;而在回归分析中,则必须根据研究对象的性质和研究分析的目的,对变量进行自变量和因变量的划分。因此,在回归分析中,变量之间的关系是不对等的。(2)在相关分析中所有的变量都必须是随机变量;而在回归分析中,自变量是给定的,因变量才是随机的。(3)相关分析主要是通过一个指标即相关系数来反映变量之间相关密切程度的大小,由于变量之间是对等的,因此相关系数是唯一确定的;而在回归分析中,对于互为因果关系的两个变量(如人的身高与体重),则有可能存在多个回归方程。三一元线性回归分析三、一元线性回归方程一元线性回归方程(regression equation),亦称直线方程,是分析一个自变量 x 与一个因变量 y 之间线性关系的数学方程。方程的基本形式为(8-4)三一元线性回归分析a和b 称为回归方程中的两个待定参数,是需要根据相关表中的 x 与 y 的实际资料求解的数值,a 和 b 的值确定了直线的位置,而它们一旦确定,这条直线就被唯一确定了。但用于描述这 n 组数据的直线有许多条,究竟用哪条直线代表两个变量之间的关系,则需要有一个原则。即希望这条直线离各离散点最近,具体表述为对于相关表中的 x,它对应的实际数值 y 同这条直线上的理论值 yc 的离差平方和为最小值。用公式表示为(8-5)三一元线性回归分析设 ,则 Q 是两个待定参数 a 和 b 的函数。要使 Q 为最小值,就要用对二元函数求极值的原理,求 Q 关于 a 和 b 的偏导数,并令其等于零。经过整理得出直线回归方程中求解参数 a 和 b 的标准方程组:(8-6)解此方程租,得出求解 a、b 的计算公式(8-7)根据这一思想确定未知参数 的方法,称为最小平方法(least squares analysis)。三一元线性回归分析【例8-3】表8-3给出的2013年国内10个品牌啤酒广告费用及销售量为例,运用最小平方法,求解回归方程数 ,并建立一元线性回归模型。正文表8-3 2013年国内10个品牌啤酒广告费用及销售量表广告费用(万元) 120 68.7 10.1 76.6 8.7 1 21.5 1.4 5.3 1.7销售量(万箱) 36.3 20.7 15.9 13.2 8.1 7.1 5.6 4.4 4.4 4.3三一元线性回归分析设所建立的一元线性回归方程为:yc=a+bx ,其中,广告费用为x ,销售量为 y。根据表8-3资料可得表8-4的结果。解表8-4 直线回归模型计算编号 广告费用 万元 销售量 /万箱1 120 36.3 14400 43562 68.7 20.7 4719.69 1422.093 100.1 15.9 10020.01 1591.594 76.6 13.2 5867.56 1011.125 8.7 8.1 75.69 70.476 1 7.1 1 7.17 21.5 5.6 462.25 120.48 1.4 4.4 1.96 6.169 5.3 4.4 28.09 23.3210 1.7 4.3 2.89 7.31合计 405 120 35579.14 8615.56三一元线性回归分析根据最小平方法确定参数的公式,可计算出参数 a 为 b将 a和b 代入回归方程,则三一元线性回归分析回归直线确定后,将各品牌啤酒的广告费用依次代入方程式,即可求得相应的销售量理论值。根据所建立的直线回归方程,也可以进行外推预测。例如,广告费用为110万元,在其他条件相对稳定时,可以预测其销售量为(万箱)三一元线性回归分析在这里,下列几个问题应引起注意。(1)回归方程中, a =4.07,是销售量的起点值,即广告费用 x=0 时, yc的值。(2)b 称为回归系数(regression coefficient)。b =0.1958,表示广告费用每增加一个单位((1万元),啤酒销售量平均增加0.1958个单位(万箱)。(3)由于 b 的计算公式中的分子与相关系数 r 计算公式中的分子完全一样,且 b 与r 为正值还是负值,其符号均取决于这个分子,所以,回归系数 b 与相关系数 r 的符号必然一致。即通过回归系数 b 的符号可判断两变量相关的方向。(4)回归系数 b 与相关系数 r 之间还存在密切的数量关系,两者可相互推算。根据相关 和回归系数 ,可知 ,亦即 。三一元线性回归分析(5)另外,一个直线回归方程只能做一种推算,不能反向进行推算。也就是说,只能以自变量 x 推算因变量 y,而不能以因变量 y 推算自变量 x 。如上例所配合的直线回归方程,只能在给定广告费用数值时推算销售量,不能以给定的销售量数值反过来推算广告费用。若根据研究需要,想了解当销售量一定时,相对应的广告费用数值应达到多少,则应建立 x 对 y 的直线回归方程,即 xc=c+dy 。式中 c 与 d 的意义与公式 yc=a+bx 中 a、b 意义相同,均为待定参数,只是 x 与 y 的位置互换而已。同样采用最小平方法,确定出参数 c 与 d 公式为(8-8)三一元线性回归分析【例8-4】根据表8-3给出的2013年国内10个品牌啤酒广告费用及销售量,预测若销售量为30万箱时,相对应的广告费用数值。若要预测销售量为30万箱时,相对应的广告费用数值,需建立以销售量 为自变量,广告费用 为因变量的直线回归模型,然后将自变量数值代入方程,得到因变量的估计值,见表8-5。解表8-3 2013年国内10个品牌啤酒广告费用及销售量表广告费用(万元) 120 68.7 10.1 76.6 8.7 1 21.5 1.4 5.3 1.7销售量(万箱) 36.3 20.7 15.9 13.2 8.1 7.1 5.6 4.4 4.4 4.3三一元线性回归分析表8-5 直线回归模型计算编号 广告费用 万元 销售量 /万元1 120 36.3 1317.69 43562 68.7 20.7 428.49 1422.093 100.1 15.9 252.81 1591.094 76.6 13.2 174.24 1011.125 8.7 8.1 65.61 70.476 1 7.1 50.41 7.17 21.5 5.6 31.36 120.48 1.4 4.4 19.36 6.169 5.3 4.4 19.36 23.3210 1.7 4.3 18.49 7.31合计 405 120 2377.82 8615.06三一元线性回归分析根据最小平方法确定参数的公式,可计算出参数 c 与 d 为将 c 和 d 代入回归方程 ,则 ,显然,此时的回归方程与原来的回归方程是两条不同的回归直线,具有不同的斜率和意义,只能给定自变量来推算因变量。当销售量为30万箱时,相对应的广告费用理论数值为:(万元)三一元线性回归分析四、估计标准误差根据直线回归方程,按给定的自变量值可以推算出相应的因变量值,即得出估计值 yc。而估计值 yc与其对应的实际观察值 y之间可能一致,也可能不一致,它们之间存在一系列离差,有的是正差,有的是负差。这些离差称为统计估计误差。这种估计误差的大小,可以说明推算结果的准确程度,即回归方程估计的准确程度。同时,统计上,一般是通过计算“估计标准误差”指标来反映回归方程的代表性的。若误差大,说明回归方程的代表性低;若误差小,则说明回归方程的代表性高。三一元线性回归分析估计标准误差(standard error of the estimate)是指因变量实际值与理论值离差的平均值,其计算原理与能够反映平均数代表性大小的标准差基本相同,定义公式为(8-9)式中:Syx 为估计标准误差,其下标 yx 代表 y 依 x 而回归的方程;yx 为根据回归方程推算出来的因变量的估计值; y 为因变量的实际值;n 为数据的项数。利用定义式计算估计标准误差,需要计算所有的估计值,计算量大,且计算比较麻烦。将定义式中yc 用 a+bx 替代,经过化简,可得如下的计算公式:(8-10)三一元线性回归分析【例8-5】现仍以表8-3的有关资料为例,计算估计标准误差。根据表8-3和表8-5中的数据资料,可得如下计算结果:根据前面计算有 a=4.07,b=0.1958,由n=10,有结果表明,国内10个品牌啤酒销售量的估计理论值与实际值的平均误差约为5.03万箱。由此可见,只有把回归估计值与估计标准误差结合起来分析运用,才更具有意义。解三一元线性回归分析估计标准误差 Syx 与相关系数 r 在数量上也存在着密切的关系,可看成从另一个角度说明相关分析与回归分析之间的联系。两者之间的关系可由下列公式表述:(8-11)(8-12)从相互联系的两个算式中,可以看出 r 与 Syx 二的变化方向是相反的。当 r大时, Syx 越小,这时相关密切程度越高,回归直线的代表性越大;当 r越小时, Syx 越大,这时相关密切程度越低,回归直线的代表性越小;r ±1, Syx =0,这时现象间完全相关,各相关点均落在回归直线上,此时对x 的任何变化, y总有一个相应的值与之对应;r=0 时, Syx取得最大值,这时现象间不存在直线关系。三一元线性回归分析五、判定系数在回归分析中,除了可用估计标准误差反映回归方程估计的准确程度及回归直线代表性的大小外,还有一个广泛应用的指标,叫做判定系数(coefficient of determination),它通常用 r2 表示,用来测定回归方程拟合数据的好坏程度。判定系数 r2 就是相关系数 r 的平方。当然,判定系数有它的基本公式:(8-13)式中: 分母 是总离差平方和, 分子 叫做回归平方和。r2 越大,回归平方和在总离差平方和中所占的比重就越大,表明总离差中由回归方程解释的部分也越大,线性回归效果越好。三一元线性回归分析判定系数的范围在0~1。如果 r2 为1,则表明两个变量之间有非常好的相关性,y 的估计值与实际值之间没有差别,此时,估计标准误差为0;如果 r2 为0,则回归方程不能用来预测 y 值,此时,估计标准误差最大。例如,根据表8-3给出的2013年国内10个品牌啤酒广告费用及销售量,前面已计算出 r=0.8856,则判定系数 r2 =0.7843,这说明,总离差平方和中有78.43%可以用回归方程解释。三一元线性回归分析六、应用相关分析和回归分析应注意的问题(1)在定性分析的基础上进行定量分析相关关系的有无、自变量和因变量的确定、相关的类型及计算结果的意义等问题,必须根据人们对研究对象的了解,做出定性判断。因为相关分析的方法不能解释相关关系产生的原因,它本身不能判断现象之间是否存在质的关系,只有依靠定性分析并在此基础上进行定量分析,才能对现象之间的关系作出科学的判断。否则,若对本来没有内在关系的现象进行相关分析,将会导致虚假相关的错误。例如,研究某地区人口出生数量与该地区老年人口再婚数量之间的关系,显然是没有任何意义的。若据此继续进行回归分析并对现象进行推算预测,其结论将是荒谬的。三一元线性回归分析(2)要注意现象质的界限及相关关系作用的范围在进行相关分析与回归分析时,要注意现象质的界限及相关关系作用的范围。超出了这个范围,分析的结果就会与事实不符。特别是利用回归方程进行预测时,不能无限外推。因为,在预测中,指定 变量值未超出所用资料的数值范围,叫做内插回归预测,其预测效果好;预测中,指定 变量值超出所用资料的数值范围,叫做外推回归预测,预测效果随着 变量值对所用资料的数值范围的远离而逐渐降低。三一元线性回归分析回归分析中,回归直线方程是采用最小平方法取得的,最小平方法指的是对现有资料范围配合一条“最佳”线,如果外推到范围以外,则不一定是最佳线了。根据样本数据所建立的回归方程,只有代表经济变量之间的数量条件才能够成立。如果忽视相关关系建立的条件,把这种关系无限制地向外推广,所得结论是不科学的。例如,商品的价格与商品的销售量只有在一定的范围内才具有负相关关系,商品的价格超过一定限度,销售量有可能与之作同方向变化。社会经济现象中,许多现象也如此。因此,用相关分析与回归分析方法进行推算和预测时,要注意它们的作用范围。三一元线性回归分析(3)要注意现象质的界限及相关关系作用的范围相关分析与回归分析中的各种分析指标,既有区别又有联系。相关分析中的相关系数,是反映现象之间直线关系密切程度的指标;回归分析中的直线回归方程,反映具有相关关系两变量之间数量的变化关系;而回归直线的代表性大小则由回归分析中的估计标准误差反映。它们分别从不同的层次和侧面揭示现象之间数量关系的特征。所以,在进行相关分析和回归分析时,只有将它们有机地结合起来,才能更加全面、准确、科学地描述社会经济现象之间数量变化的规律性。三一元线性回归分析(4)要尽可能使用大样本材料大量观测是统计分析的基础,只有使用大样本资料进行大量观测,才能淡化偶然因素的影响,获得现象间的真实关系。不管是相关分析中通过计算相关系数判定相关密切程度,还是回归分析中利用回归方程进行统计预测,如果样本材料过少,都不易真实反映客观现象之间的关系。本章中给出的例题样本均较小,这只是为了写作上的方便,在实际中不宜采用。1.相关关系按照相关的表现形式不同分为哪几种?解释并举例说明。2.简述相关系数的概念及其取值范围。3.应用回归分析应注意什么问题?思考与练习4.某企业2013年下半年产品产量和单位产品成本资料如下:思考与练习月份 产量(吨) 单位产品成本(千元)7 2600 3608 2700 3509 2800 34010 2900 33011 3000 32012 3500 310要求:(1)计算相关系数,并说明相关方向和相关程度;(2)建立回归方程,指出产量每增加1000吨时,单位成本平均下降多少?(3)假定产量为4000吨时,估计单位成本为多少?谢 谢 观 赏 展开更多...... 收起↑ 资源预览