资源简介 (共106张PPT)第六章 回归分析第一节 引言第二节 一元线性回归模型 第三节 多元线性回归模型第四节 虚拟变量回归模型第五节 非线性回归模型本章小节主要内容回归是研究自变量与因变量之间的关系形式的分析方法。一、回归分析的提出 回归分析起源于生物学研究,是由英国生物学家兼统计学家高尔登(Francis Galton 1822-1911)在19世纪末叶研究遗传学特性时首先提出来的。 高尔登在1889年发表的著作《自然的遗传》中,提出了回归分析方法以后,很快就应用到经济领域中来,而且这一名词也一直为生物学和统计学所沿用。回归的现代涵义与过去大不相同。一般说来,回归是研究因变量随自变量变化的关系形式的分析方法。其目的在于根据已知自变量来估计和预测因变量的总平均值。第一节 引言根据因变量与自变量之间的关系不同,可以分为两种类型:函数关系相关关系第一节 引言因变量(Y)与自变量(X)之间的关系二、回归分析和相关分析函数关系 函数关系反映客观事物之间存在着严格的依存关系。在这种关系中,当一个或几个变量取值一定时,另一个变量有确定的值与之相对应,并且这种关系可以用一个确定的数学表达式反映出来。一般把作为影响因素的变量称为自变量,把发生对应变化的变量称为因变量。第一节 引言相关关系 相关关系反映的是客观事物之间的非严格、不确定的线性依存关系。这种线性依存关系有两个显著的特点:二、回归分析和相关分析① 客观事物之间在数量上确实存在一定的内在联系。表现在一个变量发生数量上的变化,要影响另一个变量也相应地发生数量上的变化。② 客观事物之间的数量依存关系不是确定的,具有一定的随机性。表现在当一个或几个相互联系的变量取一定数值时,与之对应的另一个变量可以取若干个不同的数值。这种关系虽然不确定,但因变量总是遵循一定规律围绕这些数值的平均数上下波动。图 国内生产总值y与固定资产投资完成额x间关系的散点图二、回归分析和相关分析回归分析回归分析是研究某一随机变量(因变量)与另外一个或几个普通变量(自变量)之间的数量变动的关系。由回归分析求出的关系式,称为回归模型。相关分析相关分析是研究两个或两个以上随机变量之间线性依存关系的紧密程度。通常用相关系数表示,多元相关时用复相关系数表示。回归分析与相关分析的关系区别相关分析研究的变量都是随机变量,并且不分自变量与因变量;回归分析研究的变量要首先明确那些是自变量,那些是因变量?并且自变量是确定的普通变量,因变量是随机变量。二、回归分析和相关分析联系由相关系数的大小决定是否需要进行回归分析。在相关分析的基础上建立回归模型,以便进行推算、预测,同时相关系数还是检验回归分析效果的标准。根据自变量的多少回归模型可以分为一元回归模型和多元回归模型。根据回归模型的形式线性与否回归模型可以分为一元回归模型和多元回归模型。根据回归模型是否带有虚拟变量回归模型可以分为普通回归模型和带虚拟变量的回归模型。此外,根据回归模型是否用滞后的因变量作自变量,回归模型又可分为无自回归现象的回归模型和自回归模型。三、回归模型的种类第二节 一元线性回归模型设x为自变量, y为因变量,y与x之间存在某种线性关系,即一元线性回归模型为(6.2.1)给定x,y的n对观测值xi,yi,,代入式(6.2.1)得(6.2.1’)当b>0时,x与y为正相关,当b<0时,x与y为负相关。、一元线性回归模型二、 OLS (Ordinary Least Square)估计OLS的中心思想 最小二乘法的中心思想,是通过数学模型,配合一条较为理想的趋势线。这条趋势线必须满足下列两点要求:第二节 一元线性回归模型二、OLS (Ordinary Least Square)估计OLS的特性最小二乘估计量 具有线性、无偏性和最小方差性等良好的性质。线性、无偏性和最小方差性统称BLUE性质。满足BLUE性质的估计量 称为BLUE估计量。二、OLS (Ordinary Least Square)估计回归方程的检验在一元线性回归模型中最常用的显著性检验方法有:相关系数检验法F检验法t检验法3.2 一元线性回归预测法三、离差平方和的分解与可决系数在一元线性回归模型中,观测值的数值会发生波动,这种波动称为变差。变差产生的原因如下:3.2 一元线性回归预测法①受自变量变动的影响,即x取值不同时的影响;②受其他因素(包括观测和实验中产生的误差)的影响。为了分析这两方面的影响,需要对总变差进行分解。三、相关系数离差平方和的分解回归离差平方和剩余离差平方和总平方和分解总平和分解图三、相关系数可决系数三、相关系数相关系数的取值范围为当R=0时,说明回归变差为0,自变量x的变动对总变差毫无影响,这种情况称y与x不相关。当|R|=1时,说明回归变差等于总变差,总变差的变化完全由自变量x的变化所引起,这种情况成为完全相关。这时因变量y是自变量x的线性函数,二者之间呈函数关系。当0<|R|<1时,说明自变量x的变动对总变差有部分影响,这种情况成为普通相关。Y的变差完全由随机因素引起样本的全部观测值都落在所拟合的回归直线上四、显著性检验相关系数检验法第一步,计算相关系数R;第二步,根据回归模型的自由度(n-2)和给定的显著性水平值α,从相关系数临界值表中查出临界值;第三步,判别。若|R|≥Rα(n-2),表明两变量之间线性相关关系显著,检验通过,这时回归模型可以用来预测;若|R|< Rα ,表明两变量之间线性相关关系不显著,检验不通过。四、显著性检验F 检验法F服从第一自由度为1,第二自由度为n-2的F分布。对给定的显著性水平,查F分布表可得临界值。F 检验四、显著性检验点估计在一元线性回归模型中,对于自变量x的一个给定值,代入回归模型,就可以求得一个对应的回归预测值,又称为点估计值。五、预测区间区间估计所谓预测区间就是指在一定的显著性水平上,依据数理统计方法计算出的包含预测对象未来真值的某一区间范围。五、预测区间回归系数b的统计性质点估计值的统计性质五、预测区间五、预测区间由于总体方差往往是未知的,所以,常用总体方差的无偏估计量来代替。式中,Sy称为y的标准误差。五、预测区间预测值和预测误差预测误差的数学期望与方差五、预测区间令当实际观测值较多时,一般n>30,式(6.2.31)可简化为六、应用举例例6.2.1 某省2003-2014年国内生产总值和固定资产投资完成额资料如表6.2.1所示。六、应用举例试配合适当的回归模型并进行显著性检验;若2015年该省固定资产投资完成额为249亿元,当显著性水平=0.05时,试估计2015年国内生产总值的预测区间。解:1.绘制散点图六、应用举例2.设一元线性回归模型为3.计算回归系数六、应用举例4.检验线性关系的显著性六、应用举例六、应用举例5.预测(2)当显著性水平,自由度=n-m=12-2=10时,查t分布表得(1)计算估计值的标准误差六、应用举例七、几个应当注意的问题1.重视数据的收集和甄别在收集数据的过程中可能会遇到以下困难:(1)一些变量无法直接观测。(2)数据缺失或出现异常数据。(3)数据量不够。(4)数据不准确、不一致、有矛盾。2. 合理确定数据的单位在建立回归方程时,如果不同变量的单位选取不适当,导致模型中各变量的数量级差异悬殊,往往会给建模和模型解释带来诸多不便。比如模型中有的变量用小数位表示,有的变量用百位或千位数表示,可能会因舍入误差使模型计算的准确性受到影响。因此,适当选取变量的单位,使模型中各变量的数量级大体一致是一种明智的做法。一元线性回归模型研究的是某一因变量与一个自变量之间的关系问题。但是,客观现象之间的联系是复杂的,许多现象的变动都涉及到多个变量之间的数量关系。研究某一因变量与多个自变量之间的相互关系的理论和方法就是多元线性回归模型。第三节 多元线性回归预测法第三节 多元线性回归预测法一、 多元线性回归模型及其假设条件多元线性回归模型一、 多元线性回归模型及其假设条件一、 多元线性回归模型及其假设条件一、 多元线性回归模型及其假设条件一、 多元线性回归模型及其假设条件二、模型参数OSL的估计与性质模型参数的OSL 估计二、模型参数OSL的估计与性质回归系数向量估计值 的统计性质回归系数向量估计值 的统计性质三、多元线性回归模型的检验常用的检验方法有R 检验法F 检验法t 检验法DW 检验法在建立多元线性回归模型的过程中,为进一步分析回归模型所反映的变量之间的关系是否符合客观实际,引入的影响因素是否有效,同样需要对回归模型进行检验。1. R检验法与相关系数检验法一样,复相关系数检验法的步骤为:(1)计算复相关系数;(2)查相关系数临界值表;根据回归模型的自由度n-m和给定的显著性水平α值,查相关系数临界值表(3)判别。1.R检验法样本容量增大(n↑)R2也随之增大(R2↑)R2的大小很难说明问题R2存在的问题1.R检验法1.R检验法1. R检验法当n为小样本,解释变量数很大时,上式可能为负数,这时取其值为0。2. F 检验法检验Y与解释变量x1,x2,……xk之间的线性关系是否显著2. F 检验法2. F 检验法回归方程显著,并不意味着每个解释变量对因变量Y的影响都重要回归方程显著每个回归系数都显著2. F 检验法3. T 检验法3. T 检验法可应用excel直接获得检验结果4. DW 检验法4. DW检验法 在序列相关中,最常见的是一阶自相关,最常用的检验方法是DW检验法(Durbin-Watson准则)。定义DW 统计量为: 4. DW检验法4. DW检验法表 DW检验判别表4. DW检验法4. DW检验法将上面DW检验判别表绘成图形如下图:4. DW检验法5. 预测区间5. 预测区间四、应用举例 某省2003~2014年消费基金、国民收入使用额和平均人口资料如表6.3.3所示。试配合适当的回归模型并进行各种检验;若2015年该省国民收入使用额为67十亿元,平均人口为58百万人,当显著性水平=0.05时,试估计2015年消费基金的预测区间。四、应用举例可应用excel直接获得检验结果四、应用举例四、应用举例四、应用举例四、应用举例四、应用举例四、应用举例7.DW 检验四、应用举例四、应用举例第四节 虚拟变量回归预测1.虚拟变量 品质变量不像数量变量那样表现为具体的数值。它只能以品质、属性、种类等形式来表现。要在回归模型中引入此类品质变量,必须首先将具有属性性质的品质变量数量化。通常的做法是令某种属性出现对应于1,不出现对应于0。这种以出现为1,未出现为0形式表现的品质变量,就称为虚拟变量。2.带虚拟变量的回归模型常见的带虚拟变量的回归模型有以下三种形式:2.带虚拟变量的回归模型第四节 虚拟变量回归预测其中的趋势变化如右图所示第四节 虚拟变量回归预测第四节 虚拟变量回归预测第四节 虚拟变量回归预测虚拟变量的回归模型应用举例例 某省农业生产资料购买力和农民货币收入统计数据,根据上述统计数据,试建立一元线性回归模型和带虚拟变量的回归模型,并将两模型对比分析虚拟变量回归模型的应用举例虚拟变量回归模型的应用举例非线性回归模型按变量个数也可以分为一元非线性回归模型和多元非线性回归模型;曲线的形式也因实际情况不同而有多种形式,如指数曲线、双曲线、S形曲线等。第五节 非线性回归模型非线性回归模型的形式第五节 非线性回归模型第五节 非线性回归模型根据非线性回归模型线性化的不同性质,上述模型一般可以分成三种类型:第一类:直接换元型这类非线性回归模型通过简单的变量换元可直接化为线性回归模型,如式(1)、式(2)、式(3)、式(4)。第二类:间接代换型这类非线性回归模型经常通过对数变形代换间接地化为线性回归模型,如:式(5)、式(6)。第三类:非线性型这类非线性回归模型属于不可线性化的非线性回归模型,如式(7)和式(8)。第五节 非线性回归模型非线性回归模型的分类直接换元法对于式(5)、式(6)和式(7)所示的非线性回归模型,因变量与待估计参数之间的关系也是非线性的。因此不能通过直接换元化为线性模型。对此类模型,通常可通过对回归方程两边取对数将其化为可以直接换元的形式。这种先取对数再进行变量代换的方法称为间接换元法。间接换元法间接换元法例 6.5.1例 6.5.1例 6.5.1例 6.5.1例 6.5.1由于商品零售额增加,流通费用率呈下降趋势,二者之间为负相关关系,故相关系数取负值为:-0.9898。说明两者高度相关,用双曲线回归模型配合进行预测是可靠的。例 6.5.1举例 4举例本章小节回归分析和相关分析的目的不同在回归分析中,寻找的是变量之间的关系,代表这种关系的方程可能就是所期望的结果,也可能是所期望预测的均值。在相关分析中,需要度量的是两个或两个以上随机变量之间线性关系的强度。当二维数据显示在散点图上落在一条直线附近时,它们支持一个线性关系,但是这并不能证明这是必然的和有因果关系的。本章小节线性回归模型的一般形式为本章小节对于非线性回归模型,一般可以分成三种类型:直接换元型即通过简单的变量换元可直接化为线性回归模型;间接代换型通常通过对数变换的代换间接地化为线性回归模型;非线性型指不能线性化的非线性回归模型。对于可线性化的非线性回归模型可以转化为线性模型后进行求解,并应用可决系数R2或相关系数R度量非线性相关程度。本章小节 展开更多...... 收起↑ 资源预览