资源简介 (共78张PPT)第 10 章多元线性回归分析10.1 多元线性回归模型10.2 多元线性回归模型的检验10.3 非线性回归模型10.4 交互模型10.5 多个回归系数的联合检验10.6 定性(虚拟)变量模型10.7 残差分析第 10 章多元线性回归分析掌握多元线性回归模型的基本假定,即回归系数的估计;能够应用OLS估计多元线性回归模型的参数并检验其有效性;理解几种基本的非线性回归模型;理解交互模型、定性(虚拟)变量模型的原理;能够对残差进行分析;能够应用Stata软件解决多元线性回归分析的实际问题。本章教学目的第 10 章多元线性回归分析能够应用OLS估计多元线性回归模型的参数并检验其有效性;理解交互模型、定性(虚拟)变量模型的原理;能够对残差进行分析;能够应用Stata软件解决多元线性回归分析的实际问题。本章重点和难点第 10 章10.1.1 多元线性回归模型及其假定10.1.2 多元线性回归中估计的回归方程10.1.3 多元线性回归模型的回归系数估计10.1 多元线性回归模型第 10 章一般地,多元线性回归模型可表示为∶(10-1)式中, 表示个体i(i=1,…,n)在被解释变量上y的取值; 表示个体i在解释变量上 的取值;表示模型的总体参数,也称待估计的总体参数。10.1 多元线性回归模型10.1.1 多元线性回归模型及其假定第 10 章由于上式对所有个体i都成立,因此有n个形如上式的方程。因此有:令 为被解释变量的观测值向量; 为解释变量的观测值矩阵; 为总体参数向量; 为随机误差向量。10.1 多元线性回归模型10.1.1 多元线性回归模型及其假定第 10 章则多元线性回归模型的矩阵表示如下:(10-2)与一元回归模型一样,对多元回归模型进行参数估计时仍采用OLS法。同样,使用这种估计方法进行参数估计需要满足以下几个基本假定。对这一模型,有以下几个主要假定:(1)线性回归模型。回归模型对参数而言是线性的。这是一个模型假定,而不是统计假定。(2)确定性假定。在重复抽样中,解释变量是确定性变量,不是随机变量,而且在重复抽样中取固定值。(3)解释变量不存在严格多重共线性,即各解释变量之间不存在线性关系。10.1 多元线性回归模型10.1.1 多元线性回归模型及其假定(4)误差项 与解释变量 之间不相关,即也就是说 通常假定所有解释变量为非随机变量,这个假定自动成立。(5)零均值假定。在给定解释变量 的条件下,误差项 具有零均值,即这意味对于一个给定的 值,对公式(10-1)求条件期望后得到:(10-3)公式(10-3)称为总体回归方程、总体回归函数或总体回归直线。第 10 章10.1 多元线性回归模型10.1.1 多元线性回归模型及其假定(6)同方差假定。给定解释变量的任何值,误差项都有相同的方差,也就是说(7)无自相关假定。每个误差项 为独立分布,即(8)误差项 是一个服从正态分布的随机变量且独立。正态分布假定主要应用于对回归参数的OLS估计值进行统计检验,而且只有在小样本情况下才需要特别注意这个问题。对于大样本来说,根据中心极限定理,即使误差项不满足正态分布,仍然可以对回归参数的估计值进行统计推断。第 10 章10.1 多元线性回归模型10.1.1 多元线性回归模型及其假定由于总体回归参数 是未知的,所以必需利用观测值去估计,得到 的估计量 ,再用 分别代替 ,就得到多元线性回归中估计的回归方程(样本回归直线或样本回归方程)为:该方程中的截距项 是在所有被解释变量( )等于 0 时,被解释变量 的预测值。在实际研究中,截距项并非总是有意义的,因为解释变量取0值在很多情况下是没有意义的。第 10 章10.1 多元线性回归模型10.1.2 多元线性回归中估计的回归方程样本回归方程中的 仍然是根据OLS法求得,也就是使残差平方和残差平方和最小,即(10-4)根据微积分知识,此最小化问题的一阶条件为:第 10 章10.1 多元线性回归模型10.1.3 多元线性回归模型的回归系数估计上述(k+1)个方程称为正规方程组,用矩阵表示为:从 出发,令第 10 章10.1 多元线性回归模型10.1.3 多元线性回归模型的回归系数估计可将残差向量写为 ,将其代入正规方程组可得假设 存在,可求解OLS估计量,即:(10-5)第 10 章10.1 多元线性回归模型10.1.3 多元线性回归模型的回归系数估计【例】古董座钟收藏者认为古董座钟拍卖价格与座钟的使用年限及竞拍人数有关,相关数据如表10-1所示,现考虑如下理论回归模型:式中,y表示拍卖价格(美元);x1表示座钟的使用年限(年);x2表示竞拍人数。第 10 章10.1 多元线性回归模型10.1.3 多元线性回归模型的回归系数估计表10-1 古董座钟价格回归模型相关数据年 限 竞 拍 人 数 拍 卖 价 格 年 限 竞 拍 人 数 拍 卖 价 格127 13 1 235 170 14 2 131115 12 1 080 182 8 1 550127 7 8 45 162 11 1 884150 9 1 522 184 10 2 041156 6 1 047 143 6 845182 11 1 979 159 9 1 483156 12 1 822 108 14 1 055132 10 1 253 175 8 1 545137 9 1 297 108 6 729113 9 946 179 9 1 792137 15 1 713 111 15 1 175117 11 1 024 187 8 1 593137 8 1 147 111 7 785153 6 1 092 115 7 744117 13 1 152 194 5 1 356126 10 1 336 168 7 1 262试建立古董座钟拍卖价格(y)、使用年限(x1)及竞拍人数(x2)的线性回归方程,并解释各回归系数的含义。解:由Stata输出的回归结果如下:根据回归结果,得到古董座钟拍卖价格(y)、使用年限( )及竞拍人数( )的线性回归方程为:各回归系数的实际意义为: 表示,在竞拍人数不变的条件下,使用年限每增加1年,古钟的拍卖价格平均增加12.741美元; 表示,在使用年限不变的条件下,竞拍人数每增加1人,古钟的拍卖价格平均增加85.953美元。第 10 章10.1 多元线性回归模型10.1.3 多元线性回归模型的回归系数估计一、拟合优度检验10.2.1 拟合优度检验10.2.2 回归模型的总体显著性检验:F检验10.2.3 回归系数的检验第 10 章10.2 多元线性回归模型的检验一、拟合优度检验1.多重决定系数与一元回归类似,对多元线性回归方程,需要用多重决定系数来评价其拟合程度。在一元回归中曾介绍过被解释变量离差平方和的分解方法,对多元回归中被解释变量离差平方和的分解也一样,同样有:为总离差平方和为回归平方和;为残差平方和。SST=SSR+SSE (10-6)第 10 章10.2 多元线性回归模型的检验10.2.1 拟合优度检验自由度: 。自由度是数理统计中的一个概念。统计量的自由度,是指统计量可自由变化的样本观测值的个数,它等于样本观测值个数减去对观测值的约束条件个数。例如,样本均值 的自由度为(n-1),因为其使用了样本均值,线性关系式 对样本观测值形成了一个约束条件。在公式(10-6)中,总离差平方和SST反映了被解释变量观测值总的变异程度;回归平方和SSR反映了被解释变量回归估计值总的变异程度,它是被解释变量观测值总离差中由解释变量解释的那部分离差,因而也被称为解释离差;残差平方和SSE是总离差中未被解释变量解释的那部分离差。第 10 章10.2 多元线性回归模型的检验10.2.1 拟合优度检验显然,回归平方和SSR越大,残差平方和SSE就越小,从而被解释变量观测值总离差中能由解释变量解释的那部分离差就越大,模型对观测数据的拟合程度就越高。因此,我们定义多重决定系数或决定系数为回归平方和占总离差的比重,用来表示解释变量对被解释变量的解释程度,即在y的总离差平方和中,解释变量 联合解释的百分比。第 10 章10.2.1 拟合优度检验10.2 多元线性回归模型的检验(10-7)或者(10-8)是介于0到1的一个数。 越大,模型对数据的拟合程度越好,解释变量对被解释变量的解释能力越强;当 =1时,被解释变量的变化100%由回归直线解释,所有观测点都落在回归直线上;当 =0时 ,解释变量与被解释变量之间没有任何线性关系。第 10 章10.2.1 拟合优度检验10.2 多元线性回归模型的检验2.修正的决定系数在比较被解释变量相同而解释变量个数不同的两个模型的拟合程度时,不能简单地对比多重决定系数。为此,人们引入了修正的样本决定系数 ,其计算公式为(10-9)在其他条件不变的情况下,k越大, 越小。因此,该指标综合了精度和变量个数两个因素。 不随解释变量个数的增加而增加,用来判别拟合优度比 更有效。当增加一个对被解释变量有较大影响的解释变量时,残差平方和 减小比(n-k-1)减小更显著,修正的决定系数 会增加。如果增加一个对被解释变量没有多大影响的解释变量,残差平方和 减小没有(n-k-1)减小明显, 会减小,表明不应该引入这个不重要的解释变量。第 10 章10.2 多元线性回归模型的检验10.2.1 拟合优度检验3.随机误差项方差的估计在多元回归分析中,对模型及其回归系数进行检验时需要用到随机误差项的方差 ,但是 不能直接观测,故 也是未知的,可用样本回归的残差 来代替 ,对 进行估计。可以证明,在最小二乘估计的基础上, 的无偏估计为:(10-10)式中,n-k-1表示自由度;k+1表示多元线性回归模型中待估计的回归系数的个数。第 10 章10.2 多元线性回归模型的检验10.2.1 拟合优度检验的无偏估计的标准差为:(10-11)公式(10-11)被称为回归方程的估计标准误差,它反映了用于估计的回归方程预测被解释变量时的预测误差,也用来衡量回归方程的拟合程度。在Stata输出的回归结果中也直接给出了 的值, ,表示根据所建立的多元回归方程,用年限和竞拍人数来预测古董座钟拍卖价格时,平均预测误差为133.48美元。第 10 章10.2 多元线性回归模型的检验10.2.1 拟合优度检验总体显著性检验是检验全部解释变量对被解释变量的共同影响是否显著。即检验方程 中的参数是否显著不为0。第 10 章第10章10.2 多元线性回归模型的检验10.2.2 回归模型的总体显著性检验:F检验按照假设检验的原理与程序,总体显著性检验的步骤如下。第1步:提出假设。: ; : 至少有一个不等于0。第2步∶计算检验统计量F。由于服从正态分布,根据数理统计学中的定义, 的一组样本的平方和服从 分布。所以有第 10 章10.2 多元线性回归模型的检验10.2.2 回归模型的总体显著性检验:F检验进一步根据数理统计学中的定义,可以证明,在 成立的条件下,统计量(10-12)第3步∶做出统计决策。给定显著性水平 ,根据分子自由度=k,分母自由度=n-k-1查F分布表得到F。如图10-1所示,若 ,则拒绝原假设;若 ,则不拒绝原假设。根据Stata输出的结果,可直接利用P值做出决策∶若P< ,则拒绝原假设;若P> ,则不拒绝原假设。第 10 章10.2 多元线性回归模型的检验图10-1 F检验的拒绝区域和接受区域10.2.2 回归模型的总体显著性检验:F检验三、回归系数的检验如果模型通过了F检验,则表明模型中所有解释变量对被解释变量的“总体影响”是显著的,但这并不意味着模型中的每个解释变量对被解释变量都有显著影响,或者说并不是每个解释变量的单独影响都是显著的。只有那些参数不为零的变量才应当保留在模型中,而参数为零的变量应当排除在模型之外。很显然,如果解释变量的参数为零,它与被解释变量便不存在依存关系,对被解释变量也没有什么影响,自然对被解释变量的变动也不具备解释功能,所以不应当保留在模型中。根据这一思路,可以将参数为零的可能性大小,作为模型估计式解释变量选择是否正确的标准。第 10 章10.2 多元线性回归模型的检验10.2.3 回归系数的检验三、回归系数的检验多元回归分析中对各个回归系数的检验,目的在于检验当其他解释变量不变时,该回归系数对应的解释变量对被解释变量是否有显著影响。检验方法与简单线性回归的检验方法基本相同。在回归分析中,对于多元线性回归模型 的回归系数的估计量 是随着样本观测值的变化而变化的一个随机变量,即对于不同的样本观测值,回归系数的估计量 的值是不相同的。但若回归模型满足基本假定,则回归系数的估计量 服从均值为 方差 为 的正态分布,这一点与一元线性回归分析类似(证明从略),即 。第 10 章10.2 多元线性回归模型的检验10.2.3 回归系数的检验因为 涉及随机误差项的方差 ,而 是未知的,故需用样本方差即 的估计量 来代替构造统计量,所以所构造的统计量为:(10-13)式中, 表示回归系数 的抽样分布的标准差,即(10-14)第 10 章10.2 多元线性回归模型的检验10.2.3 回归系数的检验回归系数的显著性检验的具体步骤如下。第1步∶提出假设。对于任意 ,有 ∶ =0; ∶ ≠0。第2步∶计算检验统计量t。第3步∶做出决策。确定显著性水平 ,并根据自由度df=n-k-1查t分布表,找到相应的临界值 。若 ,则拒绝 ;若 ,则不拒绝 。第 10 章10.2 多元线性回归模型的检验10.2.3 回归系数的检验【例】根据古董钟例题所建立的回归方程,对回归方程中各回归系数的显著性进行检验(=0.05)。解:由Stata的回归结果可知, , 。确定显著性水平 ,并根据自由度df=n-k-1=29查t分布表,找到相应的临界值 ,可见 都 大于2.045。这表明年限和竞拍人数对古董座钟价格的影响都是显著的。直接用P值进行比较更为方便: 所对应的P值都小于0.05,通过了显著性检验。第 10 章10.2 多元线性回归模型的检验10.2.3 回归系数的检验第三节 非线性回归模型10.3.1 对数线性模型10.3.2 半对数模型10.3.3 倒数模型10.3.4 函数形式的选择第 10 章10.3 多元线性回归模型的检验一、对数线性模型模型形式:该模型是 将两边取对数,做恒等变换的另一种形式,其中 。在公式(10-15)中,lny对参数 和是 线性的,而且变量的对数形式也是线性的。因此,将以上模型称为对数线性(log-linear)模型。对于对数线性回归模型,通过对数变换可以转化为线性模型。具体变换方法如下:令 , ,代入模型将其转化为线性回归模型,即(10-15)第 10 章10.3 多元线性回归模型的检验10.3.1 对数线性模型变换后的模型不仅参数是线性的,变量之间的关系也是线性的。对于变换后的模型,如果它满足线性回归模型的基本假定,则可以用普通最小二乘法来估计其参数,并且得到估计量是最优的线性无偏估计量。模型特点:在实际经济活动分析中,对数线性模型的应用是非常广泛的,其原因在于参数度量了被解释变量y关于解释变量x的弹性,即(10-16)表示解释变量x变动1%,被解释变量y将变动 %。如果模型中y代表商品的需求量,x代表商品本身的价格,则 就是需求价格弹性;如果x代表替代商品价格,则 就是需求交叉弹性;如果x代表消费者收入水平,则 就是需求收入弹性。第 10 章10.3 多元线性回归模型的检验10.3.1 对数线性模型一、对数线性模型【例】表10-2给出了个人消费总支出(pc)、耐用品支出(dur)、非耐用品出(nondur)和劳务支出(serv)方面的数据,均以1992年的10亿美元计。试建立耐用品支出对个人消费总支出的回归模型。第 10 章10.3 多元线性回归模型的检验10.3.1 对数线性模型表10-2 个人消费总支出及其类别观测 pc dur nondur serv 观测 pc dur nondur serv1993-Ⅰ 4286.8 504 1337 2445.3 1996-Ⅰ 4692.1 611 1433.5 2648.51993-Ⅱ 4322.8 519.3 1347.8 2455.9 1996-Ⅱ 4746.6 629.5 1450.4 2668.41993-Ⅲ 4366.6 529.9 1356.8 2480 1996-Ⅲ 4768.3 626.5 1454.7 2688.11993-Ⅳ 4398 542.1 1361.8 2494.4 1996-Ⅳ 4802.6 637.5 1465.1 2701.71994-Ⅰ 4439.4 550.7 1378.4 2510.9 1997-Ⅰ 4853.4 656.3 1477.9 2722.11994-Ⅱ 4472.2 558.8 1385.5 2531.4 1997-Ⅱ 4872.7 653.8 1477.1 2743.61994-Ⅲ 4498.2 561.7 1393.2 2543.8 1997-Ⅲ 4947 679.6 1495.7 2775.41994-Ⅳ 4534.1 576.6 1402.5 2555.9 1997-Ⅳ 4891 648.8 1494.3 2804.81995-Ⅰ 4555.3 575.2 1410.4 2570.4 1998-Ⅰ 5055.1 710.3 1521.2 2829.31995-Ⅱ 4593.6 583.5 1415.9 2594.8 1998-Ⅱ 5130.2 729.4 1540.9 2866.81995-Ⅲ 4623.4 595.3 1418.5 2610.3 1998-Ⅲ 5181.8 733.7 1549.1 2904.81995-Ⅳ 4650 602.4 1425.6 2622.9一、对数线性模型解:将耐用品支出的对数相对个人消费总支出的对数描点,将看到两者之间存在线性关系,因此,对数模型可以适用。由Stata输出的回归结果如下:根据回归结果得到的线性回归方程为:dur对pc的弹性约为1.94,这表明,若个人消费总支出提高1%,耐用品支出则提高约1.94%。因此,耐用品支出很容易受到个人消费总支出变动的影响。这就是耐用品生产者总是关注个人收入和个人消费支出变动的原因之一。第 10 章10.3 多元线性回归模型的检验10.3.1 对数线性模型二、半对数模型在经济变量的变动规律研究中,测定其增长率与衰减率是一个重要方面,如人口增长率、劳动增长率、GDP增长率等是大家十分关注的指标。在回归分析中可以用半对数模型来测度这些增长率。模型形式:(10-17)(10-18)由于模型中只有某一侧的变量为对数形式,所以称为半对数模型,显然,经简单的变量变换也可以将其转化成线性回归模型。第 10 章10.3 多元线性回归模型的检验10.3.2 半对数模型模型特点:半对数模型中的回归系数也有很直观的含义。对于模型 ,有:表示x每变动1%时,y将变动的绝对量,即变动 %个单位。对于模型 ,有:第 10 章10.3 多元线性回归模型的检验10.3.2 半对数模型【例】使用表10-2中给出的劳务支出数据,试建立劳务支出的回归模型。解:由Stata输出的回归结果如下:根据回归结果(7.789 009≈7.789,0.007 425 8≈0.007 43)得到的线性回归方程为:如结果所示,1993年第1季度到1998年第3季度期间,劳务支出以(每季度) 0.743% 的速度增加。粗略地讲,这等于2.97%的年增长率。注意增长模型中趋势变量的系数给出的是瞬时(指一个时点的)增长率而不是复合(指一个时期的)增长率。第 10 章10.3 多元线性回归模型的检验10.3.2 半对数模型三、倒树模型在社会经济生活中,某些经济变量与其他经济变量的倒数存在数量依存关系。例如,工资变化率与失业率、平均固定成本与产量等经济变量之间,就存在这种类型的依存关系。把形如(10-19)(10-20)的模型称为倒数模型。第 10 章10.3 多元线性回归模型的检验10.3.3 倒数模型三、倒树模型令 , ,即进行变量的倒数变换,就可以将其转化成线性回归模型。倒数变换模型有一个明显的特征:随着x的无限扩大,y将趋于极限值( 或1/ ),即有一个渐近下限或上限。有些经济现象(如平均固定成本曲线、商品的成长曲线、恩格尔曲线、菲利普斯曲线等)有类似的变动规律,可以用倒数模型进行描述。第 10 章10.3 多元线性回归模型的检验10.3.3 倒数模型四、函数形式的选择本章讨论了经验模型可以利用的几种函数形式。在双变量的情形中,由于通过对变量描点就能基本上知道哪个模型合适,所以特定函数形式的选择就相对容易。当考虑涉及不止一个回归元的多元回归模型时,这种选择将困难得多,我们在下面两章中讨论这个问题时将会认识到这一点。不可否认,在对经验估计选择适当模型时,需要大量的技巧和经验,但仍有一些指导原则可以参考。第 10 章10.3 多元线性回归模型的检验10.3.4 函数形式的选择(1)模型背后的理论(如菲利普斯曲线)可能给出了一个特定的函数形式。(2)最好能求出被解释变量相对解释变量的变化率(即斜率)和被解释变量对解释变量的弹性。(3)所选模型的系数应该满足一定的先验预期。例如,如果考虑对汽车的需求是价格和其他变量的函数,那么就应该预期价格变量的系数为负。第 10 章10.3 多元线性回归模型的检验10.3.4 函数形式的选择(4)有时不止一个模型能较好地拟合一个给定的数据集。假设对同样的数据拟合了一个线性模型和一个倒数模型。在这两种情况下,系数都与先验预期相一致,也都是统计显著的。一个重要的区别在于,线性模型的R2值比倒数模型的R2值大。因此,人们会略微倾向于使用线性模型。但一定要注意,在比较两个R2值时,两个模型的被解释变量必须相同,而解释变量则可采用任何形式。(5)通常不应该过分强调R2这一度量,也就是说,并非模型的R2值越大就越好,这一点将在下一章中讨论。更重要的地方在于所选模型的理论基础、估计系数的符号及其统计显著性。如果一个模型从这些准则来看都很不错,那么较低的R2值也是完全可以接受的。第 10 章10.3 多元线性回归模型的检验10.3.4 函数形式的选择第四节 交互模型在【例10-1】中建立的回归模型为: 。这一模型意味着每个解释变量对被解释变量的作用不受其他解释变量取值的影响,即只存在主效应(main effect)。然而,在现实生活中,某个解释变量对被解释变量的作用很可能依赖于其他解释变量的取值,即存在条件效应(conditinal effect)。例如,身高对一个人每天从食物中摄入总热量的影响可能依赖于这个人的体重。同样,月收入高低对化妆品支出的影响可能和消费者的性别有关。为了应对此类包含条件效应的研究问题,需要在回归模型中引入交互项(interaction term)。交互项就是两个或多个解释变量的乘积。第 10 章10.4 交 互 模 型为了应对此类包含条件效应的研究问题,需要在回归模型中引入交互项(interaction term)。交互项就是两个或多个解释变量的乘积。例如,包含两个解释变量的回归模型为:(10-21)通过建立 的乘积项可构造两者的交互项 ,得到模型:(10-22)第 10 章10.4 交 互 模 型在以上两个模型中,如果对某个解释变量求偏导,则可以得到该解释变量变化对被解释变量的影响。例如,在不包含交互项的回归模型(10-21)中,对 求偏导,得到:显然, 的变化对被解释变量变化的影响是一个确定值 。然而,如果在包含交互项的回归模型(10-22)中同样对 求偏导,则得到:第 10 章10.4 交 互 模 型【例】假设座钟的收藏者已经观察了许多拍卖活动,他们相信与座钟使用年限有关的拍卖价格的增长比率或随着竞拍人数的增加而上升。建立如下模型:先使用gen命令产生交互项:gen x1x2=x1*x2由Stata输出的回归结果如下:第 10 章10.4 交 互 模 型第 10 章10.4 交 互 模 型根据回归结果得到的回归方程为(回归结果保留三位小数):回归结果显示,与座钟使用年限有关的拍卖价格的增长比率随着竞拍人数的增加而上升,即使用年限与竞拍人数之间有交互作用。注意:一旦模型中确认交互效应很重要,就需要对一次项进行t检验,它们必须保留在模型中,而不考虑与之相关的P值的大小。在多元回归中,我们有时候会对若干回归系数是否同时统计显著感兴趣,或者对是否可以删除回归模型中的若干解释变量感兴趣。这就涉及多元回归中对多个回归系数进行联合检验的情况。为了理解如何进行联合检验,可以考虑教育(edu)、工作经历(exp)和工作经历的平方(exp )对收入对数(logearn)的回归模型:(10-23)第 10 章10.5 多个回归系数的联合检验将该模型被称为非限制性模型(unrestricted model),记为U,因为模型允许对三个解释变量的系数进行自由估计。现在,假设想要对工作经历和工作经历的平方是否同时为0加以检验。如果它们同时为0,公式(10-23)被简化为:(10-24)该模型被称为限制性模型(restricted model),记为R,因为该模型将工作经历和工作经历的平方的回归系数均限定为0。换句话说,这里,对于总体的原假设为 而备择假设 则为 不同时为零。第 10 章10.5 多个回归系数的联合检验由于去掉了两个解释变量,因此,限制性模型(10-24)的残差平方和(SSE)肯定不小于非限制性模型(10-23)的残差平方和(SSE)。如果上述原假设成立,那么去掉工作经历和工作经历的平方后,回归模型(10-24)对收入的解释能力应该与模型(10-23)的差别不大,或者从残差平方和的角度说,模型(10-24)的SSE将只是略大于模型(10-23)的SSE。这时可以构造以下检验统计量来对原假设进行检验:(10-25)式中,q表示原假设 所限制的自由度,即限制性模型和非限制性模型之间相差的回归系数的数量,k 表示非限制性模型所包含的回归系数的数量。第 10 章10.5 多个回归系数的联合检验多元回归模型也可以包括定性变量模型或分类变量模型。与定量变量不同,定性变量模型不能用数值刻画。因此,在拟合模型之前,必须对定性变量用数字(称为水平)进行编码。由于数字是任意分配到不同水平的,因此这些编码的定性变量被称为虚拟变量。虚拟变量的个数要少于定性变量的水平数。对于有k个水平的定性变量,使用k-1个虚拟变量。例如,性别这个定性变量。需要引入一个虚拟变量:第 10 章10.6 定性(虚拟)变量模型例如,学历这个定性变量,可以分为大专以下、本科、研究生三个水平。需要引入两个虚拟变量:又如季节这个定性变量。需要引入三个虚拟变量:第 10 章10.6 定性(虚拟)变量模型(1)加法类型。加法类型引入虚拟解释变量,是在所设定的计量经济模型中,根据所研究问题中数值变量的影响作用,按照虚拟变量设置规则,直接在所设定的模型中加入适当的虚拟变量,此时虚拟变量与其他解释变量在设定模型中是相加关系。用加法形式引入虚拟解释变量,其作用是改变了设定模型的截距水平。(2)乘法类型。乘法类型引入虚拟解释变量,是在所设定的计量经济模型中,将虚拟解释变量与其他解释变量相乘作为新的解释变量出现在模型中,以达到其调整设定模型斜率系数的目的。第 10 章10.6 定性(虚拟)变量模型加入虚拟变量的途径有两种基本类型:【例】居民家庭的教育费用支出除了受收入水平的影响,还与子女的年龄结构密切相关。如果家庭中有适龄子女(6~21岁),教育费用支出就多。因此,为了反映“子女年龄结构”这一定性因素,设置虚拟变量如下:将家庭教育费用支出函数写成,即以加法形式引入虚拟变量。该消费函数又可以表示成以下等价形式:无适龄子女家庭的教育费用支出函数(D=0): ;有适龄子女家庭的教育费用支出函数(D=1): 。该模型可以用来表示虚拟变量对截距的影响,如图10-3所示。第 10 章10.6 定性(虚拟)变量模型图10-3表明,两类家庭消费函数的斜率(边际消费倾向)相同,但截距不同。因此,设置虚拟变量确实能描述定性因素的影响,并且以加法方式引入虚拟变量时,实际上反映的是定性因素对截距的影响,即平均水平的差异情况:在相同的收入水平情况下,有适龄子女家庭的教育费用平均要比无适龄子女家庭的教育费用多支出 个单位。第 10 章10.6 定性(虚拟)变量模型图10-3 虚拟变量对截距的影响(3)一般方式。用不同方式引入虚拟变量将反映不同的影响效果,所以设置虚拟变量时,最好先根据散点图或经济分析,大致判断定性因素的影响类型(影响截距还是斜率),然后再用加法方式或乘法方式在模型中设置虚拟变量。在实际应用中,事先往往难以确定定性因素的影响类型。因此,一般是直接以加法和乘法方式引入虚拟变量,然后再利用,即先检验判断其系数是否显著地不等于零,再确定虚拟变量的具体引入方式。如果随着收入水平的提高,家庭教育费用除了有无适龄子女差异,其家庭教育费用支出的边际消费倾向也可能会发生变化。因此,可以将加法模型和乘法模型结合起来,得到如下模型:第 10 章10.6 定性(虚拟)变量模型【例10】关于家庭储蓄的模型。随机调查美国旧金山地区20个家庭的储蓄情况,数据如表10-4所示,拟建立年储蓄额y(千美元)对年收入x(千美元)和住房状况的回归模型。D表示住房状况:第 10 章10.3 多元线性回归模型的检验表10-4 年储蓄额、年收入和住房状况数据y x D y x D1 20 0 0.3 9 01.3 24 0 0 6 00.7 12 0 1 18 00.8 16 0 2 20 10.5 11 0 0.4 12 02.4 32 1 0.7 14 00.3 0 0 1.5 15 13.2 1 1 1.6 16 12.8 1 1 0.6 15 00 0 0.6 14 0引入虚拟变量的Stata回归结果如下:不引入虚拟变量的Stata回归结果如下:第 10 章10.3 多元线性回归模型的检验利用引入虚拟变量的Stata回归结果,可得到如下回归方程(回归结果保留三位小数):由此可以得到有房户的储蓄函数为:租房户的储蓄函数为:当不引入虚拟变量时,得到如下回归方程(回归结果保留三位小数):引入虚拟变量后,方程的决定系数、F统计量和t统计量的值有所增加,说明引入虚拟变量非常必要。第 10 章10.3 多元线性回归模型的检验第七节 残差分析10.7.1 随机误差向零均值10.7.2 随机误差项同方差10.7.3 随机误差项无相关10.7.4 随机误差项服从正态分布第 10 章10.7 残 差 分 析第七节 残差分析在回归模型中,假定 是期望值为0、方差相等且服从正态分布的一个随机变量。如果关于 的假定不成立,那么,所做的检验,以及估计和预测也许站不住脚。确定有关 的假定是否成立的方法之一就是进行残差分析。残差是被解释变量的观测值 与根据估计的回归方程求出的预测值 之差,用e表示。它反映了用估计的回归方程去预测 而引起的误差。第i个观测值的残差可以写为:可以通过对残差图的分析来判断对误差项 的假定是否成立。第 10 章10.7 残 差 分 析一、随机误差项零均值绘制关于x的残差图,通过考察残差图的形态,可分析出E( )=0的假定是否满足。图10-6是不同形态的残差图,其中(a)和(b)中随机误差项的均值为0,而图10-6(c)中随机误差项的均值不为0。第 10 章10.7 残 差 分 析10.7.1 随机误差项零均值图10-6 不同形态的残差图二、随机误差项同方差残差图还有助于检验同方差假设的偏离程度。例如,残差—预测值的残差图可能显示出图10-7所示的某种模式。在这些图中,残差取值范围随着预测值 的增大而增大(或减小),意味着随机误差项的方差随着预测值的增大而变得越来越大(或越来越小)。因为 在模型中依赖解释变量x,也就暗示在给定解释变量x的情况下,随机误差项的方差并不相同。第 10 章10.7 残 差 分 析10.7.2 随机误差项同方差图10-7 异方差的残差图三、随机误差项无自相关通过对残差分布图的分析,可以大致判断随机误差项的变化特征。由于回归残 差 可以作为随机误差项 的估计值,随机误差项 的性质应该在残差 中反映出来。因此,可以通过残差 是否存在自相关性来判断随机项 的自相关性。如果随着时间的推移,残差分布呈现出周期性的变化,说明很可能存在自相关性。第 10 章10.7 残 差 分 析10.7.3 随机误差项无自相关1.按时间顺序绘制残差图如图10-10和图10-11所示,以t为横轴,以 为纵横,绘出 随时间变化的图形。如果 随时间的变化而呈现有规律的变动,说明存在自相关,进一步推断随机误差项存在自相关。图10-10 正自相关 图10-11 负自相关第 10 章10.7 残 差 分 析10.7.3 随机误差项无自相关2.绘制 与 散点图因为残差 是随机误差项 的估计,所以在对模型参数估计后,相应地计算出残差 ,由残差 的图形来直观地判断 的自相关性。计算 与 ,然后绘制 与 的二维坐标图,以 为纵轴, 为横轴,作 与 的散点图。如果图形存在系统性变动,则误差项 可能存在自相关,如图10-12和图10-13所示。第 10 章10.7 残 差 分 析10.7.3 随机误差项无自相关图10-12 正自相关 图10-13 负自相关第 10 章3.DW检验DW检验(Durbin and Watson,1950)是较早出现的自相关检验,现已不常用。它的主要缺点是只能检验一阶自相关。如果解释变量包括被解释变量的滞后值,则不能使用DW检验。DW检验的统计量为:式中, 表示残差的一阶自相关系数。因此,大致而言,当d=2时, =0,无一阶自相关;当d=0 时, ≈1,存在一阶正自相关;当d=4时, ≈-1,存在一阶负自相关。10.7 残 差 分 析10.7.3 随机误差项无自相关(10-26)统计检验过程是建立在假设随机误差 服从正态分布的基础之上的。既然不能直接观察真实的误差项 ,那么,如何证实i确实服从正态分布呢?我们有 的近似值—残差 ,因此,可通过 来获悉 的正态性。1.标准化残差可以通过对标准化残差的分析来完成正态性假设的检验。在回归模型的假设下,总体随机误差 服从均值为0,标准差为e的总体分布。因此,误差除以它们的标准差应该服从标准正态分布:,因此,残差除以它们的估计标准差s将得到一个标准残差。观察这些残差的直方图能告诉我们正态分布的假设是否有效。第 10 章10.7 残 差 分 析10.7.4 随机误差项服从正态分布第10章2.JB检验一种常用的正态性检验是Jarqe-Bera(雅克—贝拉)检验,简称JB检验,在许多统计软件中也都包括这种检验方法。它是依据OLS残差,对大样本的一种检验方法(或称为渐近检验)。计算偏度系数S(对概率密度函数对称性的度量:)(10-27)10.7 残 差 分 析10.7.4 随机误差项服从正态分布计算峰度系数K(对概率密度函数“胖瘦”的度量):(10-28)对于正态分布变量,偏度为0,峰度为3建立JB统计量:(10-29)式中,n表示样本容量;S表示偏度;K表示峰度。可以证明,在正态性假定下,上式给出的JB统计量渐进地服从自由度为2的x 分布,用符号表示为: 第 10 章10.7 残 差 分 析10.7.4 随机误差项服从正态分布第10章regress 命令的格式如下:.regress depvar indepvars [if] [in] [weight] [,options]常用的选项(options)有:noconstant 不加常数项做线性回归level(#)设定置信水平(默认为95%)noheader 不报告输出表名以clock.dta为例,如果要显示回归系数的协方差矩阵,可输入命令:. vce10.8 用Stata软件对多元回归的系数进行检验第10章其中,“vce”表示“variance covariance matrix estimated”。Stata输出的结果如下:对于回归方程 =-1 338.951+12.741x1+85.953x2+,考虑检验1是否等于15。检验原假设“H0∶β1=15”,可使用命令:. test year=15此命令检验的原假设为变量year的系数等于15。10.8 用Stata软件对多元回归的系数进行检验第10章如图10-18所示,残差并不服从正态分布。10.8 用Stata软件对多元回归的系数进行检验图10-18 残差的直方图第10章1.某地区机电行业销售额y(万元)、汽车产量x1(万辆)及建筑业产值x2(千万元)的数据如下表所示。试按照下面要求建立该地区机电行业的销售额和汽车产量及建筑业产值之间的回归方程,并进行检验(显著性水平 α=0.05)。多元线性回归分析思考与练习年份 销售额(y) 汽车产量(x1) 建筑业产值(x2) 年份 销售额(y) 汽车产量(x1) 建筑业产值(x2)1981 280.0 3.909 9.43 1990 620.8 6.113 32.171982 281.5 5.119 10.36 1991 513.6 4.258 35.091983 337.4 6.666 14.50 1992 606.9 5.591 36.421984 404.2 5.338 15.75 1993 629.0 6.675 36.581985 402.1 4.321 16.78 1994 602.7 5.543 37.141986 452.0 6.117 17.44 1995 656.7 6.933 41.301987 431.7 5.559 19.77 1996 998.5 7.638 45.621988 582.3 7.920 23.76 1997 877.6 7.752 47.381989 596.6 5.816 31.61第10章(1)根据上面的数据建立对数模型:(1)(2)所估计的回归系数是否显著?用p值回答这个问题。(3)解释回归系数的含义。(4)根据上面的数据建立线性回归模型:(2)(5)比较模型(1)、(2)的 的值。(6)如果模型(1)、(2)的结论不同,你将选择哪个回归模型?为什么?多元线性回归分析思考与练习 展开更多...... 收起↑ 资源预览