资源简介 (共54张PPT)1统计学Statistics2第 9 章 相关和回归分析9.1 相关分析9.2 线性回归模型的建立和估计9.3 拟合优度和显著性检验9.4 多重共线性9.5 利用回归方程进行预测9.6 引入虚拟变量的回归分析9.7 小结3第 9 章 相关和回归分析9.1 相关分析4相关分析但现实生活中,由于影响变量y的因素可能有很多,即使把所有的影响因素(变量x)都考虑进来,仍然还可能存在某些随机因素,从而导致当变量x取相同值的时候,变量y并不能被唯一确定,其取值可能发生变化。变量之间这种不确定性的关系称为相关关系(correlation) 。如果变量x取值相同时,变量y的值不会发生变化,可以依据一个表达式唯一确定,我们把变量之间这种确定性的关系称为函数关系(functional relation)。5相关分析散点图(scatterplot)是用于描述两个变量相关关系最常用的一个工具。图9-1给出了相关关系的几种不同表现形式。(a)完全正线性相关(b)完全负线性相关(c)正线性相关(d)负线性相关(e)非线性相关(f)不相关图9-1 相关关系的不同表现形式6相关分析如果两个变量的散点图如图9-1(a)、(b)所示,所有数据点都恰好落在一条直线上,则称这两个变量是完全线性相关。依据直线斜率的正负,(a)为完全正线性相关,(b)为完全负线性相关。图9-1(c)、(d)所描述的是典型的线性相关关系,两个变量的观测值大致呈一条直线分布,但并不完全与之吻合,各数据点可能在直线附近略有波动。如果整体上一个变量随着另一个变量取值的增加而增加,则为正线性相关;反之,则为负线性相关。有时候,两个变量的观测值并不呈直线分布,而是大致在一条曲线附近波动,如图9-1(e)所示,称两个变量是非线性相关。特别地,当两个变量的观测值表现为图9-1(f)所示的分布形态时,说明一个变量的取值与另一个变量没有任何明显的关联,则称二者不相关。7相关分析【例9.1】面对各种诱人的食物,想要保持身材的你是否留意过每种食物所含的脂肪和热量?表9-1列出了16种食物每百克中的脂肪含量和热量,这两个指标之间是否存在某种关联?如果存在,这种关系的表现形式是什么?食物 脂肪(克) 热量(千卡)乐事薯片 30.67 521甜甜圈 14.68 227原味手指饼干 22.70 494玉米饼 2.40 151炸薯条 11.01 201炸鸡翅 10.97 224巧克力 40.10 589冰淇淋 5.30 127辣条 23.70 357鸭脖子 5.80 206士力架 23.60 489香辣豆腐干 11.30 197酸辣粉 3.87 97三明治 11.84 219鸡蛋饼 7.58 151沙琪玛 30.40 505表9-1 16种食物每百克中的脂肪含量和热量8相关分析解:从表9-1中的数据我们注意到,脂肪含量相对较低的食物似乎热量也较低,脂肪含量较高时,食物的热量也较高。为了更加直观地揭示二者之间是否真的存在这种关系,我们可以绘制散点图。以热量为纵坐标变量y,脂肪为横坐标变量x,Excel绘制的散点图如下:图9-2 不同食物每百克脂肪含量(克)和热量(千卡)的散点图从图9-2可以清晰地看到,这些食物的脂肪含量和热量的数据点大体呈一条直线,并且随着脂肪含量的增加,整体上热量也呈现出上升的趋势,说明二者之间存在典型的正线性相关关系。9相关分析相关系数(correlation coefficient)是度量两个数值变量之间线性关系强度的统计量。基于总体数据计算得到的称为总体相关系数,记为ρ;基于样本数据计算得到的称为样本相关系数,记为r。样本相关系数的计算公式有多种,最常用的为:其中,n为样本量, 为变量x的样本均值, 为变量y的样本均值。按上式计算的相关系数称为Pearson相关系数(Pearson’s correlation coefficient)10相关分析Pearson相关系数有三个假定条件:(1)两个变量之间是线性相关关系;(2)两个变量都是随机变量且服从联合正态分布;(3)样本数据中没有极端值。相关系数r的取值范围为[-1,1],r>0表明两个变量之间存在正线性相关关系;r<0则为负线性相关关系。r的绝对值越接近于1,两个变量之间的线性相关关系越强;r的绝对值越接近于0,两个变量之间的线性相关关系越弱。11相关分析相关系数显著性检验的原假设和备择假设为:H0:ρ=0;H1:ρ≠0结合指定的显著性水平α,临界值即为t(n-2)分布的α/2上下侧分位数( 和- ),根据样本数据计算出检验统计量t的实际取值,与临界值进行比较,判断是否落入拒绝域并做出决策。利用计算机也可以直接计算p-值,通过比较p-值与α的大小,做出决策。在原假设成立的前提下,构造的检验统计量:服从自由度为n-2的t分布。12相关分析【例9.2】沿用例9.1的数据,计算每百克食物所含的脂肪和热量两个变量之间的相关系数,并在0.05的显著性水平下,检验相关系数是否显著。解:基于表9-1的数据,使用Excel中的【CORREL】函数可以计算得到r=0.9576,说明每百克食物所含的脂肪和热量两个变量之间存在很强的正线性相关关系,与散点图9-2显示的直观印象一致。进一步地,将样本量n=16,r=0.9576代入公式,计算得到检验统计量指定的显著性水平α=0.05,使用Excel中的【T.DIST.2T】函数计算得到双侧检验的p-值=5.895E-09,p-值<α,检验通过,即有理由认为每百克食物所含的脂肪和热量两个变量之间总体上也存在显著的线性相关关系。13第 9 章 相关和回归分析9.2 线性回归模型的建立和估计14线性回归模型的一般表达式可能影响因变量的其他变量称为自变量(independent variable)或解释变量(explanatory variable),通常记为x。用于量化描述自变量和因变量之间关系的表达式称为回归模型(regression model)。回归分析中把重点考察的目标变量称为因变量(dependent variable)或被解释变量(explained variable),通常记为y。如果变量之间存在显著的线性相关关系,就可以建立线性回归模型(linear regression model)对其进行刻画。15线性回归模型的一般表达式y=β0+β1x+ 其中,β0、β1称为模型的参数, 为误差项。当涉及的自变量只有一个时,建立的回归模型称为一元线性回归模型(simple linear regression model),其一般表达式为一元线性回归模型由两部分构成:β0+β1x反映了因变量y的取值中可以由自变量x的线性函数决定的部分,或者说可以由x和y的线性关系解释的y取值的变异部分;误差项 则反映了除自变量x以外的其他随机因素对因变量y的影响,是不能由x和y的线性关系解释的y取值的变异部分。16线性回归模型的一般表达式参数β0就是回归直线(regression line)在y轴上的截距,它表示当自变量x等于0时,y的平均值。 是一个随机变量,需要满足三个假定条件:(1)独立性。对于不同的x值,所对应的误差项 相互之间是不相关的。(2)正态性。 服从正态分布,且期望值为0。(3)方差齐性。对于不同的x值, 分布的方差σ2都相等。参数β1就是回归直线的斜率,也称为回归系数(regression coefficient),它表示当自变量x变动一个单位时,因变量y的平均变动值。当 满足上述条件时,对于给定的x值,y服从期望值为E(y)= β0+β1x,方差为σ2的正态分布,且相互之间独立。17线性回归模型的一般表达式y=β0+β1x1+…+βkxk+ 如果涉及的自变量不只一个时,建立的回归模型称为多元线性回归模型(multiple linear regression model),其一般表达式为多元线性回归模型由两部分构成:β0+β1x1+…+βkxk反映了可以由k个(k>1)自变量x1,…,xk和y的线性关系解释的y取值的变异部分;误差项 则反映了除k个自变量以外的其他随机因素对因变量y的影响。当 满足独立性、正态性和方差齐性的假定条件时,对于给定的x1,…,xk的值,E(y)= β0+β1x1+…+βkxk。参数β0表示当k个自变量都等于0时,y的平均值;β1、…、βk称为偏回归系数(partial regression coefficient),其含义分别表示当其他k-1个自变量都不变时,所对应的自变量变动一个单位,因变量y的平均变动值。18线性回归模型的一般表达式回归模型的参数是未知的,需要利用样本数据对其进行估计,得到估计的回归方程(regression equation)。最小二乘法(least squares method)通过使因变量的观测值 和估计值 之间的离差平方和达到最小来估计参数,也称为最小平方法。对于一元线性回归,估计的回归方程为对于多元线性回归,估计的回归方程为19线性回归模型的一般表达式根据最小二乘法,对于一元线性回归,令使得Q达到最小的 和 即为模型参数的最小二乘估计值。从示意图9-3可以更加直观地看出,最小二乘法的基本思想就是要寻找一条直线,使得所有数据点到它的竖直距离平方和达到最小,这一过程也称为拟合(fit)。同样地,对于多元线性回归,令使得Q达到最小的 即为模型参数的最小二乘估计值。20线性回归模型的一般表达式21线性回归模型的一般表达式【例9.3】沿用例9.1的数据,由于体重的控制通常关注摄入食物的热量,为进一步确定食物脂肪含量与热量之间的影响关系,试以热量为因变量,脂肪含量为自变量,建立二者的线性回归方程。解:由例9.2的相关分析结果已知,每百克食物所含的脂肪和热量两个变量之间存在显著的线性相关关系,因此可以考虑以热量为因变量y,脂肪为自变量x,建立一元线性回归模型。基于表9-1的样本数据,利用Excel中的【数据分析】工具输出如表9-3所示的回归分析结果(参数估计部分): Coefficients 标准误差 t Stat P-value 下限 95.0% 上限 95.0%Intercept 69.9677372 22.06460695 3.171039364 0.006801144 22.64386194 117.2916125脂肪 14.20567445 1.142115594 12.43803563 5.89546E-09 11.75608013 16.65526877表9-3 食物所含脂肪和热量的回归模型参数估计结果(Excel)22线性回归模型的一般表达式表中第一列(coefficients)即为模型参数β0、β1的最小二乘估计结果(其他输出结果的解释见后文),因此建立的一元线性回归方程为其中,回归系数 =14.206,表示当每百克食物脂肪含量增加(或减少)1克时,热量平均将增加(或减少)14.206千卡。23第 9 章 相关和回归分析9.3 拟合优度和显著性检验24拟合优度判定系数(coefficient of determination)是评价回归方程拟合优度最常用的统计量,也称为决定系数或可决系数,记作R2,其计算公式为R2在0到1之间取值,它测度了回归方程对因变量变异的解释程度。回归方程对观测值的解释能力称为拟合优度(goodness of fit)。对于多元线性回归方程,按照上式计算的统计量称为多重判定系数(multiple coefficient of determination)为更加客观地评价回归方程的拟合优度,通常还会计算调整的多重判定系数(adjusted multiple coefficient of determination),记作Ra2,计算公式为25拟合优度基于样本数据计算的因变量观测值和估计值的差值称为残差(residual),记作ei。估计标准误差即残差平方和的均方根,它从另一个角度度量了回归方程对观测值的拟合优度。估计标准误差(standard error of estimate)是残差的标准差,记作se,其计算公式为:26拟合优度【例9.4】沿用例9.3的回归分析结果,对建立的线性回归方程拟合优度进行评价。解:在例9.3中利用Excel的【数据分析】工具输出回归模型参数估计结果的同时,还将输出如表9-5所示的拟合优度结果:回归统计Multiple R 0.95760888R Square 0.91701477Adjusted R Square 0.91108726标准误差 49.4969866观测值 16表9-5 食物所含脂肪和热量的回归方程拟合优度结果(Excel)27显著性检验线性回归模型的建立是以自变量和因变量之间存在线性关系为假设前提的,因此,利用样本数据估计得到的回归方程能否适用于总体就需要进行假设检验。在原假设成立的前提下,构造的检验统计量 服从自由度为k和n-k-1的F分布。对于包含k个自变量的多元线性回归方程,检验的原假设和备择假设为H0:β1=…=βk=0;H1:βi至少有一个不等于0(i=1,…, k)结合指定的显著性水平α,临界值即为F(k, n-k-1)分布的α上侧分位数(Fα),根据样本数据计算出检验统计量F的实际取值,与临界值进行比较,若F> Fα,则拒绝原假设,有理由相信自变量和因变量之间总体上也存在显著的线性关系。当利用计算机还可以直接输出p-值,通过比较p-值与α的大小,做出决策。28显著性检验可以证明,在误差项满足前述假定条件时, 服从正态分布,期望值 ,标准误差记为 。 往往是未知的,通常用样本数据计算其估计值,记为 。原假设成立时,构造的检验统计量 服从自由度为n-k-1的t分布。对回归系数逐一进行检验,相应的原假设和备择假设为H0:βi=0;H1:βi≠0(i=1,…, k)结合指定的显著性水平α,临界值即为t(n-k-1)分布的α/2上下侧分位数( 和- ),根据样本数据计算出检验统计量t的实际取值,与临界值进行比较,若ti> 或ti<- ,则拒绝原假设,有理由相信第i个自变量对因变量的影响是显著的。也可以利用计算机直接输出p-值,通过比较p-值与α的大小,做出决策。29显著性检验【例9.5】沿用例9.3的回归分析结果,在0.05的显著性水平下,对建立的回归方程及其回归系数进行显著性检验。解:利用Excel中的【数据分析】工具输出的回归分析结果中还包含如表9-7所示的回归方程检验结果: df SS MS F Significance F回归分析 1 379019.114 379019.114 154.7047303 5.89546E-09残差 14 34299.32354 2449.951681总计 15 413318.4375表9-7 食物所含脂肪和热量的回归方程检验结果(Excel)计算得到F统计量的值为154.7047303,最后检验的p-值为5.89546E-09,远小于指定的显著性水平0.05,通过了检验。因此,有理由相信例9.3中建立的食物所含脂肪和热量的一元线性回归方程整体上是显著的。30显著性检验而关于回归系数的显著性检验,已经在例9.3中的表9-3与模型参数估计结果一并给出。可以看到,Excel在提供回归系数β1的最小二乘估计结果的同时,给出了估计量 的标准误差(1.142115594),并基于此计算得到t统计量的值为12.43803563,最后检验的p-值为5.89546E-09,显然与整个回归方程的显著性检验p-值相等,证明了在一元线性回归分析中二者是等价的。因此,可以推断,总体上食物脂肪含量对热量的影响是显著的。31显著性检验【例9.6】改革开放以来,我国寿险业获得极大发展,2017年成为世界第二大寿险市场。为研究我国寿险行业的未来发展趋势,现收集整理了2017年我国31个地区的人身险保费收入、地区生产总值、居民人均可支配收入、大专及以上学历人数和死亡率等指标数据,如表9-8所示(此处略)。试以人身险保费收入为因变量,其他指标为自变量,对其进行多元线性回归分析。(显著性水平α=0.05)解:根据题意,以人身险保费收入为因变量y,地区生产总值、居民人均可支配收入、大专及以上学历人数和死亡率分别为自变量x1,x2,x3,x4,尝试建立多元线性回归方程。表9-9至表9-11为SPSS软件输出的回归分析结果。32显著性检验模型汇总模型 R R 方 调整 R 方 标准 估计的误差1 .964a .930 .919 188.39247a. 预测变量: (常量), 死亡率, 地区生产总值, 居民人均可支配收入, 大专及以上学历人数。表9-9 回归方程拟合优度Anovab 模型 平方和 df 均方 F Sig. 1 回归 1.226E7 4 3064203.913 86.336 .000a残差 922784.804 26 35491.723 总计 1.318E7 30 a. 预测变量: (常量), 死亡率, 地区生产总值, 居民人均可支配收入, 大专及以上学历人数。 b. 因变量: 人身险保费收入 表9-10 回归方程显著性检验33显著性检验系数a模型 非标准化系数 标准系数 t Sig.B 标准 误差 试用版1 (常量) -165.722 322.074 -.515 .611地区生产总值 .013 .005 .427 2.787 .010居民人均可支配收入 .003 .004 .044 .625 .537大专及以上学历人数 .123 .039 .533 3.148 .004死亡率 -4.432 46.984 -.006 -.094 .926a. 因变量: 人身险保费收入表9-11 回归模型参数估计结果及显著性检验34显著性检验由表9-11的模型参数估计结果可知,建立的回归方程为表9-9中的多重判定系数R2=0.93,调整的多重判定系数Ra2=0.919,表明4个自变量的线性函数可以解释因变量观测值90%以上的变异部分,拟合优度很高。表9-10是对回归方程整体的显著性检验,由于p-值接近于0,通过了检验,表明从整体上而言,4个自变量和因变量之间具有显著的线性关系。表9-11在给出各回归系数最小二乘估计结果的同时,还对其逐一进行了显著性检验。在指定的显著性水平下,只有地区生产总值和大专及以上学历人数两个自变量的回归系数通过了检验(p-值分别为0.01和0.004),居民人均可支配收入和死亡率两个自变量的回归系数则没有通过检验(p-值分别为0.537和0.926)。35第 9 章 相关和回归分析9.4 多重共线性36多重共线性如果在多元线性回归中存在严重的多重共线性,违背了自变量相互独立的条件,就可能导致各种问题的出现。首先,整个回归方程的拟合优度很高且通过了显著性检验,但多数自变量的回归系数无法通过检验;在多元线性回归模型中,除了自变量与因变量之间可能存在较强的相关关系,自变量与自变量之间也可能存在一定的相关性,称之为多重共线性(multicollinearity)。其次,回归系数的大小甚至符号与基于理论或经验的判断不一致,难以解释;第三,理论上重要的影响变量被排除在模型之外,无法通过显著性检验;第四,参数估计值的方差变大,对样本数据的微小变化十分敏感,模型的预测精度降低。37多重共线性【例9.7】沿用例9.6,针对回归方程存在的问题,采用逐步回归法重新进行分析。(显著性水平α=0.05)解:基于表9-8的数据,仍然以人身险保费收入为因变量,地区生产总值、居民人均可支配收入、大专及以上学历人数和死亡率为自变量,SPSS软件逐步回归分析的输出结果如表9-13至表9-16所示。输入/移去的变量a模型 输入的变量 移去的变量 方法1 大专及以上学历人数 . 步进(准则: F-to-enter 的概率 <= .050,F-to-remove 的概率 >= .100)。2 地区生产总值 . 步进(准则: F-to-enter 的概率 <= .050,F-to-remove 的概率 >= .100)。a. 因变量: 人身险保费收入表9-13 自变量的筛选过程及标准38多重共线性模型汇总c模型 R R 方 调整 R 方 标准 估计的误差1 .953a .908 .905 203.955232 .964b .928 .923 183.56946a. 预测变量: (常量), 大专及以上学历人数。b. 预测变量: (常量), 大专及以上学历人数, 地区生产总值。c. 因变量: 人身险保费收入表9-14 回归方程拟合优度Anovac模型 平方和 df 均方 F Sig.1 回归 1.197E7 1 1.197E7 287.835 .000a残差 1206334.384 29 41597.737 总计 1.318E7 30 2 回归 1.224E7 2 6118031.750 181.556 .000b残差 943536.955 28 33697.748 总计 1.318E7 30 a. 预测变量: (常量), 大专及以上学历人数。b. 预测变量: (常量), 大专及以上学历人数, 地区生产总值。c. 因变量: 人身险保费收入表9-15 回归方程显著性检验39多重共线性针对例9.6的研究问题,最终可以建立如下线性回归方程(模型2):其中,偏回归系数 =0.134,表示当地区生产总值保持不变时,大专及以上学历人数每增加(或减少)1人,人身险保费收入平均将增加(或减少)0.134亿元; =0.012,表示当大专及以上学历人数保持不变时,地区生产总值每增加(或减少)1亿元,人身险保费收入平均将增加(或减少)0.012亿元。系数a模型 非标准化系数 标准系数 t Sig.B 标准 误差 试用版1 (常量) -232.694 71.633 -3.248 .003大专及以上学历人数 .219 .013 .953 16.966 .0002 (常量) -150.584 70.861 -2.125 .043大专及以上学历人数 .134 .033 .583 4.112 .000地区生产总值 .012 .004 .396 2.793 .009a. 因变量: 人身险保费收入表9-16 回归模型参数估计结果及显著性检验40第 9 章 相关和回归分析9.5 利用回归方程进行预测41利用回归方程进行预测基于点估计,还可以构造因变量的两个估计区间:一个是对自变量的给定值,计算因变量平均值的估计区间,这一区间称为置信区间(confidence interval);如果直接将各个自变量的观测值代入到已经建立的线性回归方程中,就可以计算得到因变量的点估计值。另一个是对自变量的给定值,计算因变量个别值的估计区间,这一区间称为预测区间(prediction interval)。42利用回归方程进行预测【例9.8】沿用例9.3建立的线性回归方程,对于给定的食物脂肪含量观测值,计算所含热量的点估计值以及95%置信区间和预测区间。解:例9.3建立的线性回归方程为基于此,SPSS软件输出的因变量点估计值及95%置信区间和预测区间如表9-17所示。43利用回归方程进行预测x y PRE_1 LMCI_1 UMCI_1 LICI_1 UICI_130.67 521 505.65577 460.97220 550.33935 390.47475 620.8368014.68 227 278.50704 251.77215 305.24193 169.03192 387.9821622.70 494 392.43655 361.22528 423.64781 281.78308 503.090022.40 151 104.06136 61.47712 146.64559 -10.32161 218.4443311.01 201 226.37221 197.15763 255.58680 116.26527 336.4791610.97 224 225.80399 196.54831 255.05966 115.68613 335.9218440.10 589 639.61528 574.87749 704.35308 515.27290 763.957675.30 127 145.25781 107.96526 182.55037 32.73767 257.7779523.70 357 406.64222 374.07521 439.20924 295.59873 517.685725.80 206 152.36065 115.91810 188.80320 40.11936 264.6019423.60 489 405.22165 372.79599 437.64732 294.21953 516.2237711.30 197 230.49186 201.56700 259.41672 120.46143 340.522283.87 97 124.94370 85.11221 164.77518 11.55678 238.3306211.84 219 238.16292 209.73809 266.58775 128.26289 348.062967.58 151 177.64675 144.04188 211.25162 66.29445 288.9990530.40 505 501.82024 457.66700 545.97348 386.84391 616.79657表9-17 食物所含热量的点估计值、95%置信区间及预测区间其中,PRE_1是对给定的脂肪含量x,热量y的点估计值;LMCI_1和UMCI_1分别是热量y的95%置信区间下限值和上限值;LICI_1和UICI_1分别是热量y的95%预测区间下限值和上限值。44利用回归方程进行预测图9-4更加直观地展示了预测的效果图。图中的实线即为例9.3拟合的回归直线,靠近该直线两侧的带状区间为因变量的95%置信区间,外侧两条虚线构成的带状区间则为因变量的95%预测区间。图9-4 例9.3拟合的回归直线及因变量的95%置信区间和预测区间45第 9 章 相关和回归分析9.6 引入虚拟变量的回归分析46引入虚拟变量的回归分析“量化”后的类别变量称为虚拟变量(dummy variable,也称哑变量)。引入虚拟变量的回归方程拟合过程与前文类似,但虚拟变量xi的回归系数的含义为,相对于参照水平,水平i可能引起的因变量的变化程度。一般地,当类别变量的取值有k个水平(类别)时,需要选取一个水平作为参照水平(如水平k),然后在模型中引入k-1个虚拟变量,分别表示为47引入虚拟变量的回归分析【例9.9】某就业服务机构认为,工资收入(月薪)与工龄、学历之间可能存在密切关联,为验证该想法并进一步确定其影响关系,随机调查了20名就业者的基本情况如表9-18所示(此处略)。试以月薪为因变量y,工龄、学历为自变量,建立合适的线性回归方程。(显著性水平α=0.05)解:如果只考虑工龄一个自变量,利用SPSS输出的回归分析结果如表9-19至表9-21所示。模型汇总模型 R R 方 调整 R 方 标准 估计的误差1 .515a .265 .225 962.909a. 预测变量: (常量), 工龄。表9-19 一元线性回归方程拟合优度48引入虚拟变量的回归分析Anovab模型 平方和 df 均方 F Sig.1 回归 6030448.660 1 6030448.660 6.504 .020a残差 1.669E7 18 927194.505 总计 2.272E7 19 a. 预测变量: (常量), 工龄。b. 因变量: 月薪表9-20 一元线性回归方程显著性检验系数a模型 非标准化系数 标准系数 t Sig.B 标准 误差 试用版1 (常量) 554.935 1882.851 .295 .772工龄 119.407 46.821 .515 2.550 .020a. 因变量: 月薪表9-21 一元线性回归模型参数估计结果及显著性检验49引入虚拟变量的回归分析可以看到,虽然工龄对月薪的影响是显著的,但判定系数R2仅为0.265(调整的判定系数更低),说明工龄只能解释月薪变化的26.5%,还有重要的影响因素没有考虑进来,因此有必要将学历作为另一个自变量纳入到模型中。由于学历是类别变量,取值水平为2个,所以设定1个虚拟变量x2(工龄为自变量x1):利用SPSS输出的二元回归分析结果如表9-22至表9-24所示。50引入虚拟变量的回归分析模型汇总模型 R R 方 调整 R 方 标准 估计的误差1 .949a .901 .889 364.393a. 预测变量: (常量), 学历, 工龄。表9-22 引入虚拟变量的回归方程拟合优度Anovab模型 平方和 df 均方 F Sig.1 回归 2.046E7 2 1.023E7 77.053 .000a残差 2257297.592 17 132782.211 总计 2.272E7 19 a. 预测变量: (常量), 学历, 工龄。b. 因变量: 月薪表9-23 引入虚拟变量的回归方程显著性检验51引入虚拟变量的回归分析最终建立的线性回归方程为其中,偏回归系数 =53.275,表示当学历相同时,工龄每增加(或减少)1个月,月薪平均将增加(或减少)53.275元; =1804.547,表示当工龄相同时,研究生学历的就业者比本科及以下学历的就业者月薪平均高出1804.547元。系数a模型 非标准化系数 标准系数 t Sig.B 标准 误差 试用版1 (常量) 2294.630 731.805 3.136 .006工龄 53.275 18.820 .230 2.831 .012学历 1804.547 173.090 .847 10.425 .000a. 因变量: 月薪表9-24 引入虚拟变量的回归模型参数估计结果及显著性检验52第 9 章 相关和回归分析9.7 小结53小结现实生活中,多数变量之间都是不确定性的关系,称为相关关系。利用散点图和相关系数,相关分析可以帮助我们初步判断变量之间是否存在相关关系,相关关系的具体形式是什么,以及线性相关的强弱程度。回归分析则以某个特定变量作为因变量,其他可能影响该变量的因素作为自变量,尝试建立合适的回归模型,以量化描述自变量对因变量的影响。54小结如果自变量和因变量都是数值变量,自变量与因变量之间存在显著的线性关系,可以建立经典线性回归模型,利用样本数据估计模型参数,得到估计的回归方程。对回归方程的拟合优度进行评价,对回归方程及回归系数进行显著性检验,最后利用回归方程对因变量进行预测。如果涉及的自变量是类别变量,则需要根据其取值类别,设定相应的虚拟变量,引入虚拟变量的回归分析过程不变。 展开更多...... 收起↑ 资源预览