资源简介 (共79张PPT)管理统计学8 线性回归8.1 回归分析概述8.2 一元线性回归8.3 多元线性回归8.4 二维Logistic回归8.1.1 回归分析的基本概念回归分析过程:把一个变量作为自变量,另一个作为因变量,建立二者的数学表达式,从自变量估计因变量的取值回归分析:通过提供变量之间的数学表达式来定量描述变量间相关关系的数学过程数学表达式(经验公式)利用概率统计知识验证公式的有效性根据自变量的取值预测因变量的取值如多因素作为自变量,找出对因变量影响显著的应用广泛生物统计;医学统计数据挖掘(预测和控制二功能)相关分析能够为回归分析提供自变量,相关分析是回归分析的前提和基础8.1.2 回归分析步骤定回归方程中的解释变量和被解释变量解释变量(x);被解释变量(y)有别于相关分析(如:父亲身高关于成年儿子身高的回归分析与成年儿子身高关于父亲身高的回归分析时完全不同的 )确定回归模型:通过观察散点图确定应通过哪种数学模型来概括回归线建立回归方程:在一定的统计拟合准则下估计出模型中的各个参数,得到一个确定的回归方程对回归方程进行各种检验 :检验回归方程时否真实地反映了事物总体间的统计关系以及回归方程能否用于预测等利用回归方程进行预测:根据回归方程对事物的未来发展趋势进行预测8.2 一元线性回归一元线性回归分析研究某一现象与影响它的某一最主要因素的影响排除其他影响因素或假定其他影响因素确定的条件下,分析某一个因素(自变量)是如何影响另一事物(因变量)的过程比较理想化举例如影响粮食产量的因素非常多,但在众多因素中,施肥量是一个重要的因素,往往需要研究施肥量这一因素与粮食产量之间的关系在消费问题的研究中,影响消费的因素很多,但我们可以只研究国民收入与消费额之间的关系,因为国民收入是影响消费的最主要因素保险公司在研究火灾损失的规律时,把火灾发生地与最近的消防站的距离作为一个最主要因素,研究火灾损失与火灾发生地距最近消防站的距离之间的关系对所研究的问题首先要收集与它有关的n组样本数据(xi,yi) ,i=1,2,…,n。为了直观地发现样本数据的分布规律,把(xi,yi)看成是平面直角坐标系中的点,画出这n个样本点的散点图例8.1化肥施用量与粮食产量的关系为准确地定出化肥施用量的单位变化如何影响粮食产量的平均单位变化,进而确定合理的化肥施用量序号 粮食产量y 化肥施用量x1 48526.69 4541.052 45110.87 3637.873 40753.79 2287.494 43824.58 3056.895 50890.11 4883.706 46370.88 3779.307 46577.91 4021.098 42947.44 2989.069 41637.21 3021.9010 47244.34 3953.9711 43061.53 3212.1312 47336.78 3804.7613 37127.89 1598.2814 39515.07 1998.5615 46598.04 3710.5616 44020.92 3269.0317 34866.91 1017.1218 37184.14 1864.2319 41864.77 2797.2420 33717.78 1.34.09例8.2 人均消费金额和人均国民收入收集到1986~2005年20年的样本数据年份 人均国民收入 人均消费金额1986 963 4971987 1112 5651988 1366 7881989 1519 7881990 1644 8331991 1893 9321992 2311 11161993 2998 13931994 4044 18331995 5046 23551996 5846 27891997 6420 30021998 6796 31591999 7159 33462000 7858 36322001 8622 38692002 9398 41062003 10542 44112004 12336 49252005 14040 5439人均消费金额和人均国民收入(续)从例8.1和8.2的散点图看到样本数据点(xi,yi)大致都分别落在一条直线附近说明变量x与y之间具有明显的线性关系这些样本点有不都在一条直线上,表明变量x和y的关系并没有确切到给定x就可以唯一确定y的程度对y产生影响的因素还有许多,如人家消费金额不仅受人均国民收入的影响,还与上年的消费水平、银行利率、商品价格指数等有关,这些对y的取值都有随机影响把每个样本点与直线的偏差就可看做是其他随机因素的影响8.2.1 一元线性回归模型一元线性回归模型/简单线性回归模型只有一个解释变量的线性回归模型解释被解释变量与另一个解释变量之间的线性关系建立模型因变量(y):被预测或被解释的变量;自变量(x):预测或解释因变量的一个或多个变量假定自变量是可控制的,而因变量是随机的近似的线性函数关系:反映了由于x的变化引起的y的线性变化ε:误差项的随机变量它反映了除x和y之间的线性关系之外的随机因素对y的影响,是不能由x和y之间的线性关系所解释的变异性它是未包括在模型中而又影响y的全部变量的替代物β0和β1:模型的参数8.2.1 一元线性回归模型德国数学家高斯最早提出的高斯假定/标准假定回归分析的假定条件(随机误差项ε是无法直接观测的 )误差项的期望值为0误差项的方差为常数误差项之间相互独立,其协方差为零Cov(xi,ε)=0,即xi和ε不存在相关关系随机误差项服从正态分布。独立性意味着对于一个特定的x值,它所对应的y值与其他x所对应的y值也不相关.这表明,在x取某个确定值的情况下,y的变化由误差项ε的方差σ2来决定8.2.2 参数的最小二乘估计一元线性回归方程(y的期望值是x线性函数 ) :总体回归参数β0和β1是未知的回归分析的主要任务:利用样本数据区估计β0和β1样本统计量 和 代替位置参数估计的回归方程 :对于第i个x值 :用于描述其关系的直线有多条 ,利用最小二乘法选择最适合代表两个变量关系的最小二乘估计(续)“二乘”(平方):寻找一条直线,使得所有点到该直线的垂直距离的平方和最小得到一条与数据拟合良好的直线求得的回归直线可知β0和β1的估计量的抽样分布同其他估计量相比,其抽样分布具有较小的标准差最小二乘法使:解得:例8.3 修理时间与原件个数考察修理(或服务)时间与计算机中需要修理或更换的元件个数的关系(修理时间为因变量,元件数为自变量)行数 修理时间 元件个数1 23 12 29 23 49 34 64 45 74 46 87 57 96 68 97 69 109 710 119 811 149 912 145 913 154 1014 166 19修理时间与原件个数(续)由散点图,知修理时间和所修理或更换的元件个数之间具有一定的线性关系得到:修理时间对元件个数的估计方程:回归系数 表示:元件个数每增加1个,修理时间平均增加15.509分钟在回归分析中,对截距 常常不能赋予任何真实意义,通常不作实际意义上的解释线性回归模型的最小二乘法估计的具体数值SPSS的Regression过程Linear子过程会计算给出8.2.3 回归方程的检验需要对样本回归方程进行各种检验(即使一些杂乱无章的散点也可以配出一条直线)经济意义检验:检验参数估计值的符号和取值范围是否与其相对应的实质性科学理论以及世界经验的结论想一致统计学检验:运用统计学中的抽样理论对样本回归方程的可靠性进行的检验经济计量学检验:对回归模型中的随机误差项的假设条件是否能得到满足进行的检验回归分析中的显著性检验包含两个方面对整个方程线性关系的显著性检验——F检验法对回归系数的显著性检验——t检验法回归直线的拟合优度回归直线 ,在一定程度上描述了变量x与y之间的数量关系,可根据自变量x的取值来估计或预测因变量y的取值,估计或预测的精度如何将取决于回归直线对观测数据的拟合程度回归直线对数据的拟合优度:回归直线与各观测点的接近程度回归方程的拟合优度检验:检验样本数据聚集在样本回归直线周围的密集程度,从而判断回归方程对样本数据的代表程度判定系数判定系数:度量估计的回归方程拟合优度变差(y取值波动)来自:自变量x的取值不同造成的除了x以外的其他因素(如x对y的非线性影响、测量误差等)的影响变差的大小可以用实际观测值与其均值之差来表示总平方和(SST): n次观察值的总变差可由这些变差的平方和来表示总变差可分解成: (解释离差和残差)取平方得:总平方和(SST)= 回归平方和(SSR)+ 残差平方和(SSE)判定系数(续)回归直线拟合的好坏取决于SSR及SSE的大小/取决于回归平方和SSR占总平方和SST的比例SSR/SST的大小。各观测点越是靠近直线,SSR/SST则越大,直线拟合得越好判定系数(R2):回归平方和占总平方和的比例拟合优度检验:判定系数测度了回归直线对观测数据的拟合程度若所有观测点都落在直线上,残差平方和SSE=0,R2=1,拟合是完全的如果y的变化与x无关,x完全无助于解释y的变差,则R2=00≤R2≤1在一元线性回归中,判定系数是相关系数的平方相关系数r可以作为回归直线对样本观察值拟合程度的另一个测度值相关系数r说明回归直线拟合程度要比用判定系数R2谨慎些估计标准误差估计标准误差(Se )能表示出回归直线估计值与变量y的各实际观测值的绝对离差的数额反映回归估计值 与样本实际观测值yi的平均差异程度的指标是对误差项ε的标准差σ的估计从另一角度说明回归直线拟合程度及代表性和变量间关系密切程度的指标回归方程的显著性检验检验自变量x和因变量y之间的线性关系是否显著以方差分析为基础来验证总体X与Y是否存在真实的线性关系,为检验这两个变量之间的线性关系是否显著,则需要构造用于检验的一个统计量统计量的构造是以回归平方和(SSR)以及残差平方和(SSE)为基础的回归方程的F检验 :检验步骤建立假设:H0:β1=0(总体回归方程线性关系不显著)H1:β1≠0 (总体回归方程线性关系显著)计算检验统计量F的值根据确定的显著性水平和分子自由度df1=1和分母 df2=n-2,查F分布表,得到相应的临界值F α作出决策。若 ,则拒绝H0,接受H1,说明两个变量之间的线性关系是显著的,总体回归方程的一次项是必须的。若 ,则不拒绝H0,没有证据表明两个变量之间的线性关系显著。回归系数的显著性检验根据样本估计的结果对总体回归系数的有关假设进行检验回归方程的显著性检验只能检验所有回归系数是否同时与零有显著性差异,它不能保证回归方程中不包含不能较好解释说明因变量变化的自变量理论基础是回归系数 的抽样分布,其性质:数学期望:标准差 :估计的标准差————————构造回归系数的统计量:服从自由度为n-2 的t 分布回归系数的显著性检验就是检验回归系数是否等于0如果原假设成立,检验的统计量为检验步骤建立假设H0:β1=0H1:β1≠0计算检验的统计量:根据确定的显著性水平α和自由度df=n-2,查t分布表,得到相应的临界值作出决策若 ,则拒绝H0,回归系数等于0的可能性小于α,表明自变量x对因变量y的影响是显著的,换言之,两个变量之间存在着显著的线性关系;若 ,则不拒绝H0,没有证据表明x对y的影响显著,或者说,二者之间尚不存在显著的现象关系8.2.4 残差分析用残差证实模型的假定通过t检验或F检验表明变量x与y之间的线性关系是显著的,但不能保证数据拟合得很好,也不能排除由于意外原因而导致数据不完全可靠在利用回归方程做分析和预测之前,应该用残差图帮助我们诊断回归效果以及样本数据的质量,检查模型是否满足基本假定残差(e)由回归方程计算所得的预测值与实际样本值之间的差距反映了用估计的回归方程去预测yi而引起的误差第i个观测值的残差 :残差分析(续)残差均值为零的正态性分析当解释变量x取某个特定的值x0时,对应的残差必然有正有负,但总体上应服从以零为均值的正态分布。可以通过绘制残差图对该问题进行分析。残差图也是一种散点图,如果残差的均值为零,残差图中的点应在纵坐标为零的横线上下随机散落。对于残差的正态性分析可以通过绘制标准化(学生化)残差的累计概率图来分析。残差的独立性分析若对所有的x值,ε的方差都相同,而且假定描述变量x和y之间的关系模型是合理的,那么残差图中的所有点都应落在一条水平带中间。但如果对所有的x值,ε的方差是不同的,例如,对于较大的x值,相应的残差也较大,这就意味着违背了ε方差相等的假设。标准化残差标准化残差/Pearson残差/半学生化残差(Ze)残差除以它的标准差后得到的数值检验ε的正态性假定表示:如果误差项ε服从正态分布这一假定成立,那么标准化残差的分布也应服从正态分布。因为在标准化残差图中,大约有95%的标准化残差在-2到+2之间探测样本中的异常值和强影响点异常值和强影响点:远离均值的样本数据点,它们对回归方程的参数估计有较大影响,应尽量找出它们并加以排除探测被解释变量异常值:标准化残差学生化残差剔除残差探测解释变量异常值:杠杆值库克距离 ——————标准化回归系数的变化和标准化预测值的变化8.2.5 相关系数、判定系数和估计标准误差三者的关系估计标准误差衡量实际值与回归线的接近程度。当标准误差很小时,表示两变量高度相关。相关系数(r)衡量两变量之间相关的强弱程度。估计标准误差和相关系数用的是不同的度量方法来表达相同的信息相关系数的平方是判定系数。判定系数衡量变量y中有多大比例能用变量x来解释。8.2.6 一元线性回归的SPSS操作例8.4 研究气压和沸点之间的关系:气压及沸点是如何联系的?这种关系是强是弱?我们能否根据温度预测气压?如果能,有效性如何?案例号 沸点(℉) 气压(英寸汞柱) Log(气压) 100×log(气压)1 194.5 20.79 1.3179 131.792 194.3 20.79 1.3179 131.793 197.9 22.40 1.3502 135.024 198.4 22.67 1.3555 135.555 199.4 23.15 1.3646 136.466 199..9 23.35 1.3683 136.837 200.9 23.89 1.3782 137.828 201.1 23.99 1.3800 138.009 201.3 24.02 1.3806 138.0610 201.3 24.01 1.3805 138.0511 203.6 25.14 1.4004 140.0412 204.3 26.57 1.4244 142.4413 209.5 28.49 1.4547 145.4714 208.6 27.76 1.4434 144.3415 210.7 29.04 1.4630 146.3016 211.9 29.88 1.4754 147.5417 212.2 30.06 1.4780 147.80输出散点图步骤通过散点图,考察是否存在线性关系,如果不是,看是否通过变量处理使得能够进行回归分析步骤:输入数据后,单击Graphs→Scatter→打开Scatter/Dot框→单击Simple Scatter→单击Define→打开Simple Scatterplot对话框→点选气压到Y Axis框→点选沸点到X Axis框内→OK→输出图形结论:沸点与气压两个变量之间的线性关系比较明显一元线性回归分析操作步骤单击Analyze→Regression→Linear→打开Linear Regression主对话框在弹出的LinearRegression对话框中,选择变量“气压”,添加到Dependent框中,表示因变量;选择变量“沸点”,添加到Independent框中,表示自变量单击OK,输出结果因变量自变量当有多组自变量和与其对应的多种不同的变量筛选方法时,可使用“Previous”和“Next”将其放置在不同的块(Block)中选择多元线性回归分析的自变量筛选方法Enter选项表示强行进入法,表示所选自变量全部进入回归模型对样本数据进行筛选作图时,以哪个变量作各样本数据点的标志变量存在异方差时,利用加权最小二乘法替代普通最小二乘法估计回归模型参数Linear Regression:Statistics对话框输出与回归系数相关统计量用来输出判定系数、调整的判定系数、回归方程的标准误差,F检验ANOVA方差分析表Linear Regression:Plots 对话框选择DEPENDENT使之添加到X或Y轴变量框,再选择其他变量使之添加到Y或X轴变量框标准化预测值标准化残差剔除残差修正后预测值学生化残差学生化剔除残差输出带有正态曲线的标准化残差的直方图残差的正态概率图检查残差的正态性输出每一个自变量残差相对于因变量残差的散布图一元线性回归分析输出结果输出被引入或从回归方程中被剔除的各变量,表示回归分析过程中变量进入、退出模型的基本情况结果说明在对编号为1的模型(Model 1)进行线性回归分析时所采用的方法是全部引入法:Enter主要是针对多元线性回归的情况,此处可以忽略Variables Entered/RemovedbModel Variables Entered Variables Removed Method1 沸点a . Entera. All requested variables entered.b. Dependent Variable: 气压(100×log)回归模型的拟合度Model SummaryModel R R Square Adjusted R Square Std. Error of the Estimate1 .997a .995 .995 .37889a. Predictors: (Constant), 沸点复相关系数(类似相关系数),越大越好判定系数,随着模型中自变量个数的增加,其值是不断增大的调整的复相关系数,一元线性回归时等于判定系数回归估计的标准误差标准的方差分析表ANOVAbModel Sum of Squares df Mean Square F Sig.1 Regression 425.609 1 425.609 2.965E3 .000aResidual 2.153 15 .144Total 427.763 16a. Predictors: (Constant), 沸点b. Dependent Variable: 气压(100×log)回归平方和残差平方和总平方和自由度说明该模型有显著的统计意义F统计量回归系数分析结果表CoefficientsaModel Unstandardized Coefficients Standardized Coefficients t Sig.B Std. Error Beta1 (Constant) -42.131 3.339 -12.618 .000沸点 .895 .016 .997 54.450 .000a. Dependent Variable: 气压(100×log)非标准化系数标准化系数常数项回归系数回归系数检验统计量t拟合结果:残差统计量在Linear Regression:Plots 对话框中选中“Histogram”和“Normal probability plot”复选框Residuals StatisticsaMinimum Maximum Mean Std. Deviation NPredicted Value 131.8575 147.8863 1.3961E2 5.15758 17Residual -.32261 1.35924 .00000 .36685 17Std. Predicted Value -1.502 1.605 .000 1.000 17Std. Residual -.851 3.587 .000 .968 17a. Dependent Variable: 气压(100×log)预测值残差标准预测值标准化残差最小值最大值均值标准差样本数(续)除了处理分析残差统计量外,还可直接做出标准化残差的直方图和正态P-P图来观察期是否服从正态分布由于残差具有正态分布的趋势,可以认为回归模型是恰当的8.3 多元线性回归在实际问题中,影响因变量的因素往往有多个商品的需求除了受自身价格的影响外,还要受到消费者收入、其他商品的价格、消费者偏好等因素的影响影响水果产量的外界因素有平均气温、平均日照时数、平均湿度等多元回归:两个及两个以上变量的回归问题多元线性回归:一个因变量同多个自变量的回归问题就是多元回归,因变量同各自变量之间为线性关系分析的原理同一元线性回归的原来基本相同,但计算上要复杂得多,因此需要借助计算机来完成8.3.1 多元线性回归模型多元线性回归模型:描述因变量y如何依赖于自变量 和误差项ε的方程公式:E( )=0,Var( )= 2多元线性总体回归方程:估计的多元线性回归方程(样本回归方程)8.3.2 参数的最小二乘估计多元线性回归模型中偏回归系数的估同样采用最小二乘法,通过使用因变量的观察值与估计值之间的残差平方和达到最小,来求得借助计算机得:多重判定系数与一元回归类似,对多元线性回归方程,则需用多重判定系数来评价其拟合程度为了避免增加自变量而高估 R2,统计学家提出用样本量n和自变量的个数k去修正 R2,计算出修正的多重判定系数公式:考虑了样本量(n)和模型中自变量的个数(k)的影响估计标准误差同一元线性回归一样,多元回归中的估计标准误差也是对误差项 的方程的一个估计值计算公式:Se所估计的是预测误差的标准差,其含义是根据自变量 来预测因变量y时的平均预测误差回归方程的显著性检验多元线性回归方程的显著性检验一般采用F检验统计量的构造是回归平方和(SSR)与残差平方和(SSE)之比回归方程的F检验 :F~F(k, n-k-1)F统计量的公式与R2的公式做一结合转换如果回归方程的拟合优度高,F统计量就越显著F统计量越显著,回归方程的拟合优度也越高检验步骤建立假设:H0:H1: 不全为0(i=1,2,…,k)计算检验统计量F的值根据确定的显著性水平 和分子自由度df1=k和分母 df2=n-k-1,查F分布表,得到相应的临界值F 作出决策。若 ,则拒绝H0,接受H1,说明两个变量之间的线性关系是显著的,总体回归方程的一次项是必须的。若 ,则不拒绝H0,没有证据表明两个变量之间的线性关系显著。回归系数的显著性检验不同于一元线性回归方程,多元回归方程的显著性检验不再等价于回归系数的显著性检验。如果F检验已经表明了回归模型总体上是显著的,那么回归系数的检验就是用来确定每一个单个的自变量xi对因变量y的影响是否显著通过检验,将那些影响不显著的自变量剔除,使方程中只保留那些对因变量影响显著的自变量检验步骤建立假设H0:H1: i≠0(i=1,2,…,k)计算检验的统计量:是回归系数的抽样分布的标准差根据确定的显著性水平 和自由度df=n-k-1,查t分布表,得到相应的临界值作出决策若 ,则拒绝H0,回归系数等于0的可能性小于α,表明自变量x对因变量y的影响是显著的,换言之,两个变量之间存在着显著的线性关系;若 ,则不拒绝H0,没有证据表明x对y的影响显著,或者说,二者之间尚不存在显著的现象关系8.3.5 多重共线性多重共线性:当回归模型中使用两个或两个以上的自变量时,这些自变量往往会提供多余的信息,且这些变量之间彼此相关检测方法计算模型中各对自变量之间的相关系数,并对各相关系数进行显著性检验如果有一个或多个相关系数是显著的,就表示模型中所使用的自变量之间相关,因而存在着多重共线性问题多重共线性产生的问题变量之间高度相关时,可能会使回归的结果造成混乱,甚至会把分析引入歧途多重共线性可能对参数估计值的正负号产生影响,特别是 1的正负号可能同预期的正负号相反多重共线性(续)下列情况暗示存在多重共线性模型中各对自变量之间显著相关当模型的线性关系现在(F检验) 显著时,几乎所有回归系数 i的t检验却不显著回归系数的正负号与预期的相反解决共线性的措施将一个或多个相关的自变量从模型中剔除,使保留的自变量尽可能不相关如果要在模型中保留所有的自变量,那就应该避免根据t统计量对单个参数β进行检验对因变量y值的推断(估计或预测)限定在自变量样本值的范围内检验共线性指标指标名称 检验标准容忍度(Tolerance) 若某自变量容忍度小于0.1,则存在共线性问题方差膨胀率(VIF) 容忍度的倒数,越大共线性问题越严重特征根(Eigenvalues) 若多个维度的特征根等于0,则可能存在共线性问题条件指数(Condition Index) 若某个维度的条件指数大于30,则可能存在共线性问题8.3.6 变量的筛选策略多元回归分析中,被解释变量会受众多因素的共同影响,需要由多个解释变量解释,出现问题:多个变量是否都能够进入线性回归模型解释变量应以怎样的策略和顺序进入方程方程中多个解释变量之间是否存在多重共线性,等等希望尽可能用最少的变量来建立模型究竟哪些自变量应该引入模型?哪些自变量不应该引入模型?——对自变量进行一定的筛选和控制解释变量的筛选三种基本策略向前筛选向后筛选逐步筛选筛选策略(续)向前筛选:解释变量不断进入回归方程的过程选择与被解释变量具有最高线性相关系数的变量进入方程,并进行回归方程的各种检验在剩余的变量中寻找与解释变量偏相关系数最高并通过检验的变量进入回归方程,并对新建立的回归方程进行各种检验一直重复这个过程,直到再也没有可进入方程的变量为止向后筛选:变量不断剔除出回归方程的过程所有变量全部引入回归方程,并对回归方程进行各种检验在回归系数显著性检验不显著的一个或多个变量中,剔除t检验值最小的变量,并重新建立回归方程和进行各种检验如果新建回归方程中所有变量的回归系数检验都显著,则回归方程建立结束/按照上述方法再依次剔除最不显著的变量,直到再也没有可剔除的变量为止逐步筛选:向前筛选和向后筛选策略的综合在向前筛选策略的基础上,结合向后筛选策略,在每个变量进入方程后再次判断是否存在可以剔除方程的变量在引入变量的每一个阶段都提供了再剔除不显著变量的机会常用的变量筛选策略8.3.7 哑变量的概念和应用自变量和因变量也可能是一种定性变量,其特定是具有固定的类型(或数值)性别包括男性和女性;态度包括喜欢和不喜欢;平方包括合格和不合格等哑变量/虚拟变量:对于变量包含两种类型,可以引入一个0/1变量来表示用0代表男性,用1代表女性当定性变量包含的类型多于两类,可以用多个哑变量来表示,哑变量的个数比分类数少1若考察季节变动的影响,可以引入3个虚拟变量S1 、S2 和S3,其中: S1=1代表春季, S1=0代表其他; S2=1代表夏季, S2=0代表其他; S3=1代表秋季,S3=0代表其他;显然当S1 =S2 =S3=0时代表冬季8.3.8 多元线性回归的SPSS操作例8.5调查雇员对其主管满意度,选择了6个调查项目作为可能的解释变量对每个问题的响应从“非常满意”到“非常不满意”分别给1至5分,再将其分为两类:{1,2}归为一类,认为是“肯定”,{3,4,5}归为另一类,认为“否定”变量 定义Y 对主管工作情况的总体评价X1 处理雇员的抱怨X2 不允许特权X3 学习新知识的机会X4 已经工作业绩升职X5 对不良表现吹毛求疵X6 提升到更好工作的速度主管人员业绩数据序号 Y X1 X2 X3 X4 X5 X61 43 51 30 39 61 92 452 63 64 51 54 63 73 473 71 70 68 69 76 86 484 61 63 45 47 54 84 355 81 78 56 66 71 83 476 43 55 49 44 54 49 347 58 67 42 56 66 68 358 71 75 50 55 70 66 419 72 82 72 67 71 83 3110 67 61 45 47 62 80 4111 64 53 53 58 58 67 3412 67 60 47 39 59 74 4113 69 62 57 42 55 63 2514 68 83 83 45 59 77 3515 77 77 54 72 79 77 4616 81 90 50 72 60 54 3617 74 85 64 69 79 79 6318 65 60 65 75 55 80 6019 65 70 46 57 75 85 4620 50 58 68 54 64 78 5221 50 40 33 34 43 64 3322 64 61 52 62 66 80 4123 53 66 52 50 63 80 3724 40 37 42 58 50 57 4925 63 54 42 48 66 75 3326 66 77 66 63 88 76 7227 78 75 58 74 80 78 4928 48 57 44 45 51 83 3829 85 85 71 71 77 74 5530 82 82 39 59 64 78 39SPSS操作步骤输入数据,定义变量Y、X1、X2、X3、X4、X5、X6Analyze→Regression→Linear命令,打开Linear Regression 对话框选择解释变量Y进入Dependent框将X1,X2和X5直接纳入模型X3和X4通过逐步法。而X6直接不予考虑选择被解释变量X1,X2和X5进入Independent(s)框在Method框中选择Enter(默认)表示所选变量强行进入回归方程单击Next选择被解释变量X3、X4进入Independent(s)框在Method框中选择Stepwise对所选变量进行逐步筛选策略在Linear Regression对话框中单击Statistics按钮选中Estimates 和Model fit 复选框选中Collinearity diagnostics复选框单击OK按钮Linear Regression: Statistics输出Model Summary表输出与回归系数相关的统计量(Coefficients表)进行多重共线性分析,输出个几十变量的容忍度、方差膨胀因子、特征值、条件指标、方差比例等构成的CollinearityDiagnostics表输出结果表Variables Entered/RemovedbModel Variables Entered Variables Removed Method1 X5, X2, X1a . Entera. All requested variables entered.b. Dependent Variable: YX1,X2和X5分为一组,采用强行进入法纳入模型而 X3和X4全部剔除模型拟合度的检验结果表Model SummaryModel R R Square Adjusted R Square Std. Error of the Estimate1 .706a .498 .440 9.31880a. Predictors: (Constant), X5, X2, X1复相关系数多重判定系数调整后的判定系数回归分析的结果表CoefficientsaModel Unstandardized Coefficients Standardized Coefficients t Sig. Collinearity StatisticsB Std. Error Beta Tolerance VIF1 (Constant) 21.825 14.854 1.469 .154X1 .692 .158 .740 4.378 .000 .677 1.477X2 -.062 .171 -.061 -.366 .717 .686 1.457X5 -.011 .178 -.009 -.062 .951 .962 1.039a. Dependent Variable: Y未标准化的回归系数标准化的回归系数T检验统计量共线性检验统计量拟合结果为Y=0.692X1-0.062X2-0.011X5+21.825Sig.取值可知,仅X1的系数是有统计学意义的,还需进行共线性检验,本模型中不存在共线性问题未进入模型的变量列表Excluded VariablesbModel Beta In t Sig. Partial Correlation Collinearity StatisticsTolerance VIF Minimum Tolerance1 X3 .144a .791 .436 .156 .590 1.695 .485X4 .020a .095 .925 .019 .481 2.078 .464a. Predictors in the Model: (Constant), X5, X2, X1b. Dependent Variable: Y这两个变量的Sig.取值均大于0.05,说明在模型中无需再对变量X3、X4进行分析共线性检验结果表Collinearity DiagnosticsaModel Dimension Eigenvalue Condition Index Variance Proportions(Constant) X1 X2 X51 1 3.939 1.000 .00 .00 .00 .002 .035 10.627 .06 .06 .43 .143 .018 14.782 .01 .92 .56 .024 .008 22.086 .93 .02 .01 .84a. Dependent Variable: Y特征根条件指数个特征根解释各解释变量的方差比特征根均不等于0,则不存在共线性问题,条件指数均小于30,本例中模型不存在共线性的问题。8.4 二维Logistic回归因变量为分类变量在现实中因变量的结果只取两种可能情况的应用很广泛考察公司中总裁级的领导层中是否有女性职员、某一天是否下雨、某病患者结局是否痊愈、调查对象是否为某商品的潜在消费者等某个人是否购买汽车,收到多种如家庭情况、收入情况等因素的影响,但最终的可能性只有两个,要么购买,要么不购买,把y=1定义为购买,y=0则表示不购买因变量与自变量之间通常不再存在线性关系以某事件发生的概率P为因变量,在线性模型的条件下,不保证因变量p的取值仍限制在0~1内.处理定性因变量的统计分析方法判别分析Probit分析对数线性模型logistic回归分析Binary Logistic回归分析Multinominal Logistic回归分析8.4.1 模型简介logit变换因变量是只取0、1两个值的二分类变量设p为某事件发生的概率p=P(y=1)为事件发生的概率是我们的研究对象logit变换:优势: p/(1-p),是“事件发生”比“事件没有发生”的优势Logistic线性回归模型:推导出:Logistic回归模型的参数估计Logistic回归模型进行参数估计时可以采用最大似然法或者迭代法.最大似然法:建立似然函数(或对数似然函数),求使得似然函数达到最大的参数估计值计算过程有N个案例构成总体Y1,Y2…YN从中抽取n个样本,y1,y2, y3,为观测值,建立样本似然函数为样本的对数似然函数为对lnL求一阶导数并令其为0,再用Newton-Raphson迭代方法求解方程组,即可得出参数的最大似然估计值及其标准误差8.4.2 Logistic回归模型的假设检验对数似然比检验似然比:L0/L1,其中,L0为没有引入任何解释变量的回归方程的似然函数,L1为引入的解释变量的似然函数构造似然比卡方统计量:服从自由度为k的卡方分布,k为引入模型的解释变量的个数SPSS会自动给出似然比卡方统计量及对应概率p值Hosmer和Lemeshow的拟合优度检验样本数据根据预测概率分为10组根据观测频数和期望频数构造卡方统计量根据自由度为8的卡方分布计算其p值并对Logistic模型进行检验如果p< ,表明模型的预测值与观测值存在显著差异如果p> ,表明在可接受水平上模型的估计拟合了数据Wald检验用于判断一个变量是否应该包含在模型中检验步骤:提出假设:H0: 1= 2 =…= k=0,H1: i≠0(i=1,2,…,k)构造Wald统计量:Wald统计量的大小(或Sig值),Wald统计量大者(或Sig值小者)显著性高,也就更重要Wald统计量近似服从于自由度等于参数个数的卡方分布作出决策模型拟合优度评价常用统计量:Cox-Shell R2统计量在似然值基础上模仿线性回归模型的 R2解释Logistic回归模型,一般小于1数学定义:L0为没有引入任何解释变量的回归方程的似然函数值,L1为引入了解释变量后的似然函数值,N为样本容量类似于一般线性模型中的R2统计量,统计量的值月大表明模型的拟合优度越高统计量的不足之处在于其取值范围无法确定,不利于与其他模型之间的比较Nagelkerke R2统计量数学定义:是Cox-Shell R2统计量的修正,使得其取值范围限定在0~1,其值越接近于1表明模型拟合优度越高,而越接近于0说明模型拟合优度越低8.4.3 二维Logistic回归的SPSS操作例8.6因变量y=1表示居民主要乘坐公共汽车上下班;y=0表示主要骑自行车上下班自变量x1表示被调查者的年龄;x2表示被调查者的月收入;x3表示被调查者的性别(x3=1为男性,x3=0为女性)序号 x1(年龄) x2(月收入:元) x3(性别) Y1 18 850 0 02 21 1200 0 03 23 850 0 14 23 950 0 15 28 1200 0 16 31 850 0 07 36 1500 0 18 42 1000 0 19 46 950 0 110 48 1200 0 011 55 1800 0 112 56 2100 0 113 58 1800 0 114 18 850 1 015 20 1000 1 016 25 1200 1 017 27 1300 1 018 28 1500 1 019 30 950 1 120 32 1000 1 021 33 1800 1 022 33 1000 1 023 38 1200 1 024 41 1500 1 025 45 1800 1 126 48 1000 1 027 52 1500 1 128 56 1800 1 1操作步骤输入数据,Analyze →Regression→Binary Logistic命令选择y变量使之添加到Dependent框中,选择x1变量、x2、x3,使它们分别进入Covariates框中,表示其为自变量单击Logistic Regression对话框中的Options按钮,选择所有选项,但保留各选项中的缺省值单击Continue按钮,返回上一个对话框,单击OK按钮输出结果Case Processing SummaryUnweighted Casesa N PercentSelected Cases Included in Analysis 28 100.0Missing Cases 0 .0Total 28 100.0Unselected Cases 0 .0Total 28 100.0a. If weight is in effect, see classification table for the total number of cases.Dependent Variable EncodingOriginal Value Internal Value0 01 1说明所有个案(28个)都被选入作为回归分析的个案初始的因变量值(0,1)已经转换为逻辑回归分析中常用的0、1数值Iteration Historya,b,cIteration -2 Log likelihood CoefficientsConstantStep 0 1 38.673 -.1432 38.673 -.143a. Constant is included in the model.b. Initial -2 Log Likelihood: 38.673c. Estimation terminated at iteration number 2 because parameter estimates changed by less than .001.Classification Tablea,bObserved PredictedY Percentage Correct0 1Step 0 Y 0 15 0 100.01 13 0 .0Overall Percentage 53.6a. Constant is included in the model.b. The cut value is .500说明Step0的拟合效果。可以看出对于y=0,有100%的准确性,对于y=1,有0%准确性,总共有53.6%的准确性列出迭代过程。其中常数项包括在模型中,初始-2LL为38.673。迭代结束于第二步,因为此时参数估计与其在上一步的变化已经小于0.001输出结果(续)Omnibus Tests of Model CoefficientsChi-square df Sig.Step 1 Step 12.703 3 .005Block 12.703 3 .005Model 12.703 3 .005列出了模型系数的Omnibus Tests结果Model SummaryStep -2 Log likelihood Cox & Snell R Square Nagelkerke R Square1 25.971a .365 .487a. Estimation terminated at iteration number 5 because parameter estimates changed by less than .001.给出了-2对数似然值、Cox和Shell的以及Nagelkerke的检验统计结果Hosmer and Lemeshow TestStep Chi-square df Sig.1 11.513 7 .118Contingency Table for Hosmer and Lemeshow TestY = .00 Y = 1.00 TotalObserved Expected Observed ExpectedStep 1 1 3 2.827 0 .173 32 2 2.664 1 .336 33 3 2.473 0 .527 34 3 2.047 0 .953 35 1 1.822 2 1.178 36 2 1.414 1 1.586 37 0 1.025 3 1.975 38 0 .556 3 2.444 39 1 .172 3 3.828 4给出了Hosmer和Lemeshow的拟合优度检验统计量Iteration Historya,b,c,dIteration -2 Log likelihood CoefficientsConstant x1 x2 x3Step 1 1 27.128 -2.140 .056 .001 -1.6042 26.051 -3.222 .075 .001 -2.2413 25.971 -3.616 .082 .001 -2.4774 25.971 -3.655 .082 .002 -2.5025 25.971 -3.655 .082 .002 -2.502a. Method: Enterb. Constant is included in the model.c. Initial -2 Log Likelihood: 38.673d. Estimation terminated at iteration number 5 because parameter estimates changed by less than .001.Classification TableaObserved PredictedY Percentage Correct0 1Step 1 Y 0 13 2 86.71 3 10 76.9Overall Percentage 82.1a. The cut value is .500迭代历史表格。这个表格中共列出了4个步骤的回归结果。每一步得到的系数都可以从该表格中得到说明第一次迭代结果的拟合效果,从该表格可以看出对于y=0,有86.7%的准确性;对于y=1,有76.9%准确性,因此对于所有个案总共有82.1%的准确性Variables in the EquationB S.E. Wald df Sig. Exp(B) 95.0% C.I.for EXP(B)Lower UpperStep 1a x1 .082 .052 2.486 1 .115 1.086 .980 1.202x2 .002 .002 .661 1 .416 1.002 .998 1.005x3 -2.502 1.158 4.669 1 .031 .082 .008 .792Constant -3.655 2.091 3.055 1 .081 .026a. Variable(s) entered on step 1: x1, x2, x3.列出了Step1中各个变量对应的系数,以及该变量对应的Wald统计量的值和它对应的相伴概率。从该表格中可以看出x3相伴概率最小,Wald统计量最大,可见该变量在模型中很重要Correlation MatrixConstant x1 x2 x3Step 1 Constant 1.000 -.372 -.644 .311x1 -.372 1.000 -.400 -.197x2 -.644 -.400 1.000 -.388x3 .311 -.197 -.388 1.000列出了常数Constant、系数之间的相关矩阵。常数与x2之间的相关性最大,x1和x3之间的相关性最小输出结果(续)表8-37 Casewise ListbCase Selected Statusa Observed Predicted Predicted Group Temporary VariableY Resid ZResid10 S 0** .892 1 -.892 -2.87119 S 1** .095 0 .905 3.081a. S = Selected, U = Unselected cases, and ** = Misclassified cases.b. Cases with studentized residuals greater than 2.000 are listed.列出了残差大于2的个案。本例中列出了两个符合条件的个案,分别是第10个案和第19个案。这两个个案都有两个**,表明这两个个案的逻辑回归结果是错误的 展开更多...... 收起↑ 资源预览