08 线性回归 课件(共79张PPT)-《管理统计学(第2版)》同步教学(电工版)

资源下载
  1. 二一教育资源

08 线性回归 课件(共79张PPT)-《管理统计学(第2版)》同步教学(电工版)

资源简介

(共79张PPT)
管理统计学
8 线性回归
8.1 回归分析概述
8.2 一元线性回归
8.3 多元线性回归
8.4 二维Logistic回归
8.1.1 回归分析的基本概念
回归分析过程:把一个变量作为自变量,另一个作为因变量,建立二者的数学表达式,从自变量估计因变量的取值
回归分析:通过提供变量之间的数学表达式来定量描述变量间相关关系的数学过程
数学表达式(经验公式)
利用概率统计知识验证公式的有效性
根据自变量的取值预测因变量的取值
如多因素作为自变量,找出对因变量影响显著的
应用广泛
生物统计;医学统计
数据挖掘(预测和控制二功能)
相关分析能够为回归分析提供自变量,相关分析是回归分析的前提和基础
8.1.2 回归分析步骤
定回归方程中的解释变量和被解释变量
解释变量(x);被解释变量(y)
有别于相关分析(如:父亲身高关于成年儿子身高的回归分析与成年儿子身高关于父亲身高的回归分析时完全不同的 )
确定回归模型:通过观察散点图确定应通过哪种数学模型来概括回归线
建立回归方程:在一定的统计拟合准则下估计出模型中的各个参数,得到一个确定的回归方程
对回归方程进行各种检验 :检验回归方程时否真实地反映了事物总体间的统计关系以及回归方程能否用于预测等
利用回归方程进行预测:根据回归方程对事物的未来发展趋势进行预测
8.2 一元线性回归
一元线性回归分析
研究某一现象与影响它的某一最主要因素的影响
排除其他影响因素或假定其他影响因素确定的条件下,分析某一个因素(自变量)是如何影响另一事物(因变量)的过程
比较理想化
举例
如影响粮食产量的因素非常多,但在众多因素中,施肥量是一个重要的因素,往往需要研究施肥量这一因素与粮食产量之间的关系
在消费问题的研究中,影响消费的因素很多,但我们可以只研究国民收入与消费额之间的关系,因为国民收入是影响消费的最主要因素
保险公司在研究火灾损失的规律时,把火灾发生地与最近的消防站的距离作为一个最主要因素,研究火灾损失与火灾发生地距最近消防站的距离之间的关系
对所研究的问题首先要收集与它有关的n组样本数据(xi,yi) ,i=1,2,…,n。为了直观地发现样本数据的分布规律,把(xi,yi)看成是平面直角坐标系中的点,画出这n个样本点的散点图
例8.1化肥施用量与粮食产量的关系
为准确地定出化肥施用量的单位变化如何影响粮食产量的平均单位变化,进而确定合理的化肥施用量
序号 粮食产量y 化肥施用量x
1 48526.69 4541.05
2 45110.87 3637.87
3 40753.79 2287.49
4 43824.58 3056.89
5 50890.11 4883.70
6 46370.88 3779.30
7 46577.91 4021.09
8 42947.44 2989.06
9 41637.21 3021.90
10 47244.34 3953.97
11 43061.53 3212.13
12 47336.78 3804.76
13 37127.89 1598.28
14 39515.07 1998.56
15 46598.04 3710.56
16 44020.92 3269.03
17 34866.91 1017.12
18 37184.14 1864.23
19 41864.77 2797.24
20 33717.78 1.34.09
例8.2 人均消费金额和人均国民收入
收集到1986~2005年20年的样本数据
年份 人均国民收入 人均消费金额
1986 963 497
1987 1112 565
1988 1366 788
1989 1519 788
1990 1644 833
1991 1893 932
1992 2311 1116
1993 2998 1393
1994 4044 1833
1995 5046 2355
1996 5846 2789
1997 6420 3002
1998 6796 3159
1999 7159 3346
2000 7858 3632
2001 8622 3869
2002 9398 4106
2003 10542 4411
2004 12336 4925
2005 14040 5439
人均消费金额和人均国民收入(续)
从例8.1和8.2的散点图看到样本数据点(xi,yi)大致都分别落在一条直线附近
说明变量x与y之间具有明显的线性关系
这些样本点有不都在一条直线上,表明变量x和y的关系并没有确切到给定x就可以唯一确定y的程度
对y产生影响的因素还有许多,如人家消费金额不仅受人均国民收入的影响,还与上年的消费水平、银行利率、商品价格指数等有关,这些对y的取值都有随机影响
把每个样本点与直线的偏差就可看做是其他随机因素的影响
8.2.1 一元线性回归模型
一元线性回归模型/简单线性回归模型
只有一个解释变量的线性回归模型
解释被解释变量与另一个解释变量之间的线性关系
建立模型
因变量(y):被预测或被解释的变量;自变量(x):预测或解释因变量的一个或多个变量
假定自变量是可控制的,而因变量是随机的
近似的线性函数关系:
反映了由于x的变化引起的y的线性变化
ε:误差项的随机变量
它反映了除x和y之间的线性关系之外的随机因素对y的影响,是不能由x和y之间的线性关系所解释的变异性
它是未包括在模型中而又影响y的全部变量的替代物
β0和β1:模型的参数
8.2.1 一元线性回归模型
德国数学家高斯最早提出的
高斯假定/标准假定
回归分析的假定条件(随机误差项ε是无法直接观测的 )
误差项的期望值为0
误差项的方差为常数
误差项之间相互独立,其协方差为零
Cov(xi,ε)=0,即xi和ε不存在相关关系
随机误差项服从正态分布。独立性意味着对于一个特定的x值,它所对应的y值与其他x所对应的y值也不相关.这表明,在x取某个确定值的情况下,y的变化由误差项ε的方差σ2来决定
8.2.2 参数的最小二乘估计
一元线性回归方程(y的期望值是x线性函数 ) :
总体回归参数β0和β1是未知的
回归分析的主要任务:利用样本数据区估计β0和β1
样本统计量 和 代替位置参数
估计的回归方程 :
对于第i个x值 :
用于描述其关系的直线有多条 ,利用最小二乘法选择最适合代表两个变量关系的
最小二乘估计(续)
“二乘”(平方):寻找一条直线,使得所有点到该直线的垂直距离的平方和最小
得到一条与数据拟合良好的直线
求得的回归直线可知β0和β1的估计量的抽样分布
同其他估计量相比,其抽样分布具有较小的标准差
最小二乘法使:
解得:
例8.3 修理时间与原件个数
考察修理(或服务)时间与计算机中需要修理或更换的元件个数的关系(修理时间为因变量,元件数为自变量)
行数 修理时间 元件个数
1 23 1
2 29 2
3 49 3
4 64 4
5 74 4
6 87 5
7 96 6
8 97 6
9 109 7
10 119 8
11 149 9
12 145 9
13 154 10
14 166 19
修理时间与原件个数(续)
由散点图,知修理时间和所修理或更换的元件个数之间具有一定的线性关系
得到:
修理时间对元件个数的估计方程:
回归系数 表示:元件个数每增加1个,修理时间平均增加15.509分钟
在回归分析中,对截距 常常不能赋予任何真实意义,通常不作实际意义上的解释
线性回归模型的最小二乘法估计的具体数值SPSS的Regression过程Linear子过程会计算给出
8.2.3 回归方程的检验
需要对样本回归方程进行各种检验(即使一些杂乱无章的散点也可以配出一条直线)
经济意义检验:检验参数估计值的符号和取值范围是否与其相对应的实质性科学理论以及世界经验的结论想一致
统计学检验:运用统计学中的抽样理论对样本回归方程的可靠性进行的检验
经济计量学检验:对回归模型中的随机误差项的假设条件是否能得到满足进行的检验
回归分析中的显著性检验包含两个方面
对整个方程线性关系的显著性检验——F检验法
对回归系数的显著性检验——t检验法
回归直线的拟合优度
回归直线 ,在一定程度上描述了变量x与y之间的数量关系,可根据自变量x的取值来估计或预测因变量y的取值,估计或预测的精度如何将取决于回归直线对观测数据的拟合程度
回归直线对数据的拟合优度:回归直线与各观测点的接近程度
回归方程的拟合优度检验:检验样本数据聚集在样本回归直线周围的密集程度,从而判断回归方程对样本数据的代表程度
判定系数
判定系数:度量估计的回归方程拟合优度
变差(y取值波动)来自:
自变量x的取值不同造成的
除了x以外的其他因素(如x对y的非线性影响、测量误差等)的影响
变差的大小可以用实际观测值与其均值之差来表示
总平方和(SST): n次观察值的总变差可由这些变差的平方和来表示
总变差可分解成: (解释离差和残差)
取平方得:总平方和(SST)= 回归平方和(SSR)+ 残差平方和(SSE)
判定系数(续)
回归直线拟合的好坏取决于SSR及SSE的大小/取决于回归平方和SSR占总平方和SST的比例SSR/SST的大小。各观测点越是靠近直线,SSR/SST则越大,直线拟合得越好
判定系数(R2):回归平方和占总平方和的比例
拟合优度检验:判定系数测度了回归直线对观测数据的拟合程度
若所有观测点都落在直线上,残差平方和SSE=0,R2=1,拟合是完全的
如果y的变化与x无关,x完全无助于解释y的变差,则R2=0
0≤R2≤1
在一元线性回归中,判定系数是相关系数的平方
相关系数r可以作为回归直线对样本观察值拟合程度的另一个测度值
相关系数r说明回归直线拟合程度要比用判定系数R2谨慎些
估计标准误差
估计标准误差(Se )
能表示出回归直线估计值与变量y的各实际观测值的绝对离差的数额
反映回归估计值 与样本实际观测值yi的平均差异程度的指标
是对误差项ε的标准差σ的估计
从另一角度说明回归直线拟合程度及代表性和变量间关系密切程度的指标
回归方程的显著性检验
检验自变量x和因变量y之间的线性关系是否显著
以方差分析为基础来验证总体X与Y是否存在真实的线性关系,为检验这两个变量之间的线性关系是否显著,则需要构造用于检验的一个统计量
统计量的构造是以回归平方和(SSR)以及残差平方和(SSE)为基础的
回归方程的F检验 :
检验步骤
建立假设:
H0:β1=0(总体回归方程线性关系不显著)
H1:β1≠0 (总体回归方程线性关系显著)
计算检验统计量F的值
根据确定的显著性水平和分子自由度df1=1和分母 df2=n-2,查F分布表,得到相应的临界值F α
作出决策。
若 ,则拒绝H0,接受H1,说明两个变量之间的线性关系是显著的,总体回归方程的一次项是必须的。
若 ,则不拒绝H0,没有证据表明两个变量之间的线性关系显著。
回归系数的显著性检验
根据样本估计的结果对总体回归系数的有关假设进行检验
回归方程的显著性检验只能检验所有回归系数是否同时与零有显著性差异,它不能保证回归方程中不包含不能较好解释说明因变量变化的自变量
理论基础是回归系数 的抽样分布,其性质:
数学期望:
标准差 :
估计的标准差————————
构造回归系数的统计量:
服从自由度为n-2 的t 分布
回归系数的显著性检验就是检验回归系数是否等于0
如果原假设成立,检验的统计量为
检验步骤
建立假设
H0:β1=0
H1:β1≠0
计算检验的统计量:
根据确定的显著性水平α和自由度df=n-2,查t分布表,得到相应的临界值
作出决策
若 ,则拒绝H0,回归系数等于0的可能性小于α,表明自变量x对因变量y的影响是显著的,换言之,两个变量之间存在着显著的线性关系;
若 ,则不拒绝H0,没有证据表明x对y的影响显著,或者说,二者之间尚不存在显著的现象关系
8.2.4 残差分析
用残差证实模型的假定
通过t检验或F检验表明变量x与y之间的线性关系是显著的,但不能保证数据拟合得很好,也不能排除由于意外原因而导致数据不完全可靠
在利用回归方程做分析和预测之前,应该用残差图帮助我们诊断回归效果以及样本数据的质量,检查模型是否满足基本假定
残差(e)
由回归方程计算所得的预测值与实际样本值之间的差距
反映了用估计的回归方程去预测yi而引起的误差
第i个观测值的残差 :
残差分析(续)
残差均值为零的正态性分析
当解释变量x取某个特定的值x0时,对应的残差必然有正有负,但总体上应服从以零为均值的正态分布。
可以通过绘制残差图对该问题进行分析。残差图也是一种散点图,如果残差的均值为零,残差图中的点应在纵坐标为零的横线上下随机散落。
对于残差的正态性分析可以通过绘制标准化(学生化)残差的累计概率图来分析。
残差的独立性分析
若对所有的x值,ε的方差都相同,而且假定描述变量x和y之间的关系模型是合理的,那么残差图中的所有点都应落在一条水平带中间。
但如果对所有的x值,ε的方差是不同的,例如,对于较大的x值,相应的残差也较大,这就意味着违背了ε方差相等的假设。
标准化残差
标准化残差/Pearson残差/半学生化残差(Ze)
残差除以它的标准差后得到的数值
检验ε的正态性假定
表示:
如果误差项ε服从正态分布这一假定成立,那么标准化残差的分布也应服从正态分布。因为在标准化残差图中,大约有95%的标准化残差在-2到+2之间
探测样本中的异常值和强影响点
异常值和强影响点:远离均值的样本数据点,它们对回归方程的参数估计有较大影响,应尽量找出它们并加以排除
探测被解释变量异常值:
标准化残差
学生化残差
剔除残差
探测解释变量异常值:
杠杆值
库克距离 ——————
标准化回归系数的变化和标准化预测值的变化
8.2.5 相关系数、判定系数和估计标准误差三者的关系
估计标准误差衡量实际值与回归线的接近程度。当标准误差很小时,表示两变量高度相关。
相关系数(r)衡量两变量之间相关的强弱程度。
估计标准误差和相关系数用的是不同的度量方法来表达相同的信息
相关系数的平方是判定系数。判定系数衡量变量y中有多大比例能用变量x来解释。
8.2.6 一元线性回归的SPSS操作
例8.4 研究气压和沸点之间的关系:气压及沸点是如何联系的?这种关系是强是弱?我们能否根据温度预测气压?如果能,有效性如何?
案例号 沸点
(℉) 气压
(英寸汞柱) Log
(气压) 100×log
(气压)
1 194.5 20.79 1.3179 131.79
2 194.3 20.79 1.3179 131.79
3 197.9 22.40 1.3502 135.02
4 198.4 22.67 1.3555 135.55
5 199.4 23.15 1.3646 136.46
6 199..9 23.35 1.3683 136.83
7 200.9 23.89 1.3782 137.82
8 201.1 23.99 1.3800 138.00
9 201.3 24.02 1.3806 138.06
10 201.3 24.01 1.3805 138.05
11 203.6 25.14 1.4004 140.04
12 204.3 26.57 1.4244 142.44
13 209.5 28.49 1.4547 145.47
14 208.6 27.76 1.4434 144.34
15 210.7 29.04 1.4630 146.30
16 211.9 29.88 1.4754 147.54
17 212.2 30.06 1.4780 147.80
输出散点图步骤
通过散点图,考察是否存在线性关系,如果不是,看是否通过变量处理使得能够进行回归分析
步骤:输入数据后,单击Graphs→Scatter→打开Scatter/Dot框→单击Simple Scatter→单击Define→打开Simple Scatterplot对话框→点选气压到Y Axis框→点选沸点到X Axis框内→OK→输出图形
结论:沸点与气压两个变量之间的线性关系比较明显
一元线性回归分析操作步骤
单击Analyze→Regression→Linear→打开Linear Regression主对话框
在弹出的LinearRegression对话框中,选择变量“气压”,添加到Dependent框中,表示因变量;选择变量“沸点”,添加到Independent框中,表示自变量
单击OK,输出结果
因变量
自变量
当有多组自变量和与其对
应的多种不同的变量筛选
方法时,可使用“Previous”
和“Next”将其放置在
不同的块(Block)中
选择多元线性回归分
析的自变量筛选方法
Enter选项表示强行进
入法,表示所选自变
量全部进入回归模型
对样本数据进行筛选
作图时,以哪个变量作各
样本数据点的标志变量
存在异方差时,利
用加权最小二乘法
替代普通最小二乘
法估计回归模型参数
Linear Regression:Statistics对话框
输出与回归系
数相关统计量
用来输出判定系数、
调整的判定系数、
回归方程的标准误差,
F检验ANOVA方差分析表
Linear Regression:Plots 对话框
选择DEPENDENT
使之添加到X或Y轴
变量框,再选择
其他变量使之添加
到Y或X轴变量框
标准化预测值
标准化残差
剔除残差
修正后预测值
学生化残差
学生化剔除残差
输出带有正态曲线的
标准化残差的直方图
残差的正态概率图
检查残差的正态性
输出每一个自变量
残差相对于因变量
残差的散布图
一元线性回归分析输出结果
输出被引入或从回归方程中被剔除的各变量,表示回归分析过程中变量进入、退出模型的基本情况
结果说明在对编号为1的模型(Model 1)进行线性回归分析时所采用的方法是全部引入法:Enter
主要是针对多元线性回归的情况,此处可以忽略
Variables Entered/Removedb
Model Variables Entered Variables Removed Method
1 沸点a . Enter
a. All requested variables entered.
b. Dependent Variable: 气压(100×log)
回归模型的拟合度
Model Summary
Model R R Square Adjusted R Square Std. Error of the Estimate
1 .997a .995 .995 .37889
a. Predictors: (Constant), 沸点
复相关系数(类似相关
系数),越大越好
判定系数,随着模型中
自变量个数的增加,
其值是不断增大的
调整的复相关系数,一元
线性回归时等于判定系数
回归估计的标准误差
标准的方差分析表
ANOVAb
Model Sum of Squares df Mean Square F Sig.
1 Regression 425.609 1 425.609 2.965E3 .000a
Residual 2.153 15 .144
Total 427.763 16
a. Predictors: (Constant), 沸点
b. Dependent Variable: 气压(100×log)
回归平方和
残差平方和
总平方和
自由度
说明该模型有显著的统计意义
F统计量
回归系数分析结果表
Coefficientsa
Model Unstandardized Coefficients Standardized Coefficients t Sig.
B Std. Error Beta
1 (Constant) -42.131 3.339 -12.618 .000
沸点 .895 .016 .997 54.450 .000
a. Dependent Variable: 气压(100×log)
非标准化系数
标准化系数
常数项
回归系数
回归系数检验统计量t
拟合结果:
残差统计量
在Linear Regression:Plots 对话框中选中“Histogram”和“Normal probability plot”复选框
Residuals Statisticsa
Minimum Maximum Mean Std. Deviation N
Predicted Value 131.8575 147.8863 1.3961E2 5.15758 17
Residual -.32261 1.35924 .00000 .36685 17
Std. Predicted Value -1.502 1.605 .000 1.000 17
Std. Residual -.851 3.587 .000 .968 17
a. Dependent Variable: 气压(100×log)
预测值
残差
标准预测值
标准化残差
最小值
最大值
均值
标准差
样本数
(续)
除了处理分析残差统计量外,还可直接做出标准化残差的直方图和正态P-P图来观察期是否服从正态分布
由于残差具有正态分布的趋势,可以认为回归模型是恰当的
8.3 多元线性回归
在实际问题中,影响因变量的因素往往有多个
商品的需求除了受自身价格的影响外,还要受到消费者收入、其他商品的价格、消费者偏好等因素的影响
影响水果产量的外界因素有平均气温、平均日照时数、平均湿度等
多元回归:两个及两个以上变量的回归问题
多元线性回归:一个因变量同多个自变量的回归问题就是多元回归,因变量同各自变量之间为线性关系
分析的原理同一元线性回归的原来基本相同,但计算上要复杂得多,因此需要借助计算机来完成
8.3.1 多元线性回归模型
多元线性回归模型:描述因变量y如何依赖于自变量 和误差项ε的方程
公式:
E( )=0,Var( )= 2
多元线性总体回归方程:
估计的多元线性回归方程(样本回归方程)
8.3.2 参数的最小二乘估计
多元线性回归模型中偏回归系数的估同样采用最小二乘法,通过使用因变量的观察值与估计值之间的残差平方和达到最小,来求得
借助计算机得:
多重判定系数
与一元回归类似,对多元线性回归方程,则需用多重判定系数来评价其拟合程度
为了避免增加自变量而高估 R2,统计学家提出用样本量n和自变量的个数k去修正 R2,计算出修正的多重判定系数
公式:
考虑了样本量(n)和模型中自变量的个数(k)的影响
估计标准误差
同一元线性回归一样,多元回归中的估计标准误差也是对误差项 的方程的一个估计值
计算公式:
Se所估计的是预测误差的标准差,其含义是根据自变量 来预测因变量y时的平均预测误差
回归方程的显著性检验
多元线性回归方程的显著性检验一般采用F检验
统计量的构造是回归平方和(SSR)与残差平方和(SSE)之比
回归方程的F检验 :
F~F(k, n-k-1)
F统计量的公式与R2的公式做一结合转换
如果回归方程的拟合优度高,F统计量就越显著
F统计量越显著,回归方程的拟合优度也越高
检验步骤
建立假设:
H0:
H1: 不全为0(i=1,2,…,k)
计算检验统计量F的值
根据确定的显著性水平 和分子自由度df1=k和分母 df2=n-k-1,查F分布表,得到相应的临界值F
作出决策。
若 ,则拒绝H0,接受H1,说明两个变量之间的线性关系是显著的,总体回归方程的一次项是必须的。
若 ,则不拒绝H0,没有证据表明两个变量之间的线性关系显著。
回归系数的显著性检验
不同于一元线性回归方程,多元回归方程的显著性检验不再等价于回归系数的显著性检验。
如果F检验已经表明了回归模型总体上是显著的,那么回归系数的检验就是用来确定每一个单个的自变量xi对因变量y的影响是否显著
通过检验,将那些影响不显著的自变量剔除,使方程中只保留那些对因变量影响显著的自变量
检验步骤
建立假设
H0:
H1: i≠0(i=1,2,…,k)
计算检验的统计量:
是回归系数的抽样分布的标准差
根据确定的显著性水平 和自由度df=n-k-1,查t分布表,得到相应的临界值
作出决策
若 ,则拒绝H0,回归系数等于0的可能性小于α,表明自变量x对因变量y的影响是显著的,换言之,两个变量之间存在着显著的线性关系;
若 ,则不拒绝H0,没有证据表明x对y的影响显著,或者说,二者之间尚不存在显著的现象关系
8.3.5 多重共线性
多重共线性:当回归模型中使用两个或两个以上的自变量时,这些自变量往往会提供多余的信息,且这些变量之间彼此相关
检测方法
计算模型中各对自变量之间的相关系数,并对各相关系数进行显著性检验
如果有一个或多个相关系数是显著的,就表示模型中所使用的自变量之间相关,因而存在着多重共线性问题
多重共线性产生的问题
变量之间高度相关时,可能会使回归的结果造成混乱,甚至会把分析引入歧途
多重共线性可能对参数估计值的正负号产生影响,特别是 1的正负号可能同预期的正负号相反
多重共线性(续)
下列情况暗示存在多重共线性
模型中各对自变量之间显著相关
当模型的线性关系现在(F检验) 显著时,几乎所有回归系数 i的t检验却不显著
回归系数的正负号与预期的相反
解决共线性的措施
将一个或多个相关的自变量从模型中剔除,使保留的自变量尽可能不相关
如果要在模型中保留所有的自变量,那就应该
避免根据t统计量对单个参数β进行检验
对因变量y值的推断(估计或预测)限定在自变量样本值的范围内
检验共线性指标
指标名称 检验标准
容忍度(Tolerance) 若某自变量容忍度小于0.1,则存在共线性问题
方差膨胀率(VIF) 容忍度的倒数,越大共线性问题越严重
特征根(Eigenvalues) 若多个维度的特征根等于0,则可能存在共线性问题
条件指数(Condition Index) 若某个维度的条件指数大于30,则可能存在共线性问题
8.3.6 变量的筛选策略
多元回归分析中,被解释变量会受众多因素的共同影响,需要由多个解释变量解释,出现问题:
多个变量是否都能够进入线性回归模型
解释变量应以怎样的策略和顺序进入方程
方程中多个解释变量之间是否存在多重共线性,等等
希望尽可能用最少的变量来建立模型
究竟哪些自变量应该引入模型?哪些自变量不应该引入模型?——对自变量进行一定的筛选和控制
解释变量的筛选三种基本策略
向前筛选
向后筛选
逐步筛选
筛选策略(续)
向前筛选:解释变量不断进入回归方程的过程
选择与被解释变量具有最高线性相关系数的变量进入方程,并进行回归方程的各种检验
在剩余的变量中寻找与解释变量偏相关系数最高并通过检验的变量进入回归方程,并对新建立的回归方程进行各种检验
一直重复这个过程,直到再也没有可进入方程的变量为止
向后筛选:变量不断剔除出回归方程的过程
所有变量全部引入回归方程,并对回归方程进行各种检验
在回归系数显著性检验不显著的一个或多个变量中,剔除t检验值最小的变量,并重新建立回归方程和进行各种检验
如果新建回归方程中所有变量的回归系数检验都显著,则回归方程建立结束/按照上述方法再依次剔除最不显著的变量,直到再也没有可剔除的变量为止
逐步筛选:向前筛选和向后筛选策略的综合
在向前筛选策略的基础上,结合向后筛选策略,在每个变量进入方程后再次判断是否存在可以剔除方程的变量
在引入变量的每一个阶段都提供了再剔除不显著变量的机会
常用的变量筛选策略
8.3.7 哑变量的概念和应用
自变量和因变量也可能是一种定性变量,其特定是具有固定的类型(或数值)
性别包括男性和女性;态度包括喜欢和不喜欢;平方包括合格和不合格等
哑变量/虚拟变量:对于变量包含两种类型,可以引入一个0/1变量来表示
用0代表男性,用1代表女性
当定性变量包含的类型多于两类,可以用多个哑变量来表示,哑变量的个数比分类数少1
若考察季节变动的影响,可以引入3个虚拟变量S1 、S2 和S3,其中: S1=1代表春季, S1=0代表其他; S2=1代表夏季, S2=0代表其他; S3=1代表秋季,S3=0代表其他;显然当S1 =S2 =S3=0时代表冬季
8.3.8 多元线性回归的SPSS操作
例8.5调查雇员对其主管满意度,选择了6个调查项目作为可能的解释变量
对每个问题的响应从“非常满意”到“非常不满意”分别给1至5分,再将其分为两类:{1,2}归为一类,认为是“肯定”,{3,4,5}归为另一类,认为“否定”
变量 定义
Y 对主管工作情况的总体评价
X1 处理雇员的抱怨
X2 不允许特权
X3 学习新知识的机会
X4 已经工作业绩升职
X5 对不良表现吹毛求疵
X6 提升到更好工作的速度
主管人员业绩数据
序号 Y X1 X2 X3 X4 X5 X6
1 43 51 30 39 61 92 45
2 63 64 51 54 63 73 47
3 71 70 68 69 76 86 48
4 61 63 45 47 54 84 35
5 81 78 56 66 71 83 47
6 43 55 49 44 54 49 34
7 58 67 42 56 66 68 35
8 71 75 50 55 70 66 41
9 72 82 72 67 71 83 31
10 67 61 45 47 62 80 41
11 64 53 53 58 58 67 34
12 67 60 47 39 59 74 41
13 69 62 57 42 55 63 25
14 68 83 83 45 59 77 35
15 77 77 54 72 79 77 46
16 81 90 50 72 60 54 36
17 74 85 64 69 79 79 63
18 65 60 65 75 55 80 60
19 65 70 46 57 75 85 46
20 50 58 68 54 64 78 52
21 50 40 33 34 43 64 33
22 64 61 52 62 66 80 41
23 53 66 52 50 63 80 37
24 40 37 42 58 50 57 49
25 63 54 42 48 66 75 33
26 66 77 66 63 88 76 72
27 78 75 58 74 80 78 49
28 48 57 44 45 51 83 38
29 85 85 71 71 77 74 55
30 82 82 39 59 64 78 39
SPSS操作步骤
输入数据,定义变量Y、X1、X2、X3、X4、X5、X6
Analyze→Regression→Linear命令,打开Linear Regression 对话框
选择解释变量Y进入Dependent框
将X1,X2和X5直接纳入模型
X3和X4通过逐步法。而X6直接不予考虑
选择被解释变量X1,X2和X5进入Independent(s)框
在Method框中选择Enter(默认)表示所选变量强行进入回归方程
单击Next
选择被解释变量X3、X4进入Independent(s)框
在Method框中选择Stepwise对所选变量进行逐步筛选策略
在Linear Regression对话框中单击Statistics按钮
选中Estimates 和Model fit 复选框
选中Collinearity diagnostics复选框
单击OK按钮
Linear Regression: Statistics
输出Model Summary表
输出与回归系数相关的
统计量(Coefficients表)
进行多重共线性分析,
输出个几十变量的容忍度、
方差膨胀因子、特征值、
条件指标、方差比例等
构成的Collinearity
Diagnostics表
输出结果表
Variables Entered/Removedb
Model Variables Entered Variables Removed Method
1 X5, X2, X1a . Enter
a. All requested variables entered.
b. Dependent Variable: Y
X1,X2和X5分为一组,
采用强行进入法纳入模型
而 X3和X4全部剔除
模型拟合度的检验结果表
Model Summary
Model R R Square Adjusted R Square Std. Error of the Estimate
1 .706a .498 .440 9.31880
a. Predictors: (Constant), X5, X2, X1
复相关系数
多重判定系数
调整后的判定系数
回归分析的结果表
Coefficientsa
Model Unstandardized Coefficients Standardized Coefficients t Sig. Collinearity Statistics
B Std. Error Beta Tolerance VIF
1 (Constant) 21.825 14.854 1.469 .154
X1 .692 .158 .740 4.378 .000 .677 1.477
X2 -.062 .171 -.061 -.366 .717 .686 1.457
X5 -.011 .178 -.009 -.062 .951 .962 1.039
a. Dependent Variable: Y
未标准化的回归系数
标准化的回归系数
T检验统计量
共线性检验统计量
拟合结果为Y=0.692X1-0.062X2-0.011X5+21.825
Sig.取值可知,仅X1的系数是有统计学意义的,
还需进行共线性检验,本模型中不存在共线性问题
未进入模型的变量列表
Excluded Variablesb
Model Beta In t Sig. Partial Correlation Collinearity Statistics
Tolerance VIF Minimum Tolerance
1 X3 .144a .791 .436 .156 .590 1.695 .485
X4 .020a .095 .925 .019 .481 2.078 .464
a. Predictors in the Model: (Constant), X5, X2, X1
b. Dependent Variable: Y
这两个变量的Sig.取值均大于0.05,
说明在模型中无需
再对变量X3、X4进行分析
共线性检验结果表
Collinearity Diagnosticsa
Model Dimension Eigenvalue Condition Index Variance Proportions
(Constant) X1 X2 X5
1 1 3.939 1.000 .00 .00 .00 .00
2 .035 10.627 .06 .06 .43 .14
3 .018 14.782 .01 .92 .56 .02
4 .008 22.086 .93 .02 .01 .84
a. Dependent Variable: Y
特征根
条件指数
个特征根解释
各解释变量的方差比
特征根均不等于0,则不存在共线性问题,条件指数均小于30,本例中模型不存在共线性的问题。
8.4 二维Logistic回归
因变量为分类变量
在现实中因变量的结果只取两种可能情况的应用很广泛
考察公司中总裁级的领导层中是否有女性职员、某一天是否下雨、某病患者结局是否痊愈、调查对象是否为某商品的潜在消费者等
某个人是否购买汽车,收到多种如家庭情况、收入情况等因素的影响,但最终的可能性只有两个,要么购买,要么不购买,把y=1定义为购买,y=0则表示不购买
因变量与自变量之间通常不再存在线性关系
以某事件发生的概率P为因变量,在线性模型的条件下,不保证因变量p的取值仍限制在0~1内.
处理定性因变量的统计分析方法
判别分析
Probit分析
对数线性模型
logistic回归分析
Binary Logistic回归分析
Multinominal Logistic回归分析
8.4.1 模型简介
logit变换
因变量是只取0、1两个值的二分类变量
设p为某事件发生的概率
p=P(y=1)为事件发生的概率是我们的研究对象
logit变换:
优势: p/(1-p),是“事件发生”比“事件没有发生”的优势
Logistic线性回归模型:
推导出:
Logistic回归模型的参数估计
Logistic回归模型进行参数估计时可以采用最大似然法或者迭代法.
最大似然法:
建立似然函数(或对数似然函数),
求使得似然函数达到最大的参数估计值
计算过程
有N个案例构成总体Y1,Y2…YN
从中抽取n个样本,y1,y2, y3,为观测值,建立样本似然函数为
样本的对数似然函数为
对lnL求一阶导数并令其为0,再用Newton-Raphson迭代方法求解方程组,即可得出参数的最大似然估计值及其标准误差
8.4.2 Logistic回归模型的假设检验
对数似然比检验
似然比:L0/L1,其中,L0为没有引入任何解释变量的回归方程的似然函数,L1为引入的解释变量的似然函数
构造似然比卡方统计量:
服从自由度为k的卡方分布,k为引入模型的解释变量的个数
SPSS会自动给出似然比卡方统计量及对应概率p值
Hosmer和Lemeshow的拟合优度检验
样本数据根据预测概率分为10组
根据观测频数和期望频数构造卡方统计量
根据自由度为8的卡方分布计算其p值并对Logistic模型进行检验
如果p< ,表明模型的预测值与观测值存在显著差异
如果p> ,表明在可接受水平上模型的估计拟合了数据
Wald检验
用于判断一个变量是否应该包含在模型中
检验步骤:
提出假设:H0: 1= 2 =…= k=0,H1: i≠0(i=1,2,…,k)
构造Wald统计量:
Wald统计量的大小(或Sig值),Wald统计量大者(或Sig值小者)显著性高,也就更重要
Wald统计量近似服从于自由度等于参数个数的卡方分布
作出决策
模型拟合优度评价
常用统计量:
Cox-Shell R2统计量
在似然值基础上模仿线性回归模型的 R2解释Logistic回归模型,一般小于1
数学定义:
L0为没有引入任何解释变量的回归方程的似然函数值,L1为引入了解释变量后的似然函数值,N为样本容量
类似于一般线性模型中的R2统计量,统计量的值月大表明模型的拟合优度越高
统计量的不足之处在于其取值范围无法确定,不利于与其他模型之间的比较
Nagelkerke R2统计量
数学定义:
是Cox-Shell R2统计量的修正,使得其取值范围限定在0~1,其值越接近于1表明模型拟合优度越高,而越接近于0说明模型拟合优度越低
8.4.3 二维Logistic回归的SPSS操作
例8.6
因变量y=1表示居民主要乘坐公共汽车上下班;y=0表示主要骑自行车上下班
自变量x1表示被调查者的年龄;x2表示被调查者的月收入;x3表示被调查者的性别(x3=1为男性,x3=0为女性)
序号 x1(年龄) x2(月收入:元) x3(性别) Y
1 18 850 0 0
2 21 1200 0 0
3 23 850 0 1
4 23 950 0 1
5 28 1200 0 1
6 31 850 0 0
7 36 1500 0 1
8 42 1000 0 1
9 46 950 0 1
10 48 1200 0 0
11 55 1800 0 1
12 56 2100 0 1
13 58 1800 0 1
14 18 850 1 0
15 20 1000 1 0
16 25 1200 1 0
17 27 1300 1 0
18 28 1500 1 0
19 30 950 1 1
20 32 1000 1 0
21 33 1800 1 0
22 33 1000 1 0
23 38 1200 1 0
24 41 1500 1 0
25 45 1800 1 1
26 48 1000 1 0
27 52 1500 1 1
28 56 1800 1 1
操作步骤
输入数据,Analyze →Regression→Binary Logistic命令
选择y变量使之添加到Dependent框中,选择x1变量、x2、x3,使它们分别进入Covariates框中,表示其为自变量
单击Logistic Regression对话框中的Options按钮,选择所有选项,但保留各选项中的缺省值
单击Continue按钮,返回上一个对话框,单击OK按钮
输出结果
Case Processing Summary
Unweighted Casesa N Percent
Selected Cases Included in Analysis 28 100.0
Missing Cases 0 .0
Total 28 100.0
Unselected Cases 0 .0
Total 28 100.0
a. If weight is in effect, see classification table for the total number of cases.
Dependent Variable Encoding
Original Value Internal Value
0 0
1 1
说明所有个案(28个)
都被选入作为回归
分析的个案
初始的因变量值(0,1)
已经转换为逻辑回归分析中
常用的0、1数值
Iteration Historya,b,c
Iteration -2 Log likelihood Coefficients
Constant
Step 0 1 38.673 -.143
2 38.673 -.143
a. Constant is included in the model.
b. Initial -2 Log Likelihood: 38.673
c. Estimation terminated at iteration number 2 because parameter estimates changed by less than .001.
Classification Tablea,b
Observed Predicted
Y Percentage Correct
0 1
Step 0 Y 0 15 0 100.0
1 13 0 .0
Overall Percentage 53.6
a. Constant is included in the model.
b. The cut value is .500
说明Step0的拟合效果。
可以看出对于y=0,
有100%的准确性,
对于y=1,有0%准确性,
总共有53.6%的准确性
列出迭代过程。
其中常数项包括在模型中,
初始-2LL为38.673。
迭代结束于第二步,
因为此时参数估计与其在
上一步的变化已经小于0.001
输出结果(续)
Omnibus Tests of Model Coefficients
Chi-square df Sig.
Step 1 Step 12.703 3 .005
Block 12.703 3 .005
Model 12.703 3 .005
列出了模型系数的
Omnibus Tests结果
Model Summary
Step -2 Log likelihood Cox & Snell R Square Nagelkerke R Square
1 25.971a .365 .487
a. Estimation terminated at iteration number 5 because parameter estimates changed by less than .001.
给出了-2对数似然值、
Cox和Shell的
以及Nagelkerke的检验统计结果
Hosmer and Lemeshow Test
Step Chi-square df Sig.
1 11.513 7 .118
Contingency Table for Hosmer and Lemeshow Test
Y = .00 Y = 1.00 Total
Observed Expected Observed Expected
Step 1 1 3 2.827 0 .173 3
2 2 2.664 1 .336 3
3 3 2.473 0 .527 3
4 3 2.047 0 .953 3
5 1 1.822 2 1.178 3
6 2 1.414 1 1.586 3
7 0 1.025 3 1.975 3
8 0 .556 3 2.444 3
9 1 .172 3 3.828 4
给出了Hosmer和
Lemeshow的拟合
优度检验统计量
Iteration Historya,b,c,d
Iteration -2 Log likelihood Coefficients
Constant x1 x2 x3
Step 1 1 27.128 -2.140 .056 .001 -1.604
2 26.051 -3.222 .075 .001 -2.241
3 25.971 -3.616 .082 .001 -2.477
4 25.971 -3.655 .082 .002 -2.502
5 25.971 -3.655 .082 .002 -2.502
a. Method: Enter
b. Constant is included in the model.
c. Initial -2 Log Likelihood: 38.673
d. Estimation terminated at iteration number 5 because parameter estimates changed by less than .001.
Classification Tablea
Observed Predicted
Y Percentage Correct
0 1
Step 1 Y 0 13 2 86.7
1 3 10 76.9
Overall Percentage 82.1
a. The cut value is .500
迭代历史表格。这个
表格中共列出了4个
步骤的回归结果。每
一步得到的系数都可
以从该表格中得到
说明第一次迭代结果的
拟合效果,从该表格可
以看出对于y=0,有
86.7%的准确性;对于
y=1,有76.9%准确性,
因此对于所有个案总共有
82.1%的准确性
Variables in the Equation
B S.E. Wald df Sig. Exp(B) 95.0% C.I.for EXP(B)
Lower Upper
Step 1a x1 .082 .052 2.486 1 .115 1.086 .980 1.202
x2 .002 .002 .661 1 .416 1.002 .998 1.005
x3 -2.502 1.158 4.669 1 .031 .082 .008 .792
Constant -3.655 2.091 3.055 1 .081 .026
a. Variable(s) entered on step 1: x1, x2, x3.
列出了Step1中各个变量对应
的系数,以及该变量对应的
Wald统计量的值和它对应的
相伴概率。从该表格中可以
看出x3相伴概率最小,Wald
统计量最大,可见该变量
在模型中很重要
Correlation Matrix
Constant x1 x2 x3
Step 1 Constant 1.000 -.372 -.644 .311
x1 -.372 1.000 -.400 -.197
x2 -.644 -.400 1.000 -.388
x3 .311 -.197 -.388 1.000
列出了常数Constant、
系数之间的相关矩阵。
常数与x2之间的相关性最大,
x1和x3之间的相关性最小
输出结果(续)
表8-37 Casewise Listb
Case Selected Statusa Observed Predicted Predicted Group Temporary Variable
Y Resid ZResid
10 S 0** .892 1 -.892 -2.871
19 S 1** .095 0 .905 3.081
a. S = Selected, U = Unselected cases, and ** = Misclassified cases.
b. Cases with studentized residuals greater than 2.000 are listed.
列出了残差大于2的个
案。本例中列出了两
个符合条件的个案,
分别是第10个案和第
19个案。这两个个
案都有两个**,表
明这两个个案的逻辑
回归结果是错误的

展开更多......

收起↑

资源预览