11 第十一章 回归分析 课件(共73张PPT)-《管理统计学》同步教学(华南理工版)

资源下载
  1. 二一教育资源

11 第十一章 回归分析 课件(共73张PPT)-《管理统计学》同步教学(华南理工版)

资源简介

(共73张PPT)
管 理 统 计 学
[第四版]
第十一章 回归分析
1
案例导入
2
英国著名遗传学家弗朗西斯.高尔顿爵士(Sir Francis Galton,1822-1911)在子女与父母相像程度的遗传学研究方面,取得了重要进展。高尔顿和学生卡尔.皮尔逊(Karl Pearson,1857-1936)在继续这一遗传学研究的过程中,他们观测了928对夫妇,以每对夫妇的平均身高作为自变量x,而取他们的一个成年儿子的身高作为因变量y。他们发现:虽然高个子的父代会有高个子的子代,但子代的身高并不与其父代身高趋同,而是趋向于比他们的父代更加平均,就是说如果父亲身材高大而大大高于平均值,则子代的身材要比父代矮小一些;如果父亲身材矮小而大大低于平均值,则子代的身材要比父代高大一些。换言之,子代的身高有向平均值靠拢的趋向,因此,他用回归一词来描述子代身高与父代身高的这种关系。
学习目标
3
本章要掌握回归方程的估计方法,回归参数的检验方法和回归预测方法。重点掌握最小平估计方法和线性回归方程的估计和评价。
第十一章 回归分析
§11.1 回归分析方法
§11.2 一元线性回归
§11.3 多元线性回归
4
§11.1 回归分析方法
相关关系
5
散点图 感光速率随保存时间的延长而下降
感光率变动Y
-25
◎◎ ◎
◎ ◎ ◎
◎◎ ◎ ◎
◎◎ ◎ ◎
◎ ◎◎
0 保存月数X
感光率变动Y
-25
◎◎ ◎
◎ ◎ ◎
◎◎ ◎ ◎
◎◎ ◎ ◎
◎ ◎◎
0 保存月数X
6
相关关系的表现
居民收入与消费的关系
散点图

◎ ◎
◎◎◎
◎◎
相关关系的表现
消费
收入
7
相关的类型
正相关
负相关
无相关
相关的类型
正相关
负相关
无相关
8
协方差
对于变量X和Y来说,协方差是指这两个变量各点的离差之积的平均数,记为σXY,则有
σXY = ∑(X - X)(Y - Y)/ N
= 5509525 / 12 = 459127.1
可以从图中来认识。
当σXY >0时,为正相关(散点多在第一、三象限);
当σXY <0时,为负相关(散点多在第二、四象限);
当σXY= 0 时,为完全无相关(散点均匀分布在各象限);
当σXY = 最大值时,为完全相关(散点形成一条直线)。
9
相关系数——能够反映变量之间密切程度
相关系数,记为r
可决系数越大,两种变量之间的密切程度越高。
从数量关系看,可决系数的取值范围为-1≤r≤1。
一般地说,相关系数大于0.8或等于1就为高度相关;超过0.5为显著相关;在0.3为低度相关,为0是无相关。从本例中可知相关系数为0.97,表明家庭人均生活费收入水平的提高会引起人均食品支出的增加,两者之间的依存关系非常稳定。
相关系数——能够反映变量之间密切程度
相关系数,记为r
可决系数越大,两种变量之间的密切程度越高。
从数量关系看,可决系数的取值范围为-1≤r≤1。
一般地说,相关系数大于0.8或等于1就为高度相关;超过0.5为显著相关;在0.3为低度相关,为0是无相关。从本例中可知相关系数为0.97,表明家庭人均生活费收入水平的提高会引起人均食品支出的增加,两者之间的依存关系非常稳定。
10
居民家庭的人均食品支出(X)与家庭人均生活费收入(Y)相关计表
序号 Y X (Y-Y)2 (X-X)2 (X-X)(Y-Y)
1 820 750 -1145.8 -652.5 1312934.0 425756.3 747656.2
2 930 850 -1035.8 -552.5 1072950.6 305256.3 572297.9
3 1050 920 -915.8 -482.5 838750.6 232806.3 441889.6
4 1300 1050 -665.8 -352.5 443334.0 124256.3 234706.2
5 1440 1200 -525.8 -202.5 276500.7 41006.3 106481.2
6 1500 1200 -465.8 -202.5 217000.7 41006.3 94331.2
7 1700 1400 -265.8 -2.5 70667.3 6.3 664.6
8 1900 1500 -65.8 97.5 4334.0 9506.3 -6418.7
9 2500 1760 534.2 357.5 285334.1 127806.3 190964.6
10 2900 2000 934.2 597.5 872667.4 357006.3 558164.6
11 3550 2000 1584.2 597.5 2509584.1 357006.3 946539.6
12 4000 2200 2034.2 797.5 4137834.2 636006.3 1622247.9
合计 23590 16830 0 0 12041891.7 2657425.0 5509525.0
平均值 1965.8 1402.5 - - 1003491.0 221452.1 459127.1
11
相关关系与协方差
(1)一个变量的变化会依存另一个变量的变化而变化,就称这两种关系为相关关系。
(2)如果人均收入与人均食品支出存在相关关系,则有协方差不等于0。
(3)协方差是指这两个变量各点的离差之积的平均数,记为σXY,则有
σXY = ∑(X - X)(Y - Y)/ N
= 5509525 / 12 = 459127.1
(4)相关系数与协方差的区别与联系。
协方差的大小会受到计量单位和数据均值水平的影响,从而使不同相关总体之间相关程度缺乏可比性。为了使不同相关总体之间的相关程度具有广泛的可比性,需要计算相关系数。
相关系数是指协方差与两个标准差之比,记为r,则有
r =σXY / (σXσY )
= 459127.1 /471407.7= 0.974
12
人均收入与人均食品支出的关系
r =σXY / (σXσY )
= 459127.1 / 471407.7 = 0.974 = 97.4%
r = √ R2
= √0.9486 2
= 0.974
13
相关分析 vs 回归分析
14
§11.2 一元线性回归
一、回归模型
二、最小二乘估计
三、判定系数
四、显著性检验
五、利用估计回归函数进行估计和预测
15
一、回归模型
据了解在大学附近的餐馆的季收入与学生人数有关。
总人数x:2、 3、 6、 6、 8(百人)
季收入y:1、 2、 5、 6、 9(万元)
问:当人数为10百人时,估计餐馆季收入将达到多少?
16
设所求方程为
y季度销售收入

◎ ◎ ◎
◎ ◎
◎ ◎
◎ ◎
x学校人数
= a + b x
17
注意:实际值与估计值之间的离差越小越好
较好
◎◎◎
◎◎◎ 较差
◎◎◎
◎◎◎◎ ∑(y- )2 = 最小值

实际值平均偏离估计值最小是最优估计线。
18
一元线性回归模型
yi=β0+β1xi+εi
其中,
yi:第i次试验的因变量观测值,是随机变量;
xi:第i次试验的自变量取值,是已知常数;
β0和β1:参数;
εi:随机误差项,通常假定E(εi)=0,V(εi)=σ2,且 ε1,ε2, ,εn两两互不相关;
i=1,2, ,n。
19
模型具有的特点
(1)第i次试验中y的观测值是由两部分叠加而成的:一是常数项β0+β1xi,表明y随x的变化是一种线性趋势;另一是随机误差项εi,表明对这种线性趋势的随机偏离。
(2) E(yi)=β0+β1xi
我们称
E(y)=β0+β1x
为模型(6.1.1)的(线性)回归函数,参数β0和β1称为回归系数。β1是回归线的斜率,表示x每增加一个单位时y的期望(或平均)增量,β0是回归线在y轴上的截距。
(3)y1,y2, ,yn具有相同的方差σ2,且互不相关,这是因为
V(yi)=V(β0+β1xi+εi)=V(εi)=σ2,i=1,2, ,n
Cov(yi,yj)=Cov(β0+β1xi+εi,β0+β1xj+εj)=Cov(εi,εj)=0,1≤i≠j≤n
20
图6.1.2 回归模型的假定
21
二、最小二乘估计
1.最小二乘估计的概念
2.最小二乘估计的性质
22
1.最小二乘估计的概念
最小二乘法(method of least squares)的基本想法是寻找这样的β0和β1,使得所有观测值yi总体上尽可能少
地偏离其(预计的)期望值β0+β1xi,而
可用来描述n个观测值对其期望值的总偏离量。因此,可将满足
的b0和b1作为β0和β1的估计,并称其为最小二乘估计(可用LSE表示)。
1.最小二乘估计的概念
最小二乘法(method of least squares)的基本想法是寻找这样的β0和β1,使得所有观测值yi总体上尽可能少
地偏离其(预计的)期望值β0+β1xi,而
可用来描述n个观测值对其期望值的总偏离量。因此,可将满足
的b0和b1作为β0和β1的估计,并称其为最小二乘估计(可用LSE表示)。
23
β0和β1的最小二乘估计为
其中
回归函数E(y)=β0+β1x估计为
称之为估计回归函数。
称 为第i个观测值的拟合值。易见,拟合值 是期望值E(yi)的一个估计。
24
2.最小二乘估计的性质
(1)b0和b1分别是β0和β1的无偏估计,即有
E(b0)=β0,E(b1)=β1
(2)b0和b1的方差为
注 b0和b1的方差不仅取决于误差项方差σ2的大小,而且还取决于样本容量n和观测数据中自变量x的分散程度。除了σ2的因素外,观测数据越多,x的观测值越分散,估计量b1和b0的方差就越小,即其估计值就越稳定;反之,观测数据越少,越是在一个较小的自变量范围内取得的,b1和b0的方差就越大,从而估计回归线也就越不稳定。
25
三、判定系数
1.残差
2.平方和分解
3.判定系数和相关系数
26
1.残差
把观测值yi与相应拟合值 之差称为第i个残差(residual),用ei表示。即有
所有n个残差之和为
残差平方和定义为
SSE除以自由度n 2称为残差均方,记为MSE,即
MSE是σ2的无偏估计。相应地,σ可估计为 。
27
2.平方和分解
当不考虑x时,预测y的不确定性(或者说,y的变差),可用观测值yi(i=1,2, ,n)与其平均值 的离差平方和来度量,称之为总平方和,记为SST,即
它具有自由度n 1。SST可作如下的平方和分解:
SST=SSR+SSE
其中
称为回归平方和, 它的自由度为1。SSR除以自由度称为回归均方,记为MSR,即
28
3.判定系数和相关系数
当使用自变量x进行回归时,预测y的不确定性程度将从SST降低到SSE,其减小的比例为
称r2为判定系数(coefficient of determination)。由于0≤SSE≤SST,故
0≤r2≤1
可以把r2解释为使用自变量x时y的总变差减少的比例(或总变差中可由x解释的比例)。r2越大,引进自变量x后所减少的y变差就越多,在散点图中估计回归线拟合散点的效果也就越佳。
29
对r2开平方根
并要求r的正负号与估计回归线的斜率b1的符号相同,由于

由(3.2.9)式知,r是x与y的样本相关系数。
30
四、显著性检验
我们需要检验假设
H0:β1=0,H1:β1≠0
在本节下面的讨论中,为了能够进行假设检验以及求有关置信区间、预测区间,我们将模型(6.1.1)中的有关误差项条件加强为:ε1,ε2, ,εn独立同分布于N(0,σ2)。从而,y1,y2, ,yn亦相互独立,且有
yi~N(β0+β1xi,σ2)
1.t检验
2.F检验
31
1.t检验
构造检验统计量
当H0为真时,t~t(n 2)。对给定的α,拒绝规则为:
若|t|≥tα/2(n 2),则拒绝H0
β1的1 α置信区间为
1.t检验
构造检验统计量
当H0为真时,t~t(n 2)。对给定的α,拒绝规则为:
若|t|≥tα/2(n 2),则拒绝H0
β1的1 α置信区间为
32
2.F检验
使用检验统计量
当H0为真时,F~F(1,n 2)。对给定的α,拒绝规则为:
若F≥Fα(1,n 2),则拒绝H0
来 源 平方和 自由度 均方 F
回归 SSR 1
残差 SSE n 2
总 计 SST n 1
33
SSR与残差平方和SSE可用更简便的公式计算。
34
F检验和前面的t检验是彼此等价的。
F检验和前面的t检验是彼此等价的。
来 源 平方和 自由度 均方 F
回归 14010659.1 1 14010659.1 102.92
残差 1905820.33 14 136130.023
总 计 15916479.4 15
表6.1.3 方差分析表
35
五、利用估计回归函数进行估计和预测
新观测值y0被看作是新的独立试验的结果,满足
y0=β0+β1x0+ε0
其中ε0~N(0,σ2)。
可作为E(y0)的点估计(是无偏的)和y0的点预测。
1.新观测值y0均值的置信区间
2.新观测值y0的预测区间
36
1.新观测值y0均值的置信区间
E(y0)的置信度为1 α的置信区间为
其中
对x水平上不同的x0值,由上式得到的置信区间的大小一般是不同的。x0离均值 越远,即 越大, 也越大,因而就有越大的置信区间;反之,x0离 越近,就有越小的置信区间。当 时, ,置信区间达到最小。将x0取各个值的E(y0)的置信上限和置信下限都连起来,其形状如图6.1.4中的两根实线所示。
37
图6.1.4 E(y0)的置信区间和y0的预测区间
38
2.新观测值y0的预测区间
称随机区间
为新观测值y0的置信度是1 α的预测区间。
x0离 越远,预测区间越大;当 时, ,预测区间达到最小。对各x0值将y0的预测上、下限都连起来,其形状如图6.1.4中的两根虚线所示。可见,y0的预测区间远比E(y0)的置信区间宽。
39
例题 居民家庭的人均支出和人均收入的关系
表中的Y和X分别是12个居民家庭的人均月食品支出和人均月收入水平的样本数数据。
假定在商品价格不变的条件下,建立实际的食品支出与实际的收入水平之间的回归关系,并验证恩格尔定律。
编号
人均收入X
人均食品
支出Y
1
82
75
2
93
85
3
105
92
4
130
105
5
144
120
6
150
120
7
160
130
8
180
145
9
200
156
10
270
200
11
300
200
12
400
220
40
解法如下:
解:(1)设所求回归方程为
=b0+b1x
(2)根据最小平方法的要求,得出求参数a和b的标准方程式如下:
∑y=n b0+b1∑x
∑xy=b0∑x+b1 x2
41
编号
人均收入
X
人均食品支出
Y
XY
X2
Y2
1
82
75
6150
6724
5625
2
93
85
7905
8649
7225
3
105
92
9660
11025
8464
4
130
105
13650
16900
11025
5
144
120
17280
20736
14400
6
150
120
18000
22500
14400
7
160
130
20800
25600
16900
8
180
145
26100
32400
21025
9
200
156
31200
40000
24336
10
270
200
54000
72900
40000
11
300
200
60000
90000
40000
12
400
220
88000
160000
48400
合计
2214
1648
352745
507434
251800
42
求a和 b
将表的合计数代入上式,可得:
(3)得到样本回归方程为:
43
式中回归系数 b=0.4921表示人均月收入每增加1元,人均月食品支出会增加0.4921元;
截距a= 46.55表示即使在人均月收入为0的情况下,人均月食品支出也需要46.55元。
根据该式计算的食品支出在总收入中平均所占的比重为:
/ Xt = 46.55 / Xt +0.4921 。
式中的 / Xt即所谓的恩格尔系数。显而易见,恩格尔系数会随着Xt的增加而递减,它与恩格尔定律的结论是一致的。
统计分析的要点
44
§11.3 多元线性回归
一、多元线性回归模型
二、最小二乘估计
三、复判定系数
四、显著性检验
五、利用估计回归函数进行估计和预测
45
一、多元线性回归模型
p元线性回归模型:
yi=β0+β1xi1+β2xi2+ +βpxip+εi
其中,
yi:第i次试验的因变量观测值,是随机变量;
xi1,xi2, ,xip:第i次试验的p个自变量的值,是已知常数;
β0,β1,β2, ,βp:参数;
εi:随机误差项,通常假定E(εi)=0,V(εi)=σ2,且ε1,ε2, ,εn两两互不相关;
i=1,2, ,n。
46
在(6.2.1)式两边取数学期望得
E(yi)=β0+β1xi1+β2xi2+ +βpxip

E(y)=β0+β1x1+β2x2+ +βpxp
为模型(6.2.1)的(线性)回归函数,参数β1,β2, ,βp称为偏回归系数。
当模型只包含两个自变量时,回归函数为
E(y)=β0+β1x1+β2x2
它是三维空间上的一个平面,称为回归平面,见图6.2.1。
β1表示当x2保持不变时x1每增加一个单位因变量y的期望(或平均)增量;类似地,β2表示当x1保持不变时x2每增加一个单位y的期望增量;β0是回归平面在y轴上的截距。
当x1与x2的相关程度较高时,很难对回归系数β1和β2的意义作出解释。
47
图6.2.1 含有两个自变量的回归函数图形
48
用矩阵表示线性回归模型

49
则有
y=Xβ+ε
其中,
y:因变量观测值向量;
X:常数矩阵,一般要求X是列满秩的;
β:参数向量;
ε:随机误差项向量,E(ε)=0,V(ε)=σ2I。
在上述模型中,y的数学期望和协方差矩阵分别为
E(y)=E(Xβ+ε)=Xβ+E(ε)=Xβ

V(y)=V(Xβ+ε)=V(ε)=σ2I
50
二、最小二乘估计
根据最小二乘法原理,β=(β0,β1, ,βp)′的最小二乘估计b=(b0,b1, ,bp)′应满足要求
β的最小二乘估计为
b=(X′X) 1X′y
b的数学期望为
E(b)=(X′X) 1X′E(y)=(X′X) 1X′Xβ=β
51
即b是β的无偏估计;b的协方差矩阵为
V(b)=(X′X) 1X′V(y)X(X′X) 1
=(X′X) 1X′(σ2I)X(X′X) 1=σ2(X′X) 1
我们称
为估计回归函数,称
为第i个残差。可见,(6.2.8)式为残差平方和。
52
三、复判定系数
总平方和: 自由度为n 1
回归平方和: 自由度为p
残差平方和: 自由度为n p 1
回归均方:
残差均方: 是σ2的无偏估计
53
使用自变量x1,x2, ,xp之后,y变差从SST减少到SSE,减少的量为SSR,相应减少的比例为
称之为复判定系数(multiple coefficient of determination)。
复判定系数可理解为y的总变差中可由x1,x2, ,xp解释的比例,R2越大,表明回归函数的拟合效果越好。
记R为R2的正平方根,则R正是y与x1,x2, ,xp的样本复相关系数,它度量了y与x1,x2, ,xp之间线性关系的强弱。
模型中自变量个数p=1时,复判定系数R2就简化为(6.1.24)式的判定系数r2。与r2的取值范围一样,有
0≤R2≤1
54
四、显著性检验
本节的余下部分,将在模型(6.2.1)的基础上进一步假定:ε1,ε2, ,εn独立同分布于N(0,σ2),即ε~Nn(0,σ2I)。于是
y~Nn(Xβ,σ2I)
b~Np+1(β,σ2(X′X) 1)
1.F检验
2.t检验
55
1.F检验
为了检验因变量y与一组自变量x1,x2, ,xp之间的线性关系,需要检验假设
H0:β1=β2= =βp=0
H1:至少有一个βi不等于零(i=1,2, ,p)
使用检验统计量
当H0为真时,F~F(p,n p 1)。对于给定的显著性水平α,拒绝规则为:
若F≥Fα(p,n p 1),则拒绝H0
56
来 源 平方和 自由度 均方 F
回归 SSR p
残差 SSE n p 1
总 计 SST n 1
57
2.t检验
如果上述F检验显示回归函数是显著的,则还检验假设
H0:βj=0,H1:βj≠0
使用检验统计量
其中 是 的估计,而cjj是
(X′X) 1对角线上的第j个元素。当H0为真时,t~t(n p 1)。对于给定的显著性水平α,拒绝规则为:
若|t|≥tα/2(n p 1),则拒绝H0
偏回归系数βj的1 α置信区间为
bj±tα/2(n p 1)s(bj)
58
输出6.2.2 方差分析表
输出6.2.3 参数估计值表
输出6.2.4 回归系数的0.95置信区间表
59
五、利用估计回归函数进行估计和预测
在模型(6.2.1)下,进行一次独立的试验。p个自变量取值为x01,x02, ,x0p,得到的因变量值为y0,满足
y0=β0+β1x01+ +βpx0p+ε0
其中ε0~N(0,σ2)。
1.新观测值y0均值的置信区间
2.新观测值y0的预测区间
60
1.新观测值y0均值的置信区间
记x0=(1,x01, ,x0p)′,于是新观测值y0的数学期望为
可将其估计为
这是一个无偏估计。该估计的方差为
用MSE估计σ2,得 的无偏估计
E(y0)的1 α置信区间为
61
2.新观测值y0的预测区间
可作为新观测值y0的点预测,且
用MSE估计σ2,得 的无偏估计
y0的1 α预测区间为
62
例题 我们收集了全国7个农业实验站的小麦产量、施肥量和降雨量的数据,为预测小麦产量提供依据,见下表
小麦产量(公斤/亩) Y 施肥量(公斤/亩) X1 降雨量(厘米)
X2
500 40 25
600 50 50
600 60 25
800 70 75
750 80 50
750 90 50
900 100 75
建立多元回归模型方法如下:
(1)设所求多元回归模型表现为二元回归方程:
(2)运用最小平方法求参数b0、b1、b2。
根据最小平方法的要求,可得到求参数b0、b1、b2的标准方程组为:
63
编号 小麦产量 (公斤/亩) Y 施肥量 (公斤/亩) X1 降雨量 (厘米) X2 X12 X22 X1X2 X1Y X2Y
Y X1 X2 X12 X22 X1X2 X1Y X2Y
1 500 40 25 1600 625 1000 20000 12500
2 600 50 50 2500 2500 2500 30000 30000
3 600 60 25 3600 625 1500 36000 15000
4 800 70 75 4900 5625 5250 56000 60000
5 750 80 50 6400 2500 4000 60000 37500
6 750 90 50 8100 2500 4500 67500 37500
7 900 100 75 10000 5625 7500 90000 67500
合计 4900 490 350 37100 20000 26250 359500 260000
4900 = 7b0+490b1+350b2
359500 = 490b0+37100b1+26250b2
260000 = 350b0+26250b1+20000b2
解联立方程组,可得到b0、b1、b2,即
b0 = 266.67,b1 =3.81,b2 =3.33
64
65
显著性检验
显著性检验的内容主要包括对回归系数进行t检验和对回归模型整体进行F检验。
首先从t检验开始。
对总体的偏回归系数b1、 b2作如下假设:
H0:b1=0;H1:b1≠0;H0:b2=0;H1:b2≠0。
66
67
68
69
多元回归模型的预测
70
本章小结
71
回归分析是对现象之间相关关系及数量变动关系的测定方法。两种现象之间的回归关系可以用线性回归模型来测定。用最小平方法估计的总体回归系数估计值是一个随机变量,必须对其估计量进行检验后才能获得较好的预测效果。多元回归分析是一元回归分析的扩展形式。
谢 谢 观 看!

展开更多......

收起↑

资源预览