8.2.2一元线性回归模型参数的最小二乘估计（2课时，共28+24张PPT）

资源简介

(共28张PPT)
8.2.2一元线性回归模型参数的最小二乘估计1
1.变量的相关关系：当自变量取值一定,因变量的取值带有一定的随机性（非确定性关系)
2.散点图
3.变量相关关系的分类
(1)正相关和负相关
(2)线性相关和非线性相关
复习引入
为了研究两个变量之间的相关关系，我们建立了一元线性回归模型
达式刻画的是变量Y与变量x之间的线性相关关系，
其中参数a和b未知，我们能否通过样本数据估计参数a和b
参数a和b刻画了变量Y与变量x的线性关系，因此通过样本数据估计这两个参数，相当于寻找一条适当的直线，使表示成对样本数据的这些散点在整体上与这条直线最接近.
与函数模型不同，回归模型的参数一般是无法精确求出的，只能通过成对样本数据估计这两个参数。
学习新知
追问：我们怎样寻找一条“最好”的直线，使得表示成对样本数据的这些散点在整体上与这条直线最“接近”？
目标：从成对样本数据出发，用数学的方法刻画“从整体上看，各散点与直线最接近”
方法：利用点到直线y=bx+a的“距离”来刻画散点与该直线的接近程度，然后用所有“距离”之和刻画所有样本观测数据与该直线的接近程度.
由yi=bxi+a+ei（i=1,2,…,n)，得|yi-(bxi+a)|=|ei|.
显然|ei|越小，表示点(xi,yi)与点(xi,bxi+a)的“距
离”越小，即样本数据点离直线y=bx+a的竖直
距离越小。特别地,当ei=0时,表示点(xi,yi)在这
条直线上.
我们设满足一元线性回归模型的两个变量的n对样本数据为(x1,y1),(x2,y2),…,(xn,yn)
因此，可以用来刻画各样本观测数据与直线y=bx+a的整体接近程度。
在实际应用中,因为绝对值使得计算不方便,所以人们通常用各散点到直线的竖直距离的平方之和
来刻画“整体接近程度”。
学习新知
残差平方和：
求a，b的值,使Q(a,b)最小
在上式中,xi,yi(i=1,2,3,…,n)是已知的成对样本数据,所以Q由a和b所决定,即它是a和b的函数,因为Q还可以表示为即它是随机误差的平方和,这个和当然越小越好,所以我们取使Q达到最小的a和b的值,作为截距和斜率的估计值。下面利用成对样本数据求使Q取最小值的a,b.
学习新知
上式是关于b的二次函数，因此要使Q取得最小值，当且仅当b的取值为
我们将称为Y关于x的经验回归方程，也称经验回归函数或经验回归公式，其图形称为经验回归直线，这种求经验回归方程的方法叫最小二乘法．
注意：
1、经验回归必过 .2、都是估计值. 3 、与r 符号相同.
利用下表的数据，依据用最小二乘估计一元线性回归模型参数的公式，求出儿子身高Y关于父亲身高x的经验回归方程。
通过信息技术，计算求得
问1：当x=176时， ,如果一位父亲身高为176cm,他儿子长大后身高一定能长到177cm吗？为什么？
儿子的身高不一定会是177cm，这是因为还有其他影响儿子身高的因素，回归模型中的随机误差清楚地表达了这种影响，父亲的身高不能完全决定儿子的身高，不过，我们可以作出推测，当父亲的身高为176cm时，儿子身高一般在177cm左右.
如果把父亲身高为176cm的所有儿子身高作为一个子总体，那么177cm是这个子总体均值的估计值.一般地，
因为E(Y)=bx+a，是bx+a的估计值，所以是E(Y)的估计值.
父亲身高/cm 174 170 173 169 182 172 180 172 168 166 182 173 164 180
儿子身高/cm 176 176 170 170 185 176 178 174 170 168 178 172 165 182
学习新知
问2：根据经验回归方程中斜率的具体含义，高个子的父亲一定生高个子的儿子吗？同样，矮个子的父亲一定生矮个子的儿子吗？
经验回归方程=0.839x+28.957中，斜率0.839可以解释为父亲身高每增加1cm，其儿子的身高平均增加0.839cm.
问3：根据模型，父亲身高为多少时，长大成人的儿子的平均身高与父亲身高一样？
你怎么看这个判断？
通过经验回归方程=0.839x+28.957，令=x，则x=179.733，即当父亲身
高为179.733cm时，儿子的平均身高与父亲的身高一样.
高个子父亲有生高个子儿子的趋势,但一群高个子父亲的儿子们的平均身高要低于父亲们的平均身高,例如x=185(cm),则=184.172(cm);矮个子父亲有生矮个子儿子的趋势,但一群矮个子父亲的儿子们的平均身高要高于父亲们的平均身高,例如x=170(cm),则=171.587(cm).
学习新知
我们称yi为响应变量Y的观测值，通过经验回归方程得到的为预测值.为了研究回归模型的有效性，定义残差为=yi-，残差是随机误差的估计值，通过对残差的分析可判断回归模型刻画数据的效果，以及判断原始数据中是否存在可疑数据等，这方面的工作称为残差分析.
例如,对于右表中的第6个观测,父亲身高为172cm,其儿子身高的观测值为y6=176(cm),
预测值为6=0.839×172+28.957=
173.265(cm),
残差为
176-173.265=2.735(cm).类似地,可以得到其他的残差,如右表所示.
儿子身高与父亲身高的关系，运用残差分析所得的一元线性回归模型的有效性吗？
残差图：作图时纵坐标为残差,横坐标可以选为样本编号，或身高数据，或体重估计值等，这样作出的图形称为残差图．
观察表可以看到,残差有正有负,残差的绝对值最大是4.413.
观察残差的散点图可以发现,残差比较均匀地分布在横轴的两边,说明残差比较符合一元线性回归模型的假定,是均值为0、方差为σ2的随机变量的观测值.可见,通过观察残差图可以直观判新模型是否满足一元线性回归模型的假设.
一般地,建立经验回归方程后,通常需要对模型刻画数据的效果进行分析,借助残差分析还可以对模型进行改进,使我们能根据改进模型作出更符合实际的预测与决策。
学习新知
(1)
(2)
(3)
(4)
思考：观察以下四幅残差图，你认为哪一个残差满足一元线性回归模型中对随机误差的假定？
图（1）显示残差与观测时间有线性关系，应将时间变量纳入模型；
图（2）显示残差与观测时间有非线性关系，应在模型中加入时间的非线性函数部分；
图（3）说明残差的方差不是一个常数，随观测时间变大而变大；
图（4）的残差比较均匀地集中在以横轴为对称轴的水平带状区域内.
根据一元线性回归模型中对随机误差的假定，残差应是均值为0、方差为的随机变量的观测值.
所以，只有图(4）满足一元线性回归模型对随机误差的假设。
练习：关于残差图的描述错误的是(　　)
A.残差图的横坐标可以是样本编号
B.残差图的横坐标也可以是解释变量或响应变量
C.残差点分布的带状区域的宽度越窄相关指数越小
D.残差点分布的带状区域的宽度越窄残差平方和越小
C
对于一组具有线性相关关系的数据
我们知道其回归方程的截距和斜率的最小二乘估计公式分别为：
称为样本点的中心.
学习新知
2、求回归直线方程的步骤：
（3）代入公式
（4）写出直线方程为y=bx+a,即为所求的回归直线方程.
^
学习新知
某大学中随机选取8名女大学生，其身高和体重数据如下表所示.
编号 1 2 3 4 5 6 7 8
身高/cm 165 165 157 170 175 165 155 170
体重/kg 48 57 50 54 64 61 43 59
求根据女大学生的身高预报体重的回归方程，并预报一名身高为172cm的女大学生的体重.
典型例题
解：由
得：
故所求线性回归方程为：
因此，对于身高172cm的女大学生，由线性回归方程可以预报其体重为：
是斜率的估计值，说明身高x每增加1个单位时，体重y就增加0.849个单位，这表明体重与身高具有正的线性相关关系.
典型例题
尝试练习
C
尝试练习
A
练习：观察两相关量得如下数据:
x -1 -2 -3 -4 -5 5 3 4 2 1
y -9 -7 -5 -3 -1 1 5 3 7 9
求两变量间的回归方程.
解：列表：
i 1 2 3 4 5 6 7 8 9 10
xi -1 -2 -3 -4 -5 5 3 4 2 1
yi -9 -7 -5 -3 -1 1 5 3 7 9
xiyi 9 14 15 12 5 5 15 12 14 9
所求回归直线方程为
尝试练习
B
课堂小结
我们将称为Y关于x的经验回归方程
1.回归方程：
3.残差分析
2、求回归直线方程的步骤：(共24张PPT)
8.2.2一元线性回归模型参数的最小二乘估计2
我们知道其经验回归方程的截距和斜率的最小二乘估计公式分别为：
称为样本点的中心.
我们称yi为响应变量Y的观测值，通过经验回归方程得到的为预测值.
定义残差为=yi-，残差是随机误差的估计值，通过对残差的分析可判断回归模型刻画数据的效果，以及判断原始数据中是否存在可疑数据等，这方面的工作称为残差分析.
残差图：作图时纵坐标为残差,横坐标可以选为样本编号，解释变量或响应变量，这样作出的图形称为残差图．
复习引入
对于一组具有线性相关关系的数据
（3）代入公式
（4）写出直线方程为y=bx+a,即为所求的回归直线方程.
^
复习引入
求经验回归直线方程的步骤：
例1.经验表明,对于同一树种,一般树的胸径(树的主干在地面以上1.3m处的直径)越大,树就越高.由于测量树高比测量胸径困难，因此研究人员希望由胸径预测树高.在研究树高与胸径之间的关系时,某林场收集了某种树的一些数据如下表所示,试根据这些数据建立树高关于胸径的经验回归方程.
编号 1 2 3 4 5 6
胸径/cm 18.1 20.1 22.2 24.4 26.0 28.3
树高/m 18.8 19.2 21.0 21.0 22.1 22.1
编号 7 8 9 10 11 12
胸径/cm 29.6 32.4 33.7 35.7 38.3 40.2
树高/m 22.4 22.6 23.0 24.3 23.9 24.7
典型例题
解: 以胸径为横坐标,树高为纵坐标作散点图如下：
散点大致分布在一条从左下角到右上角的直线附近，表明两个变量线性相关，并且是正相关，因此可以用一元线性回归模型刻画树高与胸径之间的关系.
·
·
·
·
·
·
·
·
·
·
·
·
用d表示胸径,h表示树高,根据据最小二乘法,计算可得经验回归方程为
典型例题
编号胸径/cm 树高观测值/m 树高预测值/m 残差/m
1 18.1 18.8 19.4 -0.6
2 20.1 19.2 19.9 -0.7
3 22.2 21.0 20.4 0.6
4 24.4 21.0 20.9 0.1
5 26.0 22.1 21.3 0.8
6 28.3 22.1 21.9 0.2
7 29.6 22.4 22.2 0.2
8 32.4 22.6 22.9 -0.3
9 33.7 23.0 23.2 -0.2
10 35.7 24.3 23.7 0.6
11 38.3 23.9 24.4 -0.5
12 40.2 24.7 24.9 -0.2
以胸径为横坐标，残差为纵坐标，作残差图，得到下图.
30
25
20
15
-1.0
-0.5
0.0
0.5
1.0
·
·
·
·
·
·
·
残差/m
·
·
·
·
·
35
40
45
胸径/cm
观察残差表和残差图，可以看到残差的绝对值最大是 0.8，所有残差分布在以横轴为对称轴、宽度小于2的带状区域内 .可见经验回归方程较好地刻画了树高与胸径的关系，我们可以根据经验回归方程由胸径预测树高.
根据经验回归方程，由胸径的数据可以计算出树高的预测值(精确到0.1)以及相应的残差，如下表所示.
学习新知
编号 1 2 3 4 5 6 7 8
年份 1896 1912 1921 1930 1936 1956 1960 1968
记录/s 11.80 10.60 10.40 10.30 10.20 10.10 10.00 9.95
人们常将男子短跑100m的高水平运动员称为“百米飞人”.下表给出了1968年之前男子短跑100m世界纪录产生的年份和世界纪录的数据.试依据这些成对数据，建立男子短跑100m世界纪录关于纪录产生年份的经验回归方程
以成对数据中的世界纪录产生年份为横坐标,世界纪录为纵坐标作散点图,得到下图
在左图中，散点看上去大致分布在一条直线附近，似乎可用一元线性回归模型建立经验回归方程.
用Y表示男子短跑100m的世界纪录,t表示纪录产生的年份 ,利用一元线性回归模型来刻画世界纪录和世界纪录产生年份之间的关系 . 根据最小二乘法,由表中的数据得到经验回归方程为：
学习新知
将经验回归直线叠加到散点图，得到下图：
仔细观察：从图中可以看到，经验回归方程较好地刻画了散点的变化趋势，请再仔细观察图形，你能看出其中存在的问题吗
第一个世界纪录所对应的散点远离经验回归直线，并且前后两时间段中的散点都在经验回归直线的上方，中间时间段的散点都在经验回归直线的下方.
这说明散点并不是随机分布在经验回归直线的周围，而是围绕着经验回归直线有一定的变化规律，即成对样本数据呈现出明显的非线性相关的特征.
学习新知
回顾已有的函数知识，可以发现函数y=-lnx的图象具有类似的形状特征
思考：你能对模型进行修改,以使其更好地反映散点的分布特征吗？
仔细观察左图，可以发现散点更趋向于落在中间下凸且递减的某条曲线附近.
注意到100m短跑的第一个世界纪录产生于1896年, 因此可以认为散点是集中在曲线
y=f(t )=c1+c2ln(t -1895)
的周围，其中c1、c2为未知参数，且c2<0.
用上述函数刻画数据变化的趋势,这是一个非线性经验回归函数,其中c1，c2是待定参数,现在问题转化为如何利用成对数据估计参数c1和c2
学习新知
令x=ln(t-1895)，则 Y=c2x+c1
编号 1 2 3 4 5 6 7 8
年份/t 1896 1912 1921 1930 1936 1956 1960 1968
x 0.00 2.83 3.26 3.56 3.71 4.11 4.17 4.29
记录Y/s 11.80 10.60 10.40 10.30 10.20 10.10 10.00 9.95
由表中的数据得到经验回归方程为：
得到散点图如右：
对数据进行变化可得下表：
学习新知
上图表明,经验回归方程对于成对数据具有非常好的拟合精度.
将x=ln(t-1895)代入：
将经验回归直线叠加到散点图，得到下图：
学习新知
得到由创纪录年份预报世界纪录的经验回归方程：
对于通过创纪录时间预报世界纪录的问题，我们建立了两个回归模型，得到了两个回归方程，你能判断哪个回归方程拟合的精度更好吗？
①
②
我们发现，散点图中各散点都非常靠近②的图象，表明非线性经验回归方程②对于原始数据的拟合效果远远好于经验回归方程①.
(1).直接观察法.在同一坐标系中画出成对数据散点图、非线性经验回归方程②的图象(蓝色)以及经验回归方程①的图象(红色).
学习新知
①
②
（2).残差分析:残差平方和越小,模型拟合效果越好.
Q2明显小于Q1，说明非线性回归方程的拟合效果要优于线性回归方程.
（3).利用决定系数R2刻画回归效果.
①和②的R2分别为0.7325和0.9983
说明非线性回归方程的拟合效果要优于线性回归方程
R2越大，表示残差平方和越小,即模型的拟合效果越好
R2越小，表示残差平方和越大，即模型拟合效果越差.
(4)用新的观测数据来检验模型的拟合效果,事实上,我们还有1968年之后的男子短跑100m世界纪录数据,如表所示
在散点图中,绘制表中的散点(绿色),再添加经验回归方程①所对应的经验回归直线(红色),以及经验回归方程②所对应的经验回归曲线(蓝色),得到右图.显然绿色散点分布在蓝色经验回归曲线的附近,远离红色经验回归直线,表明经验回归方程②对于新数据的预报效果远远好于①.
思考：在上述问题情境中,男子短跑100m世界纪录和纪录创建年份之间呈现出对数关系,能借助于样本相关系数刻画这种关系的强弱吗
在使用经验回归方程进行预测时,需要注意下列问题:
(1)经验回归方程只适用于所研究的样本的总体,例如,根据我国父亲身高与儿子身高的数据建立的经验回归方程,不能用来描述美国父亲身高与儿子身高之间的关系,同样,根据生长在南方多雨地区的树高与胸径的数据建立的经验回归方程,不能用来描述北方干早地区的树高与胸径之间的关系。
(2)经验回归方程一般都有时效性,例如,根据20世纪80年代的父亲身高与儿子身高的数据建立的经验回归方程,不能用来描述现在的父亲身高与儿子身高之间的关系。
(3)解释变量的取值不能离样本数据的范围太远,一般解释变量的取值在样本数据范围内,经验回归方程的预报效果会比较好,超出这个范围越远,预报的效果越差,
(4)不能期望经验回归方程得到的预报值就是响应变量的精确值,事实上,它是响应变量的可能取值的平均值。
学习新知
典型例题
一只药用昆虫的产卵数y与一定范围内的温度x有关，现收集了6组观测数据列于表中：
经计算得：
线性回归残差的平方和:
其中分别为观测数据中的温度和产卵数，i=1,2,3,4,5,6.
(1)若用线性回归模型拟合，求y关于x的回归方程 (精确到0.1）；
(2)若用非线性回归模型拟合，求得y关于x回归方程为
且相关指数R2＝0.9522．
①试与(1)中的线性回归模型相比较，用R2说明哪种模型的拟合效果更好
②用拟合效果好的模型预测温度为35℃时该种药用昆虫的产卵数.(结果取整数). 附：相关系数
巩固练习
解:
所以y关于x的经验回归方程为
∵0.9398＜0.9522
∴非线性回归模型的回归方程比线性回归方程为:y＝6.6x -138.6拟合的拟合效果更好
＝0.06e0.2303x＝＝0.06e0.2303×35＝0.06×e8.0605≈3167×0.06≈190（个）
预测温度为35℃时该种药用昆虫的产卵数为190个．
②
1.残差平方和：
2.最小二乘法
将称为Y 关于x 的经验回归方程，
3.判断模型拟合的效果:残差分析
R2越大，表示残差平方和越小,即模型的拟合效果越好R2越小，表示残差平方和越大，即模型拟合效果越差.
课堂小结
1.残差平方和：
2.最小二乘法
将称为Y 关于x 的经验回归方程，
3.判断模型拟合的效果:残差分析
R2越大，表示残差平方和越小,即模型的拟合效果越好R2越小，表示残差平方和越大，即模型拟合效果越差.
课堂小结

展开更多......

收起↑

请用微信扫码

8.2.2一元线性回归模型参数的最小二乘估计（2课时，共28+24张PPT）

8.2.2一元线性回归模型参数的最小二乘估计（2课时，共28+24张PPT）