8.2.2 一元线性回归模型参数的最小二乘估计(第一课时)课件(共30张PPT)

资源下载
  1. 二一教育资源

8.2.2 一元线性回归模型参数的最小二乘估计(第一课时)课件(共30张PPT)

资源简介

(共30张PPT)
一元线性回归模型:
Y:因变量或响应变量, x:自变量或解释变量,
a:截距参数, b:斜率参数,
e:Y与bx+a之间的随机误差.
温故知新:
8.2.2 一元线性回归模型参数的最小二乘估计(第一课时)
在一元线性回归模型中,表达式Y=bx+a+e刻画的是变量Y与变量x之间的线性相关关系,其中参数a和b未知,需要根据成对样本数据进行估计.由模型的建立过程可知,参数a和b刻画了变量Y与变量x的线性关系,因此通过成对样本数据估计这两个参数,相当于寻找一条适当的直线,使表示成对样本数据的这些散点在整体上与这条直线最接近.
探究:利用散点图8.2-1找出一条直线,使各散点在整体上与此直线尽可能接近.
在图中选择这样的两点画直线,使得直线两侧的点的个数基本相同,把这条直线作为所求直线,如图(2)所示.
采用测量的方法,先画出一条直线,测量出各点与它的距离,然后移动直线,到达一个使距离的和最小的位置.然后测量出此时的斜率和截距,就可得到一条直线,如图(1)所示.
(1)
方法一:
(2)
方法二:
在散点图中多取几对点,确定出几条直线的方程,再分别求出这些直线的斜率、截距的平均数,将这两个平均数作为所求直线的斜率和截距,如图(3)所示.
(2)
方法三:
上面这些方法虽然有一定的道理,但比较难操作,我们需另辟蹊径.
先进一步明确我们面临的任务:从成对样本数据出发,用数学的方法刻画“从整体上看,各散点与直线最接近”.
通常,我们会想到利用点到直线y=bx+a的“距离”来刻画散点与该直线的接近程度,然后用所有“距离”之和刻画所有样本观测数据与该直线的接近程度.
设满足一元线性回归模型的两个变量的n对样本数据为(x1,y1),(x2,y2), ,(xn,yn),由yi=bxi+a+ei (i=1,2, , n),得
显然|ei|越小,表示点(xi , yi)与点(xi ,bxi+a)的“距离”越小,即样本数据点离直线y=bx+a的竖直距离越小,如右图所示.特别地,当ei = 0时,表示点(xi,yi)在这条直线上.
因此,可以用这n个竖直距离之和 来刻画各样本观测数据与直线y=bx+a的“整体接近程度”.
在实际应用中,因为绝对值使得计算不方便,所以人们通常用各散点到直线的竖直距离的平方之和
来刻画“整体接近程度”.
所以我们可以取使Q达到最小的a和b的值作为截距和斜率的估计值.
要使Q取到最小值,则
∴要使Q取得最小值,当且仅当b的取值为
综上,当a,b的取值为
时,Q达到最小.
经验回归方程与最小二乘估计:
我们将 称为Y关于x的经验回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线.这种求经验回归方程的方法叫做最小二乘法,利用公式(2)求得的 叫做b,a的最小二乘估计.
这里的“二乘”是平方的意思.
x 1 2 3 4 5 6
y 0 2 1 3 3 4
练习1:已知x与y之间的几组数据如下表
则y对x的经验回归直线必过点__________
父亲身高x/cm 174 176 176 176 178
儿子身高y/cm 175 175 176 177 177
C
练习2:为了解儿子身高与其父亲身高的关系,随机抽取5对身高数据如下:
则y对x的经验回归直线方程为( )
对上表中的数据,利用公式(2)可以计算出 得到儿子身高Y关于父亲身高x的经验回归方程为 相应的经验回归直线如下图所示.
编号 1 2 3 4 5 6 7 8 9 10 11 12 13 14
父亲身高/cm 174 170 173 169 182 172 180 172 168 166 182 173 164 180
儿子身高/cm 176 176 170 170 185 176 178 174 170 168 178 172 165 182
显然不一定,因为还有其他影响儿子身高的因素,父亲身高不能完全决定儿子身高.不过,我们可以作出推测,当父亲身高为176 cm时,儿子身高一般在177 cm左右.
实际上,如果把这所学校父亲身高为176 cm的所有儿子身高作为一个子总体,那么177 cm是这个子总体的均值的估计值.
根据模型,父亲身高为多少时,长大成人的儿子的平均身高与父亲的一样 你怎么看这个判断
英国著名统计学家高尔顿 (F. Galton, 1822—1911)把这种后代的身高向中间值靠近的趋势称为“回归现象”.后来,人们把由一个变量的变化去推测另一个变量的变化的方法称为回归分析.
求经验回归方程的步骤:
对于响应变量Y,通过观测得到的数据称为观测值,通过经验回归方程得到的 称为预测值,观测值减去预测值称为残差. 残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.
残差分析:
编号 父亲身高/cm 儿子身高/cm 儿子身高预测值/cm 残差
1 174 176 174.943 1.057
2 170 176 171.587 4.413
3 173 170 174.104 -4.104
4 169 170 170.748 -0.748
5 182 185 181.655 3.345
6 172 176 173.265 2.735
7 180 178 179.977 -1.977
8 172 174 173.265 0.735
9 168 170 169.909 0.091
10 166 168 168.231 -0.231
11 182 178 181.655 -3.655
12 173 172 174.104 -2.104
13 164 165 166.553 -1.553
14 180 182 179.977 2.023
残差表:
为了使数据更加直观,用父亲身高作为横坐标,残差作为纵坐标,可以画出残差图,如图下所示.
0
1
2
3
4
5
-1
-2
-3
-4
-5
160
165
170
175
180
185
残差/cm
父亲身高/cm














一般地,建立经验回归方程后,通常需要对模型刻画数据的效果进行分析.借助残差分析还可以对模型进行改进,使我们能根据改进模型作出更符合实际的预测与决策.
观察表8.2-2可以看到,残差有正有负,残差的绝对值最大是4.413.观察残差的散点图可以发现,残差比较均匀地分布在横轴的两边. 说明残差比较符合一元线性回归模型的假定,
是均值为0、方差为σ2的随机变量的观测值.可见,通过观察残差图可以直观判断模型是否满足一元线性回归模型的假设.
思考2:观察下列四幅残差图,你认为哪一个残差满足一元线性回归模型中对随机误差的假定
通过观察发现,图(4)的残差比较均匀地分布在以取值为0的横轴为对称轴的水平带状区域内.所以在四幅残差图中,只有图(4)满足一元线性回归模型对随机误差的假设.
1.对一元线性回归模型参数a和b的估计中,有人认为:“估计方法不止一种,根据不同的样本观测数据到直线‘整体接近程度’的定义,可以得到参数a和b不同的估计,只要‘整体接近程度’定义合理即可.”你觉得这个说法对吗
这个说法是对的. 选择刻画散点趋势的直线可以有不同的标准,取决于“整体接近程度”的定义,定义不同,得到参数a和b的估计往往也不同. 例如,我们可以用 刻画“整体接近程度”得到参数a和b的最小二乘估计,也可以用 刻画“整体接近程度”得到参数a和b的估计,二者估计的结果一般不同.
解:
请看课本P113:练习1
∴估计女儿的身高为168 cm左右.
2.假如女儿身高y (单位:cm)关于父亲身高x(单位: cm)的经验回归方程为 已知父亲身高为175cm,请估计女儿的身高.
解:
请看课本P113:练习2
解:先画人体的脂肪含量与年龄的散点图,如图(1)所示. 由散点图可以发现人体的脂肪含量与年龄呈现近似线性关系,可以用一元线性回归模型刻画.
3.根据下表数据,建立人体的脂肪含量关于年龄的经验回归方程,画出残差图,描述残差图的特点.
编号 1 2 3 4 5 6 7 8 9 10 11 12 13 14
年龄/岁 23 27 39 41 45 49 50 53 54 56 57 58 60 61
脂肪含量/% 9.5 17.8 21.2 25.9 27.5 26.3 28.2 29.6 30.2 31.4 30.8 33.5 35.2 34.6
(1)
用y表示脂肪含量,x表示年龄. 用统计软件计算,可得到人体的脂肪含量关于年龄的经验回归方程为
请看课本P113:练习3
解:
画残差图,如图(2)所示,通过残差图可以看到,残差比较均匀地分布在横轴的两边. 说明残差比较符合一元线性回归模型对随机误差的假设.
0
1
2
3
4
-1
-2
-3
-4
0
10
20
30
40
50
残差/cm
年龄








60
70






(2)
请看课本P113:练习3
3.根据下表数据,建立人体的脂肪含量关于年龄的经验回归方程,画出残差图,描述残差图的特点.
编号 1 2 3 4 5 6 7 8 9 10 11 12 13 14
年龄/岁 23 27 39 41 45 49 50 53 54 56 57 58 60 61
脂肪含量/% 9.5 17.8 21.2 25.9 27.5 26.3 28.2 29.6 30.2 31.4 30.8 33.5 35.2 34.6
经计算可知残差的总和为0.027. 但是
4.计算表8.2-2中的所有残差之和,你能发现什么规律
解:
即理论上残差的总和应等于0,这个误差是由于计算过程中四舍五入的原因导致.
请看课本P113:练习4
1.经验回归方程:
我们将 称为Y关于x的经验回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线. 这种求经验回归方程的方法叫做最小二乘法.
2. 最小二乘估计:
经验回归方程中的参数 计算公式为:
课堂小结:
商店名称 A B C D E
销售额x/千万元 3 5 6 7 9
利润额y/百万元 2 3 3 4 5
例1:某连锁经营公司所属5个零售店某月的销售额和利润额资料如下表:
(1) 画出销售额和利润额的散点图;
(2) 计算利润额y对销售额x的经验回归直线方程.
解:(1) 散点图如下
(2)解法1:
∴所求经验回归方程为
商店名称 A B C D E
销售额x/千万元 3 5 6 7 9
利润额y/百万元 2 3 3 4 5
∴所求经验回归方程为
(2)解法2:
商店名称 A B C D E
销售额x/千万元 3 5 6 7 9
利润额y/百万元 2 3 3 4 5
x(s) 5 10 15 20 30 40 50 60 70 90 120
y(μm) 6 10 10 13 16 17 19 23 25 29 46
例2:在某种产品表面进行腐蚀刻线试验,得到腐蚀深度y(μm)与腐蚀时间x(s)之间的一组观察值如表.
(1)画出散点图; (2)求y关于x的经验回归方程;
(3)利用经验回归方程预测时间为100 s时腐蚀深度为多少?
解:(1)散点图如图所示,
∴y关于x的经验回归方程为
解:
(3)根据(2)求得的经验回归方程,当腐蚀时间为100s时,
x(s) 5 10 15 20 30 40 50 60 70 90 120
y(μm) 6 10 10 13 16 17 19 23 25 29 46
即腐蚀时间为100s时腐蚀深度为约35.76μm.

展开更多......

收起↑

资源预览