第八章 §8.2 第1课时 一元线性回归模型及其参数的最小二乘估计(课件+导学案)

资源下载
  1. 二一教育资源

第八章 §8.2 第1课时 一元线性回归模型及其参数的最小二乘估计(课件+导学案)

资源简介

(共111张PPT)
第八章
<<<
第1课时
一元线性回归模型及其参数的最小二乘估计
1.了解最小二乘原理,掌握一元线性回归模型参数的最小二乘估计方法,建立一元线性回归模型进行预测.
2.了解随机误差、残差、残差图的概念.
3.会通过残差分析一元线性回归模型的拟合效果.
学习目标
通过前面的学习我们已经知道,根据成对样本数据的散点图和样本相关系数,可以推断两个变量是否存在相关关系、是正相关还是负相关,以及线性相关程度的强弱等,那么当两个变量线性相关时,我们如何利用成对样本数据建立统计模型进行预测?
导 语
一、一元线性回归模型
二、最小二乘法和经验回归方程
课时对点练
三、线性回归分析
随堂演练
内容索引

一元线性回归模型
生活经验告诉我们,儿子的身高与父亲的身高具有正相关的关系,为了进一步研究两者之间的关系,有人调查了某所高校14名男大学生的身高及其父亲的身高,得到的数据如表所示:
我们画出散点图(课本105页图8.2-1)并通过计算得到样本相关系数r≈0.886.
编号 1 2 3 4 5 6 7
父亲身高/cm 174 170 173 169 182 172 180
儿子身高/cm 176 176 170 170 185 176 178
编号 8 9 10 11 12 13 14
父亲身高/cm 172 168 166 182 173 164 180
儿子身高/cm 174 170 168 178 172 165 182
由样本相关系数可以得到什么结论?
问题1
提示 通过样本相关系数可知儿子的身高与父亲的身高正线性相关,且相关程度较高.
这两个变量之间的关系可以用函数模型来刻画吗?
问题2
提示 不能.因为这两个变量之间不是函数关系,也就不能用函数模型刻画.
一元线性回归模型:我们称为Y关于x的__________
______模型,其中,Y称为 或 ,x称为 或
;a和b为模型的未知参数,a称为 参数,b称为 参数;e是Y与bx+a之间的 .
一元线性
回归
因变量
响应变量
自变量
解释变量
截距
斜率
随机误差
 判断下列变量间哪些能用函数模型刻画,哪些能用回归模型刻画?
(1)某公司的销售收入和广告支出;
(2)某城市写字楼的出租率和每平方米月租金;
(3)航空公司的顾客投诉次数和航班正点率;
(4)某地区的人均消费水平和人均国内生产总值(GDP);
(5)学生期末考试成绩和考前用于复习的时间;
(6)一辆汽车在某段路程中的行驶速度和行驶时间;
(7)正方形的面积与周长.
例 1
(1)(2)(3)(4)(5)回归模型,(6)(7)函数模型.
在函数关系中,变量X对应的是变量Y的确定值,而在相关关系中,变量X对应的是变量Y的概率分布.换句话说,相关关系是随机变量之间或随机变量与非随机变量之间的一种数量依存关系,对于这种关系,通常运用统计方法进行研究.通过对相关关系的研究又可以总结规律,从而指导人们的生活与生活实践.




若某地财政收入x与支出y满足一元线性回归模型y=bx+a+e(单位:亿元), 其中b=0.7,a=3,|e|≤0.5,如果今年该地区财政收入为10亿元,年支出预计不会超过
A.9亿元 B.9.5亿元
C.10亿元 D.10.5亿元

跟踪训练 1
因为财政收入x与支出y满足一元线性回归模型y=bx+a+e,其中b=0.7,a=3,
所以y=0.7x+3+e.
当x=10时,得y=0.7×10+3+e=10+e,
又|e|≤0.5,即-0.5≤e≤0.5,所以9.5≤y≤10.5,
所以年支出预计不会超过10.5亿元.

最小二乘法和经验回归方程
提示 使表示成对样本数据的这些散点在整体上与一条适当的直线尽可能地接近.
在一元线性回归模型中,表达式Y=bx+a+e刻画的是变量Y与x之间的线性相关关系,其中参数a和b未知,确定参数a和b的原则是什么?
问题3
最小二乘法:我们将=x+称为Y关于x的 ,也称经验回归函数或经验回归公式,其图形称为经验回归直线.这种求经验回归方程的方法叫做 ,求得的,叫做b,a的 ,
经验回归方程
其中==,=-.
最小二乘法
最小二乘估计
经验回归直线=x+必过点(,).
注 意 点
<<<
 (1)某单位为了了解办公楼用电量y(度)与气温x(℃)之间的关系,随机统计了四个工作日的用电量与当天平均气温,并制作了对照表:
例 2
气温x(℃) 18 13 10 -1
用电量y(度) 24 34 38 64
由表中数据得到经验回归方程=-2x+,则当气温为-3 ℃时,预测用电量为
A.68度 B.66度 C.28度 D.12度

由表中数据可知==10,
==40,
所以经验回归直线=-2x+过点(10,40),
即40=-2×10+,得=60,
则经验回归方程为=-2x+60,
当x=-3时,=-2×(-3)+60=66.
气温x(℃) 18 13 10 -1
用电量y(度) 24 34 38 64
(2)某商场为了迎接暑期旅游旺季,确定暑期营销策略,进行了投入促销费用x和商场实际销售额y的试验,得到如下四组数据.
①画出上述数据的散点图,并据此判断两个变量是否具有较强的线性相关关系;
投入促销费用x(万元) 2 3 5 6
商场实际销售额y(万元) 100 200 300 400
散点图如图所示.
从散点图上可以看出两个变量具有较好的
线性相关关系.
②求出x,y之间的经验回归方程=x+;
投入促销费用x(万元) 2 3 5 6
商场实际销售额y(万元) 100 200 300 400
参考公式:=,=-.
因为==4,==250,
xiyi=2×100+3×200+5×300+6×400=4 700,
=22+32+52+62=74,
所以===70,=-=250-70×4=-30.
故所求的经验回归方程为=70x-30.
投入促销费用x(万元) 2 3 5 6
商场实际销售额y(万元) 100 200 300 400
③若该商场计划实际销售额不低于600万元,则至少要投入多少万元的促销费用?
投入促销费用x(万元) 2 3 5 6
商场实际销售额y(万元) 100 200 300 400
由题意得70x-30≥600,即x≥=9,
所以若该商场计划实际销售额不低于600万元,则至少要投入9万元的促销费用.
投入促销费用x(万元) 2 3 5 6
商场实际销售额y(万元) 100 200 300 400




(1)算:计算,,, xiyi.
(2)代:代入公式计算,的值.
(3)写:写出经验回归方程.
求经验回归方程的步骤
 (1)若根据变量x与y的对应关系(如表),求得y关于x的经验回归方程为=6.5x+17.5,则表中m的值为
跟踪训练 2
x 2 4 5 6 8
y 30 40 m 50 70
A.60 B.55 C.50 D.45

由表中数据,得=×(2+4+5+6+8)=5,
=×(30+40+m+50+70)=38+,因为经验回归直线=6.5x+17.5过点,
所以38+=6.5×5+17.5,解得m=60.
x 2 4 5 6 8
y 30 40 m 50 70
(2)重楼,中药名,具有清热解毒、消肿止痛、凉肝定惊之功效,具有极高的药用价值.近年来,随着重楼的药用潜力被不断开发,野生重楼资源已经满足不了市场的需求,巨大的经济价值提升了家种重楼的热度,某机构统计了近几年某地家种重楼年产量y(单位:吨),统计数据如表所示.
年份 2016 2017 2018 2019 2020 2021 2022
年份代码x 1 2 3 4 5 6 7
年产量y/吨 130 180 320 390 460 550 630
年份 2016 2017 2018 2019 2020 2021 2022
年份代码x 1 2 3 4 5 6 7
年产量y/吨 130 180 320 390 460 550 630
①根据表中的统计数据,求出y关于x的经验回归方程;
附:经验回归方程=x+中斜率和截距的最小二乘估计公式分别为
==,=-.
由表格数据,
得==4,==380,
xiyi=1×130+2×180+3×320+4×390+5×460+6×550+7×630=13 020,
年份 2016 2017 2018 2019 2020 2021 2022
年份代码x 1 2 3 4 5 6 7
年产量y/吨 130 180 320 390 460 550 630
=1+4+9+16+25+36+49=140,
则===85,
所以=-=380-85×4=40,所以y关于x的经验回归方程为=85x+40.
年份 2016 2017 2018 2019 2020 2021 2022
年份代码x 1 2 3 4 5 6 7
年产量y/吨 130 180 320 390 460 550 630
年份 2016 2017 2018 2019 2020 2021 2022
年份代码x 1 2 3 4 5 6 7
年产量y/吨 130 180 320 390 460 550 630
②根据①中所求方程预测2025年该地家种重楼的年产量.
由题可知,2025年的年份代码为10,即x=10,
将x=10代入经验回归方程,
得=85×10+40=890,
所以预测2025年该地家种重楼的年产量为890吨.
年份 2016 2017 2018 2019 2020 2021 2022
年份代码x 1 2 3 4 5 6 7
年产量y/吨 130 180 320 390 460 550 630

线性回归分析
提示 残差图、残差平方和、决定系数.
如果给出了两个模型,那么如何比较这两个模型的拟合效果?
问题4
1.残差:对于响应变量Y,通过观测得到的数据称为 ,通过经验回归方程得到的称为 , 减去 称为残差.
2.残差分析: 是随机误差的估计结果,通过对 的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为 .
观测值
预测值
观测值
预测值所得的差
残差
残差
残差分析
3.残差平方和法
4.决定系数R2法

可以用R2=1-来比较两个模型的拟合效果,R2越 ,模型的拟合效果越 ,R2越 ,模型的拟合效果越 .
残差平方和(yi-)2越 ,模型的拟合效果越好.




 (1)(多选)对变量y和x的一组成对样本数据(x1,y1),(x2,y2),…,(xn,yn)进行回归分析,建立回归模型,则
A.残差平方和越大,模型的拟合效果越好
B.在做线性回归分析时,残差图中残差点分布的带状区域的宽度越窄表
示回归效果越好
C.用决定系数R2来刻画回归效果,R2越小,说明模型的拟合效果越好
D.若y和x的样本相关系数r=-0.95,则y和x之间具有很强的负线性相关关系
例 3


因为残差平方和越小,模型的拟合效果越好,故A错误;
在做线性回归分析时,残差图中残差点分布的带状区域的宽度越窄表示回归效果越好,故B正确;
因为决定系数R2越接近1,说明模型的拟合效果越好,故C错误;
由样本相关系数为负且接近-1,可知y和x之间具有很强的负线性相关关系,故D正确.
(2)假定小麦基本苗数x与成熟期有效穗y之间存在线性相关关系,今测得5组数据如下表:
x 15.0 25.8 30.0 36.6 44.4
y 39.4 42.9 42.9 43.1 49.2
并由最小二乘法计算得经验回归方程为=0.29x+34.7.
①计算各组残差,并计算残差平方和;
参考数据:(yi-)2=50.18.
由=xi+,
可以算得=yi-分别为=0.35,
=0.718,=-0.5,
=-2.214,=1.624,
x 15.0 25.8 30.0 36.6 44.4
y 39.4 42.9 42.9 43.1 49.2
残差平方和为≈8.43.
x 15.0 25.8 30.0 36.6 44.4
y 39.4 42.9 42.9 43.1 49.2
②求R2.
参考数据:(yi-)2=50.18.
(yi-)2=50.18,
故R2≈1-≈0.832.
x 15.0 25.8 30.0 36.6 44.4
y 39.4 42.9 42.9 43.1 49.2




(1)残差图法:残差点比较均匀地落在水平带状区域内说明选用的模型比较合适.
刻画回归效果的三种方法
(2)残差平方和法:残差平方和(yi-)2越小,模型的拟合效果越好.
(3)决定系数R2法:R2=1-越接近1,表明模型的拟合效果越好.
 已知某种商品的价格x(单位:元)与需求量y(单位:件)之间的关系有如下一组数据:
跟踪训练 3
x 14 16 18 20 22
y 12 10 7 5 3
求y关于x的经验回归方程,并借助残差平方和及R2说明回归模型拟合效果的好坏.
参考公式及数据:=,=-,=1 660, xiyi=620.
=×(14+16+18+20+22)=18,
=×(12+10+7+5+3)=7.4,
所以===-1.15,
=7.4+1.15×18=28.1,
所以所求经验回归方程是=-1.15x+28.1.
列出残差表为
所以 (yi-)2=0.3, (yi-)2=53.2,R2=1-≈0.994,
所以回归模型的拟合效果很好.
i- 0 0.3 -0.4 -0.1 0.2
yi- 4.6 2.6 -0.4 -2.4 -4.4
1.知识清单:
(1)一元线性回归模型.
(2)最小二乘法、经验回归方程的求法.
(3)线性回归分析:残差图法、残差平方和法和R2法.
2.方法归纳:数形结合、转化化归.
3.常见误区:混淆残差图法、残差平方和法和R2法的概念,导致刻画回归效果出错.
随堂演练

1
2
3
4
1.根据如下样本数据,得到经验回归方程为=x+,则
x 4 5 6 7 8 9
y 5.0 3.5 0.5 1.5 -1.0 -2.0
A.>0,>0 B.>0,<0
C.<0,>0 D.<0,<0

1
2
3
4
根据表中数据可知,随着x的增加y减小,故y与x是负相关,故经验回归直线的斜率为负,故<0;再结合散点图以及直线的性质,根据x=4,5,6,7时y均为正可知经验回归直线与y轴的截距为正,故>0.
x 4 5 6 7 8 9
y 5.0 3.5 0.5 1.5 -1.0 -2.0
2.(多选)已知变量y与x具有线性相关关系,统计得到6组数据如下表:
1
2
3
4
x 2 4 7 10 15 22
y 8.1 9.4 12 14.4 18.5 24
若y关于x的经验回归方程为=0.8x+,则
A.变量y与x之间正相关
B.=14.4
C.=6.8
D.当x=12时,y的估计值为15.6


1
2
3
4
由y关于x的经验回归方程=0.8x+,可知变量y与x之间正相关,故A正确;
由表中数据可知==10,
==14.4,
故B正确;
又经验回归直线过点(,),将其代入=0.8x+可得=14.4-0.8×10=6.4,故C错误;
1
2
3
4
因此,y关于x的经验回归方程为=0.8x+6.4,将x=12代入可得,=0.8×12+6.4=16,
即当x=12时,y的估计值为16,故D错误.
3.某车间为了提高工作效率,需要测试加工零件所花费的时间,为此进行了5次试验,这5次试验的数据列(个数x,加工时间y)为:(10,62),(20,a),(30,75),(40,81),(50,89).若用最小二乘法求得其经验回归方程为=0.67x+54.9,则a的值为  .
1
2
3
4
68
1
2
3
4
根据题意可得,
=×=30,
=×=61.4+.
又经验回归直线经过点(),
故可得61.4+=0.67×30+54.9,
解得a=68.
4.下表是某饮料专卖店一天卖出奶茶的杯数y与当天气温x(单位:°C)的对比表,已知由表中数据计算得到y关于x的经验回归方程为=x+27,则相应于点(10,20)的残差为   .
1
2
3
4
气温x/°C 5 10 15 20 25
杯数y 26 20 16 14 14
-1
1
2
3
4
==15,
==18,
代入经验回归方程=x+27得18=15+27,
解得=-0.6,
则经验回归方程为=-0.6x+27.
所以相应于点(10,20)的残差为20-(-0.6×10+27)=-1.
课时对点练

1.对变量x,y进行回归分析时,依据得到的4个不同的回归模型画出残差图,则下列模型拟合精度最高的是
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
基础巩固

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
用残差图判断模型的拟合效果,残差点比较均匀地分布在以取值为0的横轴为对称轴的水平带状区域内,说明这样的模型比较合适,带状区域的宽度越窄,说明模型的拟合精度越高.
2.近年来,我国无人机产业发展迅猛,在全球具有领先优势,已经成为“中国制造”一张靓丽的新名片,其中民用无人机市场也异常火爆,销售量逐年上升.现某无人机专卖店统计了5月份前5天无人机的实际销量,结果如表所示.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
日期编号x 1 2 3 4 5
销量y/部 9 a 17 b 27
经分析知,y与x有较强的线性相关关系,且求得经验回归方程为=4.5x+3.7,则a+b的值为
A.28 B.30 C.33 D.35

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
依题意=×(1+2+3+4+5)=3,
=×(9+a+17+b+27)=,
又经验回归直线=4.5x+3.7过点(,),所以=4.5×3+3.7,解得a+b=33.
3.为了研究某班学生的听力成绩x(单位:分)与笔试成绩y(单位:分)的关系,从该班随机抽取20名学生,根据散点图发现x与y之间有线性关系,
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
设其经验回归方程为=x+,已知xi=400, yi=1 580,=-1,若该班某学生的听力成绩为26,据此估计其笔试成绩约为
A.99 B.101 C.103 D.105

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
由xi=400,得==20;
由yi=1 580,得==79,
故点(20,79)在经验回归直线上,
即79=20-1,得=4,即=4x-1,
当x=26时,代入计算得=103.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
4.已知两个线性相关变量x与y的统计数据如表:
x 3 4 5 6
y 2.5 3 4 m
其经验回归方程是=0.7x+,据此计算,样本(4,3)处的残差为-0.15,则表中m的值为
A.4 B.4.5 C.5 D.5.5

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
由题意,样本(4,3)处的残差为-0.15,所以3.15=0.7×4+,所以=
0.35,由经验回归直线=0.7x+0.35过点(,),且=×(3+4+5+6)
=4.5,可得=0.7×4.5+0.35=3.5,由=×(2.5+3+4+m)=3.5,解得m=4.5.
5.(多选)已知某产品的单价x(单位:元)以及销量y(单位:件)情况统计如表所示,由表中数据求得经验回归方程=-4x+,则下列说法正确的是
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
单价x(元) 4 5 6 7 8 9
销量y(件) 90 84 83 80 75 68
A.销量的平均数为80件
B.根据经验回归方程可以测得,单价每上升1元,销量就平均减少4件
C.=26
D.根据经验回归方程可以预测,当单价为10元时,销量为66件



1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
==6.5,
==80,故A正确;
将(6.5,80)代入经验回归方程得=106,
故经验回归方程为=-4x+106,
由于经验回归方程的斜率为-4,故B正确,C错误;
根据经验回归方程可以预测,当单价为10元时,销量为-40+106= 66(件),故D正确.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
6.(多选)某市物价部门对5家商场的某商品一天的销售量及其价格进行调查,5家商场的售价x(元)和销售量y(件)之间的一组数据如表所示:
价格x 9 9.5 10 10.5 11
销售量y 11 10 8 6 5
由公式计算得到y与x的经验回归方程是=-3.2x+,样本相关系数的绝对值|r|≈0.992,则下列说法正确的有
A.变量x,y负相关且线性相关程度较强
B.=40
C.当x=8.5时,y的预测值为12.8
D.相应于点(10.5,6)的残差为0.4



1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
对A,由表可知y随x增大而减小,可认为变量x,y负相关,且由样本相关系数的绝对值|r|≈0.992可知线性相关程度较强,故A正确;
对B,=×(9+9.5+10+10.5+11)=10,=×(11+10+8+6+5)=8,故经验回归直线恒过定点(10,8),故8=-3.2×10+,即=40,故B正确;
价格x 9 9.5 10 10.5 11
销售量y 11 10 8 6 5
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
对C,当x=8.5时,=-3.2×8.5+40=12.8,故C正确;
对D,相应于点(10.5,6)的残差=6-(-3.2×10.5+40)=-0.4,故D不正确.
价格x 9 9.5 10 10.5 11
销售量y 11 10 8 6 5
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
7.如图是一组数据(x,y)的散点图,经最小二乘估计公式计算,y与x之间的经验回归方程为=0.83x+,则=    .
0.94
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
因为==2,
==2.6,
所以2.6=0.83×2+,所以=0.94.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
8.已知一系列样本点(xi,yi)(i=1,2,3,…,n)的经验回归方程为=2x+,若样本点(r,1)与(1,s)的残差相同,则     .(填s与r的关系式)
s=-2r+3
样本点(r,1)的残差为1-(2r+),样本点(1,s)的残差为s-(2+),
依题意1-(2r+)=s-(2+),故s=-2r+3.
9.从某居民区随机抽取10个家庭,获得第i个家庭的月收入xi(单位:千元)与月储蓄yi(单位:千元)的数据资料,算得xi=80,yi=20,
xiyi=184,=720.
(1)求家庭的月储蓄y对月收入x的经验回归方程=x+;
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
附:经验回归方程=x+中,=,=-.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
由题意知
n=10,=xi==8,
=yi==2,
又-10=720-10×82=80,
xiyi-10=184-10×8×2=24,
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
则==0.3,
=-=2-0.3×8=-0.4,
故所求经验回归方程为=0.3x-0.4.
(2)判断变量x与y之间是正相关还是负相关;
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
由于变量y的值随x值的增加而增加(=0.3>0),故x与y之间是正相关.
(3)若该居民区某家庭月收入为7千元,预测该家庭的月储蓄.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
将x=7代入经验回归方程可以预测该家庭的月储蓄为=0.3×7-0.4=1.7(千元).
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
10.耐盐碱水稻俗称“海水稻”,是一种可以长在滩涂和盐碱地的水稻.海水稻的灌溉是将海水稀释后进行灌溉.某试验基地为了研究海水浓度x(‰)对亩产量y(吨)的影响,通过在试验田的种植实验,测得了某种海水稻的亩产量与海水浓度的数据如表.绘制散点图发现,可用一元线性回归模型拟合亩产量y与海水浓度x之间的相关关系,用最小二乘法计算得y与x之间的经验回归方程为=x+0.88.
海水浓度xi(‰) 3 4 5 6 7
亩产量yi(吨) 0.62 0.58 0.49 0.4 0.31
残差
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
(1)求,并估计当浇灌海水浓度为8‰时该品种的亩产量;
经计算=5,=0.48,
由0.48=5+0.88,可得=-0.08,
当x=8时,=-0.08×8+0.88=0.24(吨),
所以当浇灌海水浓度为8‰时,该品种的亩产量约为0.24吨.
附:残差公式=yi-,决定系数R2=1-.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
(2)①完成上述残差表;
海水浓度xi(‰) 3 4 5 6 7
亩产量yi(吨) 0.62 0.58 0.49 0.4 0.31
残差
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
由(1)知=-0.08x+0.88,从而有
海水浓度xi(‰) 3 4 5 6 7
亩产量yi(吨) 0.62 0.58 0.49 0.4 0.31
残差 -0.02 0.02 0.01 0 -0.01
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
②统计学中常用决定系数R2来刻画回归效果,R2越大,模型拟合效果越好,如假设R2=0.8,就说明响应变量y的差异有80%是由解释变量x引起的.请计算决定系数R2(精确到0.01),并指出亩产量的变化多大程度上是由海水浓度引起的?
海水浓度xi(‰) 3 4 5 6 7
亩产量yi(吨) 0.62 0.58 0.49 0.4 0.31
残差
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
R2=1-=1-=≈0.98,
所以亩产量的变化有98%是由海水浓度引起的.
11.如图5个样本数据,去掉D(3,10)后,下列说法错误的是
A.样本相关系数r变大
B.决定系数R2变大
C.残差平方和变大
D.解释变量x与响应变量y的相关程度变强
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16

综合运用
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
由散点图知,去掉离群点D后,x与y的线性相关程度变强,且为正相关,所以样本相关系数r的值变大,故A正确;
决定系数R2的值变大,残差平方和变小,故B正确,C错误;
解释变量x与响应变量y的相关程度变强,故D正确.
12.某工厂节能降耗技术改造后,在生产某产品过程中记录的产量x(吨)与相应的生产能耗y(吨)的几组对应数据如表,发现表中有个数据看不清,已知经验回归方程为=6.5x+6,下列说法正确的是
A.看不清的数据★的值为33
B.经验回归方程中6.5的含义是产量
每增加1吨,相应的生产能耗实际
增加6.5吨
C.据此模型预测产量为8吨时,相应的生产能耗为50.9吨
D.经验回归直线=6.5x+6恰好经过点(4,★)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16

x 2 3 4 5 6
y 19 25 ★ 40 44
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
对于A,因为==4,
将=4代入=6.5x+6,
故=6.5×4+6=32,
所以★=32×5-(19+25+40+44)=32,故A错误;
对于B,经验回归方程中6.5的含义是产量每增加1吨,相应的生产能耗平均增加6.5吨,故B错误;
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
对于C,当x=8时,=6.5×8+6=58(吨),故C错误;
对于D,因为=4,=32,故=6.5x+6必经过点(4,32),故D正确.
13.已知x与y之间的几组数据如表:
假设根据上表数据所得经验回归方程为=x+.若某同学根据上表中的前两组数据(1,0)和(2,2)求得的经验回归方程为='x+',则以下结论正确的是
A.>',>' B.>',<'
C.<',>' D.<',<'
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16

x 1 2 3 4 5 6
y 0 2 1 3 3 4
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
==,
==,
x 1 2 3 4 5 6
y 0 2 1 3 3 4
==,
=-=-,
'==2>,'=-2<.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
14.为了研究高三(1)班女生的身高x(单位:cm)与体重y(单位:kg)的关系,从该班随机抽取10名女生,根据测量数据的散点图可以看出y与x之间具
有线性相关关系,设其经验回归方程为=x+.已知xi=1 600, yi=460,=0.85.若该班某女生的身高为170 cm,则估计其体重为_____ kg.
54.5
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
=xi=160,=yi=46,
故46=0.85×160+,解得=-90,
故经验回归方程为=0.85x-90,则当x=170时,=0.85×170-90=54.5(kg).
15.(多选)小明在家独自用下表分析高三前5次月考中数学的班级排名y与考试次数x的相关性时,忘记了第二次和第四次月考排名,但小明记得平均排名=6,于是分别用m=6和m=8得到了两个经验回归方程:=x+,=x+,对应的样本相关系数分别为r1,r2,排名y对应的方差分别为,,则下列结论正确的是
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
拓广探究
x 1 2 3 4 5
y 10 m 6 n 2
A.r1

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
当m=6时,==3,==6,解得n=6,
则 (xi-)(yi-)=(1-3)×(10-6)+(2-3)×(6-6)+(3-3)×(6-6)+(4-3)×(6-6)+(5-3)×(2-6)=-16,
=(1-3)2+(2-3)2+(3-3)2+(4-3)2+(5-3)2=10,
=(10-6)2+(6-6)2+(6-6)2+(6-6)2+(2-6)2=32,
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
所以===-,
得=-=,
r1==≈-0.89,
==×32=;
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
同理,当m=8时,=-2,=12,
r2=-1,=8,
所以r1>r2,<,>,<.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
16.航班正点率是指航空旅客运输部门在执行运输计划时,航班实际出发时间与计划出发时间较为一致的航班数量与全部航班数量的比率.人们常用航班正点率来衡量一个航空公司的运行效率和服务质量.现随机抽取10家航空公司,对其近一年的航班正点率和顾客投诉次数进行调查,得到数据如表所示:
航空公司编号 1 2 3 4 5 6 7 8 9 10
航班正点率xi/% 82 77 77 76 74 73 71 70 91 69
顾客投诉次数yi/次 21 58 79 68 74 93 72 122 18 125
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
(1)①证明:样本相关系数r=;
航空公司编号 1 2 3 4 5 6 7 8 9 10
航班正点率xi/% 82 77 77 76 74 73 71 70 91 69
顾客投诉次数yi/次 21 58 79 68 74 93 72 122 18 125
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
参考数据:xiyi≈53 620,≈58 150,≈64 810,xi=760,yi=730,×≈71.
参考公式:样本相关系数r=.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
(xi-)(yi-)=(xiyi-xi-yi+)
=xiyi-xi-yi+
=xiyi-xi-yi+
=xiyi-(n)-(n)+n=xiyi-n,
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
在上式中分别用xi,替代yi,=-n,
同理,也有=-n,
故样本相关系数r=.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
②根据以上数据计算样本相关系数(结果保留2位小数),并由此推断顾客投诉次数与航班正点率之间的线性相关程度(若0.8≤|r|≤1,则认为线性相关程度很强;若0.3≤|r|<0.8,则认为线性相关程度一般;若|r|<0.3,则认为线性相关程度很弱);
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
参考数据:xiyi≈53 620,≈58 150,≈64 810,xi=760,yi=730,×≈71.
参考公式:样本相关系数r=.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
可知=xi=76,=yi=73.
∴xiyi-10≈53 620-10×76×73=-1 860,-10≈58 150-10×762=390,
-10≈64 810-10×732=11 520,
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
∴r=≈=≈-≈-0.87,
故顾客投诉次数与航班正点率之间的线性相关程度很强.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
(2)用一元线性回归模型对上表中的样本数据进行拟合,得到顾客投诉次数关于航班正点率的经验回归方程为=-5x+.现有一家航空公司拟通过加强内部管理来减少由于公司自身原因引起的航班延误次数,并希望一年内收到的顾客投诉不超过73次,试估计该公司的航班正点率至少应达到多少?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
=5+=5×76+73=453,
令=-5x+453≤73,得x≥76.
即该公司的航班正点率至少应达到76%.第1课时 一元线性回归模型及其参数的最小二乘估计
[学习目标] 1.了解最小二乘原理,掌握一元线性回归模型参数的最小二乘估计方法,建立一元线性回归模型进行预测.2.了解随机误差、残差、残差图的概念.3.会通过残差分析一元线性回归模型的拟合效果.
一、一元线性回归模型
生活经验告诉我们,儿子的身高与父亲的身高具有正相关的关系,为了进一步研究两者之间的关系,有人调查了某所高校14名男大学生的身高及其父亲的身高,得到的数据如表所示:
编号 1 2 3 4 5 6 7
父亲身高/cm 174 170 173 169 182 172 180
儿子身高/cm 176 176 170 170 185 176 178
编号 8 9 10 11 12 13 14
父亲身高/cm 172 168 166 182 173 164 180
儿子身高/cm 174 170 168 178 172 165 182
我们画出散点图(课本105页图8.2-1)并通过计算得到样本相关系数r≈0.886.
问题1 由样本相关系数可以得到什么结论?
问题2 这两个变量之间的关系可以用函数模型来刻画吗?
知识梳理
一元线性回归模型:我们称
为Y关于x的            模型,其中,Y称为      或        ,x称为      或        ;a和b为模型的未知参数,a称为    参数,b称为    参数;e是Y与bx+a之间的        .
例1 判断下列变量间哪些能用函数模型刻画,哪些能用回归模型刻画?
(1)某公司的销售收入和广告支出;
(2)某城市写字楼的出租率和每平方米月租金;
(3)航空公司的顾客投诉次数和航班正点率;
(4)某地区的人均消费水平和人均国内生产总值(GDP);
(5)学生期末考试成绩和考前用于复习的时间;
(6)一辆汽车在某段路程中的行驶速度和行驶时间;
(7)正方形的面积与周长.
反思感悟 在函数关系中,变量X对应的是变量Y的确定值,而在相关关系中,变量X对应的是变量Y的概率分布.换句话说,相关关系是随机变量之间或随机变量与非随机变量之间的一种数量依存关系,对于这种关系,通常运用统计方法进行研究.通过对相关关系的研究又可以总结规律,从而指导人们的生活与生活实践.
跟踪训练1 若某地财政收入x与支出y满足一元线性回归模型y=bx+a+e(单位:亿元),其中b=0.7,a=3,|e|≤0.5,如果今年该地区财政收入为10亿元,年支出预计不会超过 (  )
A.9亿元 B.9.5亿元
C.10亿元 D.10.5亿元
二、最小二乘法和经验回归方程
问题3 在一元线性回归模型中,表达式Y=bx+a+e刻画的是变量Y与x之间的线性相关关系,其中参数a和b未知,确定参数a和b的原则是什么?
知识梳理
最小二乘法:我们将=x+称为Y关于x的            ,也称经验回归函数或经验回归公式,其图形称为经验回归直线.这种求经验回归方程的方法叫做         ,求得的,叫做b,a的          ,
其中==,
=-.
例2 (1)某单位为了了解办公楼用电量y(度)与气温x(℃)之间的关系,随机统计了四个工作日的用电量与当天平均气温,并制作了对照表:
气温x(℃) 18 13 10 -1
用电量y(度) 24 34 38 64
由表中数据得到经验回归方程=-2x+,则当气温为-3 ℃时,预测用电量为 (  )
A.68度 B.66度 C.28度 D.12度
(2)某商场为了迎接暑期旅游旺季,确定暑期营销策略,进行了投入促销费用x和商场实际销售额y的试验,得到如下四组数据.
投入促销 费用x(万元) 2 3 5 6
商场实际销 售额y(万元) 100 200 300 400
①画出上述数据的散点图,并据此判断两个变量是否具有较强的线性相关关系;
②求出x,y之间的经验回归方程=x+;
③若该商场计划实际销售额不低于600万元,则至少要投入多少万元的促销费用?
参考公式:=,=-.
反思感悟 求经验回归方程的步骤
(1)算:计算,,, xiyi.
(2)代:代入公式计算,的值.
(3)写:写出经验回归方程.
跟踪训练2 (1)若根据变量x与y的对应关系(如表),求得y关于x的经验回归方程为=6.5x+17.5,则表中m的值为 (  )
x 2 4 5 6 8
y 30 40 m 50 70
A.60 B.55 C.50 D.45
(2)重楼,中药名,具有清热解毒、消肿止痛、凉肝定惊之功效,具有极高的药用价值.近年来,随着重楼的药用潜力被不断开发,野生重楼资源已经满足不了市场的需求,巨大的经济价值提升了家种重楼的热度,某机构统计了近几年某地家种重楼年产量y(单位:吨),统计数据如表所示.
年份 2016 2017 2018 2019 2020 2021 2022
年份代码x 1 2 3 4 5 6 7
年产量y/吨 130 180 320 390 460 550 630
①根据表中的统计数据,求出y关于x的经验回归方程;
②根据①中所求方程预测2025年该地家种重楼的年产量.
附:经验回归方程=x+中斜率和截距的最小二乘估计公式分别为==,=-.
三、线性回归分析
问题4 如果给出了两个模型,那么如何比较这两个模型的拟合效果?
知识梳理
1.残差:对于响应变量Y,通过观测得到的数据称为      ,通过经验回归方程得到的称为      ,      减去      所得的差称为残差.
2.残差分析:    是随机误差的估计结果,通过对    的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为        .
3.残差平方和法
残差平方和(yi-)2越    ,模型的拟合效果越好.
4.决定系数R2法
可以用R2=1-来比较两个模型的拟合效果,R2越    ,模型的拟合效果越    ,R2越    ,模型的拟合效果越    .
例3 (1)(多选)对变量y和x的一组成对样本数据(x1,y1),(x2,y2),…,(xn,yn)进行回归分析,建立回归模型,则 (  )
A.残差平方和越大,模型的拟合效果越好
B.在做线性回归分析时,残差图中残差点分布的带状区域的宽度越窄表示回归效果越好
C.用决定系数R2来刻画回归效果,R2越小,说明模型的拟合效果越好
D.若y和x的样本相关系数r=-0.95,则y和x之间具有很强的负线性相关关系
(2)假定小麦基本苗数x与成熟期有效穗y之间存在线性相关关系,今测得5组数据如下表:
x 15.0 25.8 30.0 36.6 44.4
y 39.4 42.9 42.9 43.1 49.2
并由最小二乘法计算得经验回归方程为=0.29x+34.7.
①计算各组残差,并计算残差平方和;
②求R2.
参考数据:(yi-)2=50.18.
反思感悟 刻画回归效果的三种方法
(1)残差图法:残差点比较均匀地落在水平带状区域内说明选用的模型比较合适.
(2)残差平方和法:残差平方和(yi-)2越小,模型的拟合效果越好.
(3)决定系数R2法:R2=1-越接近1,表明模型的拟合效果越好.
跟踪训练3 已知某种商品的价格x(单位:元)与需求量y(单位:件)之间的关系有如下一组数据:
x 14 16 18 20 22
y 12 10 7 5 3
求y关于x的经验回归方程,并借助残差平方和及R2说明回归模型拟合效果的好坏.
参考公式及数据:=,=-,
=1 660, xiyi=620.
1.知识清单:
(1)一元线性回归模型.
(2)最小二乘法、经验回归方程的求法.
(3)线性回归分析:残差图法、残差平方和法和R2法.
2.方法归纳:数形结合、转化化归.
3.常见误区:混淆残差图法、残差平方和法和R2法的概念,导致刻画回归效果出错.
1.根据如下样本数据,得到经验回归方程为=x+,则 (  )
x 4 5 6 7 8 9
y 5.0 3.5 0.5 1.5 -1.0 -2.0
A.>0,>0 B.>0,<0
C.<0,>0 D.<0,<0
2.(多选)已知变量y与x具有线性相关关系,统计得到6组数据如下表:
x 2 4 7 10 15 22
y 8.1 9.4 12 14.4 18.5 24
若y关于x的经验回归方程为=0.8x+,则 (  )
A.变量y与x之间正相关
B.=14.4
C.=6.8
D.当x=12时,y的估计值为15.6
3.某车间为了提高工作效率,需要测试加工零件所花费的时间,为此进行了5次试验,这5次试验的数据列(个数x,加工时间y)为:(10,62),(20,a),(30,75),(40,81),(50,89).若用最小二乘法求得其经验回归方程为=0.67x+54.9,则a的值为    .
4.下表是某饮料专卖店一天卖出奶茶的杯数y与当天气温x(单位:°C)的对比表,已知由表中数据计算得到y关于x的经验回归方程为=x+27,则相应于点(10,20)的残差为   .
气温x/°C 5 10 15 20 25
杯数y 26 20 16 14 14
答案精析
问题1 通过样本相关系数可知儿子的身高与父亲的身高正线性相关,且相关程度较高.
问题2 不能.因为这两个变量之间不是函数关系,也就不能用函数模型刻画.
知识梳理
一元线性回归 因变量 响应变量 自变量 解释变量 截距 斜率 随机误差
例1 解 (1)(2)(3)(4)(5)回归模型,(6)(7)函数模型.
跟踪训练1 D [因为财政收入x与支出y满足一元线性回归模型y=bx+a+e,其中b=0.7,a=3,
所以y=0.7x+3+e.
当x=10时,得y=0.7×10+3+e=10+e,
又|e|≤0.5,即-0.5≤e≤0.5,所以9.5≤y≤10.5,
所以年支出预计不会超过10.5亿元.]
问题3 使表示成对样本数据的这些散点在整体上与一条适当的直线尽可能地接近.
知识梳理
经验回归方程 最小二乘法 最小二乘估计
例2 (1)B [由表中数据可知==10,
==40,
所以经验回归直线=-2x+过点(10,40),
即40=-2×10+,得=60,
则经验回归方程为=-2x+60,
当x=-3时,=-2×(-3)+60=66.]
(2)解 ①散点图如图所示.
从散点图上可以看出两个变量具有较好的线性相关关系.
②因为==4,
==250,
xiyi=2×100+3×200+5×300+6×400=4 700,
=22+32+52+62=74,
所以===70,
=-=250-70×4=-30.
故所求的经验回归方程为=70x-30.
③由题意得70x-30≥600,即x≥=9,
所以若该商场计划实际销售额不低于600万元,则至少要投入9万元的促销费用.
跟踪训练2 (1)A [由表中数据,
得=×(2+4+5+6+8)=5,
=×(30+40+m+50+70)=38+,因为经验回归直线=6.5x+17.5过点,
所以38+=6.5×5+17.5,解得m=60.]
(2)解 ①由表格数据,
得==4,
==380,
xiyi=1×130+2×180+3×320+4×390+5×460+6×550+7×630=13 020,
=1+4+9+16+25+36+49=140,
则===85,
所以=-=380-85×4=40,
所以y关于x的经验回归方程为=85x+40.
②由题可知,2025年的年份代码为10,即x=10,
将x=10代入经验回归方程,
得=85×10+40=890,
所以预测2025年该地家种重楼的年产量为890吨.
问题4 残差图、残差平方和、决定系数.
知识梳理
1.观测值 预测值 观测值 预测值
2.残差 残差 残差分析
3.小
4.大 好 小 差
例3 (1)BD [因为残差平方和越小,模型的拟合效果越好,故A错误;
在做线性回归分析时,残差图中残差点分布的带状区域的宽度越窄表示回归效果越好,故B正确;
因为决定系数R2越接近1,说明模型的拟合效果越好,故C错误;
由样本相关系数为负且接近-1,可知y和x之间具有很强的负线性相关关系,故D正确.]
(2)解 ①由=xi+,
可以算得=yi-分别为=0.35,
=0.718,=-0.5,
=-2.214,=1.624,
残差平方和为≈8.43.
② (yi-)2=50.18,
故R2≈1-≈0.832.
跟踪训练3 解 =×(14+16+18+20+22)=18,
=×(12+10+7+5+3)=7.4,
所以===-1.15,
=7.4+1.15×18=28.1,
所以所求经验回归方程是=-1.15x+28.1.
列出残差表为
i- 0 0.3 -0.4 -0.1 0.2
yi- 4.6 2.6 -0.4 -2.4 -4.4
所以 (yi-)2=0.3, (yi-)2=53.2,
R2=1-≈0.994,
所以回归模型的拟合效果很好.
随堂演练
1.B [根据表中数据可知,随着x的增加y减小,故y与x是负相关,故经验回归直线的斜率为负,故<0;再结合散点图以及直线的性质,根据x=4,5,6,7时y均为正可知经验回归直线与y轴的截距为正,故>0.]
2.AB [由y关于x的经验回归方程=0.8x+,可知变量y与x之间正相关,故A正确;
由表中数据可知==10,
==14.4,
故B正确;
又经验回归直线过点(,),将其代入=0.8x+可得=14.4-0.8×10=6.4,故C错误;
因此,y关于x的经验回归方程为=0.8x+6.4,将x=12代入可得,=0.8×12+6.4=16,
即当x=12时,y的估计值为16,故D错误.]
3.68
解析 根据题意可得,
=×=30,
=×=61.4+.
又经验回归直线经过点(,),
故可得61.4+=0.67×30+54.9,
解得a=68.
4.-1
解析 ==15,
==18,
代入经验回归方程=x+27得18=15+27,
解得=-0.6,
则经验回归方程为=-0.6x+27.
所以相应于点(10,20)的残差为20-(-0.6×10+27)=-1.

展开更多......

收起↑

资源列表