8.2.1一元线性回归模型 导学案(含解析) 高中数学人教A版(2019)选择性必修第三册

资源下载
  1. 二一教育资源

8.2.1一元线性回归模型 导学案(含解析) 高中数学人教A版(2019)选择性必修第三册

资源简介

8.2.1一元线性回归模型 导学案
学习目标
1.结合实例,了解一元线性回归模型的含义,了解模型参数的统计意义
2.了解最小二乘原理,掌握一元线性回归模型参数的最小二乘估计方法.
3.针对实际问题,会用一元线性回归模型进行预测.
重点难点
1.重点:一元线性回归模型的概念,随机误差的概念,表示与假设.
2.难点:回归模型与函数模型的区别,随机误差产生的原因与影响.
课前预习 自主梳理
知识点一 一元线性回归模型称为Y关于x的一元线性回归模型.其中Y称为因变量或响应变量,x称为自变量或解释变量,a称为截距参数,b称为斜率参数;e是Y与bx+a之间的随机误差,如果e=0,那么Y与x之间的关系就可以用一元线性函数模型来描述.
知识点二 最小二乘法
将=x+称为Y关于x的经验回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线,这种求经验回归方程的方法叫做最小二乘法,求得的,叫做b,a的最小二乘估计,其中,=-.
知识点三 残差与残差分析
1.残差
对于响应变量Y,通过观测得到的数据称为观测值,通过经验回归方程得到的称为预测值,观测值减去预测值称为残差.
2.残差分析
残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.
知识点四 对模型刻画数据效果的分析
1.残差图法
在残差图中,如果残差比较均匀地集中在以横轴为对称轴的水平带状区域内,则说明经验回归方程较好地刻画了两个变量的关系.
2.残差平方和法
残差平方和越小,模型的拟合效果越好.
3.R2法
可以用R2=1-来比较两个模型的拟合效果,
R2越大,模型拟合效果越好,R2越小,模型拟合效果越差.
自主检测
1.判断正误,正确的写正确,错误的写错误.
(1)求经验回归方程前可以不进行相关性检验.( )
(2)在残差图中,纵坐标为残差,横坐标可以选为样本编号.( )
(3)利用经验回归方程求出的值是准确值.( )
(4)残差平方和越小,线性回归模型的拟合效果越好.( )
(5)越小,线性回归模型的拟合效果越好.( )
(6)经验回归方程一定过样本中的某一个点.( )
(7)选取一组数据中的部分点得到的经验回归方程与由整组数据得到的经验回归方程是同一个方程.( )
(8)在经验回归模型中,越接近于1,表示解释变量和响应变量的线性相关性越强.( )
(9)在画两个变量的散点图时,响应变量在轴上,解释变量在轴上.( )
2.已知变量x和y的统计数据如下表:
3 4 5 6 7
2.5 3 4 4.5 6
根据上表可得回归直线方程为,据此可以预测当x=10时,则y的估计值为( )
A.8.25 B.8.5 C.9.25 D.9.5
3.已知的取值如下表:
0 1 3 4
与线性相关,且线性回归直线方程为,则=( )
A. B. C. D.
4.我国某汽车生产的新能源电动车于2020年11月上市,现将调查得到的该新能源电动车上市时间和市场占有率(单位:%)的几组相关对应数据标在如图所示的折线图中,图中横坐标代表2020年11月,代表2020年12月,…,代表2021年3月.若根据此数据得出关于的线性回归方程为,那么为( )
A. B. C. D.
5.某学校一同学研究温差与本校当天新增感冒人数人的关系,该同学记录了天的数据:
经过拟合,发现基本符合经验回归方程,则( )
A.样本中心点为
B.
C.时,残差为
D.若去掉样本点,则样本的相关系数增大
新课导学
学习探究
环节一 创设情境,引入课题
问题1如何求经验回归方程?
提示:求经验回归方程的一般步骤如下:
(1)画出散点图,依据问题所给的数据在平面直角坐标系中描点,观察点的分布是否呈条状分布,即是否在一条直线附近,从而判断两变量是否具有线性相关关系;
(2)当两变量具有线性相关关系时,求系数的最小二乘估计书",写出经验回归方程;
(3)进行残差分析,分析模型的拟合效果,不合适时,分析错因,予以纠正.
【师生互动】教师让学生举手回答问题,并及时给予纠正.
【设计意图】复习上节课所学知识,为本节课解决与线性回归分析有关的实际问题做好铺垫.
通过前面的学习,我们已经了解到,根据成对样本数据的散点图和样本相关系数,可以推断两个变量是否存在相关关系、是正相关还是负相关,以及线性相关程度的强弱等.进一步地,如果能像建立函数模型刻画两个变量之间的确定性关系那样,通过建立适当的统计模型刻画两个随机变量的相关关系,那么我们就可以利用这个模型研究两个变量之间的随机关系,并通过模型进行预测.
下面我们研究当两个变量线性相关时,如何利用成对样本数据建立统计模型,并利用模型进行预测的问题.
通过前面的学习我们已经了解到,根据成对样本数据的散点图和样本相关系数,可以推断两个变量是否存在相关关系、是正相关还是负相关,以及线性相关程度的强弱等.进一步地,如果能像建立函数模型刻画
两个变量之间的确定性关系那样,通过建立适当的统计模型刻画两个随机变量的相关关系,那么我们就可以利用这个模型研究两个变量之间的随机关系,并通过模型进行预测.
下面我们研究当两个变量线性相关时,如何利用成对样本数据建立统计模型,并利用模型进行预测的问题.
生活经验告诉我们,儿子的身高与父亲的身高不仅线性相关,而且还是正相关,即父亲的身高较高时,儿子的身高通常也较高.
为了进一步研究两者之间的关系,有人调查了14名男大学生的身高及其父亲的身高,得到的数据如表8.2-1所示.
表8.2-1
编号 1 2 3 4 5 6 7 8 9 10 11 12 13 14
父亲身高/cm 174 170 173 169 182 172 180 172 168 166 182 173 164 180
儿子身高/cm 176 176 170 170 185 176 178 174 170 168 178 172 165 182
问题2 由这组样本数据能否推断儿子的身高与父亲的身高有关系?关系的相关程度如何?是函数关系还是线性相关关系?为什么?
学生活动 要求学生整理和表示数据,通过分小组合作完成.以横轴表示父亲的身高,纵轴表示儿子的身高,建立平面直角坐标系,再将表中的成对样本数据表示为散点图.然后根据散点图作解读,回答问题.
环节二 观察分析,感知概念
利用前面表示数据的方法,以横轴表示父亲身高、纵轴表示儿子身高建立直角坐标系,再将表8.2-1中的成对样本数据表示为散点图,如图8.2-1所示.可以发现,散点大致分布在一条从左下角到右上角的直线附近,表明儿子身高和父亲身高线性相关.利用统计软件,求得样本相关系数为,表明儿子身高和父亲身高正线性相关,且相关程度较高.
追问1:儿子身高和父亲身高这两个变量之间的关系可以用函数模型刻画吗?
【设计意图】通过一个具体案例,对前面学习的内容做系统回顾,同时又可以作为探究一元线性回归模型的例子.
思考:根据表8.2-1中的数据,儿子身高和父亲身高这两个变量之间的关系可以用函数模型刻画吗?
在表8.2-1的数据中,存在父亲身高相同而儿子身高不同的情况例如,第6个和第8个观测的父亲身高均为172 cm,而对应的儿子身高分别为176 cm和174 cm;同样,第3,4两个观测中,儿子身高都是170 cm,而父亲身高分别为173 cm和169 cm.可见儿子身高和父亲身高之间不是函数关系,也就不能用函数模型刻画图8.2-1中的散点大致分布在一条直线附近,表明儿子身高和父亲身高这两个变量之间有较强的线性相关关系,因此我们可以用一次函数来刻画父亲身高对儿子身高的影响,而把影响儿子身高的其他因素,如母亲身高、生活环境、饮食习惯等作为随机误差,得到刻画两个变量之间关系的线性回归模型其中,随机误差是一个随机变量.
【设计意图】既复习函数概念,又明确了对于俩个相关变量间的关系不能使用函数模型研究.
环节三 抽象概括,形成概念
问题3从成对样本数据的散点图和样本相关系数可以发现,散点大致分布在一条从左下角到右上角直线附近,表明儿子身高和父亲身高有较强的线性关系,我们可以这样理解,由于有其他因素的存在,使得儿子身高和父亲身高有关系但不是函数关系.那么请你说说影响儿子身高的其他因素是什么?
【师生互动】 通过组织学生讨论问题,形成以下主要结论:影响儿子身高的因素,除父亲的身高外,还有母亲的身高、生活的环境、饮食习惯、营养水平、体育锻炼等随机的因素,儿子身高不是父亲身高的函数的原因是存在这些随机的因素.
【设计意图】找出父亲身高和儿子身高不能用函数模型刻画的原因.
用x表示父亲身高,Y表示儿子身高,e表示随机误差.假定随机误差e的均值为0,方差为与父亲身高无关的定值,则它们之间的关系可以表示为
(1)
为什么假设,而不假设其为某个不为0的常数?
环节四 辨析理解 深化概念
我们称(1)式为Y关于x的一元线性回归模型(simple linear regression model).其中,Y称为因变量或响应变量,x称为自变量或解释变量;a和b为模型的未知参数,a称为截距参数,b称为斜率参数;e是Y与bx+a之间的随机误差,模型中的Y也是随机变量,其值虽然不能由变量x的值确定,但是却能表示为bx+a与e的和(叠加),前一部分由x所确定,后一部分是随机的.如果e=0,那么Y与x之间的关系就可用一元线性函数模型来描述.
问题4 如何理解随机误差对儿子身高的影响?
【师生互动】教师指出,如果用表示父亲身高,表示儿子的身高,用表示各种其他随机因素影响之和,称为随机误差,由于儿子身高与父亲身高线性相关,假设没有随机误差,则儿子身高只受父亲身高影响,则 ,事实上,相关系数 ,故 ,
也可以记作 .
【设计意图】理解影响儿子身高的因素,并用数学语言刻画它们之间的关系.
环节五 概念应用,巩固内化
问题5 一元线性回归模型有何作用
对于父亲身高x和儿子身高Y的一元线性回归模型(1),可以解释为父亲身高为的所有男大学生的身高组成一个子总体,该子总体的均值为,即该子总体的均值与父亲身高是线性函数关系.而对于父亲身高为的某一名男大学生,他的身高并不一定为,它仅是该子总体中的一个观测值,这个观测值与均值有一个误差项.
【师生互动】教师引导学生分析问题,并适时指出:当父亲身高为时可以通过了解儿子身高的总体情况,从而预测儿子的身高.
【设计意图】通过具体实例,使学生了解一元线性回归模型的作用.
问题6随机误差有哪些特征?
【设计意图】通过具体实例,加深学生对一元线性回归模型的理解.
思考:你能结合具体实例解释产生模型(1)中随机误差项的原因吗?
在研究儿子身高与父亲身高的关系时,产生随机误差e的原因有:
(1)除父亲身高外,其他可能影响儿子身高的因素,比如母亲身高、生活环境、饮食习惯和锻炼时间等;
(2)在测量儿子身高时,由于测量工具、测量精度所产生的测量误差;
(3)实际问题中,我们不知道儿子身高和父亲身高的相关关系是什么,可以利用一元线性回归模型来近似这种关系,这种近似也是产生随机误差e的原因.
【设计意图】了解随机误差特征,虽然单个随机误差是无法预先设定的,但是随机误差的总体可以定量刻画.
环节六 归纳总结,反思提升
1. 本节课学习的概念有哪些?
(1)一元线性回归模型.
(2)最小二乘法、经验回归方程的求法.
(3)对模型刻画数据效果的分析:残差图法、残差平方和法和R2法.
2. 在解决问题时,用到了哪些数学思想?.
数形结合、转化化归.
3.常见误区:不判断变量间是否具有线性相关关系,盲目求解经验回归方程致误.
师生活动:要求学生思考后回答并相互补充,教师进行总结.
【设计意图】帮助学生进一步厘清一元线性回归模型的含义,掌握用数学语言表达随机事件,了解总体参数与样本数据之间的关系.
环节七 目标检测,作业布置
完成教材:教科书第107页练习第1,2,3题.
备用练习
6.已知回归方程,则( )
A. B.15是回归系数
C.1.5是回归系数 D.当时,的准确值为
7.某单位为了解用电量(度)与气温之间的关系,随机统计了某4天的用电量与当天气温,并制作了对照表:
气温 18 13 10
用电量(度) 24 34 38 64
由表中数据得线性回归方程中,预测当温度为时,用电量的度数约为
A.64 B.66 C.68 D.70
8.党的十九大报告中指出:从2020年到2035年,在全面建成小康社会的基础上,再奋斗15年,基本实现社会主义现代化.若到2035年底我国人口数量增长至14.4亿,由2013年到2019年的统计数据可得国内生产总值()(单位:万亿元)关于年份代号的回归方程为,由回归方程预测我国在2035年底人均国内生产总值(单位:万元)约为( )
A.14.04 B.202.16 C.13.58 D.14.50
9.已知回归直线的斜率的估计值为1.23,样本点的中心为(4,5),则回归直线方程为( )
A. B. C. D.
10.以下关于线性回归的判断,正确的个数是(  )
①若散点图中所有点都在一条直线附近,则这条直线为回归直线;
②散点图中的绝大多数都线性相关,个别特殊点不影响线性回归,如图中的点;
③已知直线方程为,则时,的估计值为11.69;
④回归直线方程的意义是它反映了样本整体的变化趋势.
A.0 B.1 C.2 D.3
试卷第1页,共3页
试卷第1页,共3页
参考答案:
1. 错误 正确 错误 正确 错误 错误 错误 正确 错误
【分析】由线性回归方程的相关知识点,逐一判断,即可得到结果.
【详解】(1)求经验回归方程前需要进行相关性检验,故错误;
(2)在残差图中,纵坐标为残差,横坐标可以选为样本编号,故正确;
(3)利用经验回归方程求出的值是预测估值,故错误;
(4)残差平方和越小,线性回归模型的拟合效果越好,故正确;
(5)由的意义可知,越小,线性回归模型的拟合效果越差,故错误;
(6)经验回归方程一定过点,可能过样本中的某个点,也可能不过样本中的任意一个点,故错误;
(7)选取一组数据中的部分点得到的经验回归方程与由整组数据得到的经验回归方程不一定是同一个方程,故错误;
(8)由的意义可知,越接近于1,解释变量和响应变量的线性相关性越强,故正确;
(9)在画两个变量的散点图时,解释变量在轴上,响应变量在轴上,故错误;
2.A
【分析】由题意计算出,代入回归方程可求出,再令,即可求出y的估计值.
【详解】由题意知,
得将点代入,解得,
所以当时,,
故选:A.
3.B
【分析】先求出样本中心,根据线性回归直线方程过样本中心可得答案.
【详解】由题意可得
所以样本中心为
线性回归直线方程为过点
所以,解得
故选:B
4.A
【分析】解出样本中心点,代入方程即可解得.
【详解】,,将代入到线性回归方程得:.
故选:A.
5.ABC
【分析】先求得样本中心点,然后求得,再根据残差、相关系数等知识确定正确答案.
【详解】,
所以样本中心点为,则,所以AB选项正确,
则,当时,,
对应残差为,所以C选项正确.
由于,,则,
所以若去掉样本点,则样本的相关系数不变.D选项错误.
故选:ABC
6.A
【分析】根据回归直线经过样本点中心,可知A正确;根据,可知BC都不正确;由求出的是预报值,可知D不正确.
【详解】根据回归直线经过样本点中心,可得,故A正确;
其中,故BC都不正确;
当时,的预报值为,故D不正确.
故选:A
7.D
【分析】由题意先求出回归方程,再将代入回归方程,即可求出结果.
【详解】由已知,,将其代入回归方程得,故回归方程为,当时,,选D.
【点睛】本题主要考查回归直线方程,由回归直线必然过样本中心即可求回归直线的方程,属于基础题型.
8.A
【分析】先求出2035年对应的年份代号的值代入回归方程可得2035年底国内生产总值,再除以人口数量14.4亿即可求解.
【详解】根据题意可得2035年底对应的,
将代入可得:万亿元,
所以我国在2035年底人均国内生产总值约为万元,
故选:A.
9.C
【分析】设回归直线方程为,根据回归直线必过样本中心,求.
【详解】由回归直线的斜率的估计值为1.23,
设回归直线方程为,代入 ,
,解得: ,
回归直线方程是.
故选:C
【点睛】本题考查回归直线方程,意在考查基本公式和计算,属于简单题型.
10.D
【分析】利用线性回归方程的概念及意义对结论逐一判断.
【详解】对于①,能使所有数据点都在一条直线附近的直线不止一条,只有按最小二乘法求得回归系数得到的直线才是回归方程,故①错误,
对于②,散点图中的绝大多数点都线性相关,个别特殊点不会影响线性回归,故②正确;
对于③,将代入得,故③正确,
对于④,散点图中所有点都在回归直线的附近,因此回归直线方程反映了样本整体的变化趋势,故④正确;
综上所述,正确的有3个.
故选:D
答案第1页,共2页
答案第1页,共2页

展开更多......

收起↑

资源预览