资源简介 8.2.2 一元线性回归模型参数的最小二乘估计导学案学习目标1.进一步掌握一元线性回归模型参数的统计意义,会用相关统计软件.2.了解非线性回归模型.3.会通过分析残差和利用R2判断回归模型的拟合效果.重点难点1.重点:一元线性回归模型的基本思想,经验回归方程,最小二乘法.2.难点:求最小二乘估计,残差分析.课前预习 自主梳理1.残差的概念对于响应变量Y,通过观测得到的数据称为观测值,通过经验回归方程得到的称为预测值,观测值减去预测值称为残差.残差是随机误差的估计结果,通过残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.2.刻画回归效果的方式(1)残差图法作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据,或体重估计值等,这样作出的图形称为残差图.若残差点比较均匀地落在水平的带状区域内,带状区域越窄,则说明拟合效果越好.(2)残差平方和法残差平方和(yi-i)2,残差平方和越小,模型拟合效果越好,残差平方和越大,模型拟合效果越差.(3)利用R2刻画回归效果决定系数R2是度量模型拟合效果的一种指标,在线性模型中,它代表解释变量客户预报变量的能力.R2=1-,R2越大,即拟合效果越好,R2越小,模型拟合效果越差.自主检测1.判断正误,正确的写“正确”,错误的写“错误”.(1)两个变量之间产生随机误差的原因仅仅是因为测量工具产生的误差.( )(2)线性回归方程最能代表观测值x,y之间的线性关系,且回归直线过样本点的中心.( )2.某地为响应“扶贫必扶智,扶智就扶知识、扶技术、扶方法”的号召,建立了农业科技图书馆,供农民免费借阅.现收集了该图书馆五年的借阅数据如下表:年份 2016 2017 2018 2019 2020年份代码x 1 2 3 4 5年借阅量y(万册) 4.9 5.1 5.5 5.7 5.8根据上表,可得y关于x的线性回归方程为,则下列说法中错误的是( ).A.B.借阅量4.9,5.1,5.5,5.7,5.8的第75百分位数为5.7C.y与x的线性相关系数D.2021年的借阅量一定少于6.12万册3.某单位为了解用电量度与气温之间的关系,随机统计了某4天的用电量与当天气温,并制作了对照表,如下表,由表中数据得回归直线方程中,预测当气温为时,用电量的度数是( )气温() 20 16 12 4用电量(度) 14 28 44 62A.70 B.6.8 C.64 D.624.具有线性相关关系的变量有一组观测数据,其回归直线方程是,若,则实数的值为( )A. B. C. D.5.已知与之间的一组数据:1 2 3 40.5 3.2 4.8 7.5若关于的线性回归方程为,则的值为( )A.1.25 B.-1.25 C.1.65 D.-1.65新课导学学习探究环节一 创设情境,引入课题在一元线性回归模型中,表达式刻画的是变量Y与变量x之间的线性相关关系,其中参数a和b未知,需要根据成对样本数据进行估计.由模型的建立过程可知,参数a和b刻画了变量Y与变量x的线性关系,因此通过成对样本数据估计这两个参数,相当于寻找一条适当的直线,使表示成对样本数据的这些散点在整体上与这条直线最接近.问题1:从成对样本数据出发,如何用数学的方法刻画“从整体上看,各散点与直线最接近”?思路1:先画出一条直线,测量出各点到直线的距离,然后移动直线,到达一个使距离的和最小的位置,测量出此时的斜率和截距,就得到一条直线.问题2.我们怎样寻找一条“最好”的直线,使得表示成对样本数据的这些散点在整体上与这条直线最“接近”?探究:利用散点图8.2-1找出一条直线,使各散点在整体上与此直线尽可能接近.有的同学可能会想,可以采用测量的方法,先画出一条直线,测量出各点与它的距离,然后移动直线,到达一个使距离的和最小的位置,测量出此时的斜率和截距,就可得到一条直线,如图8.2-2所示.思路2:可以在散点图中选两点画一条直线,使得直线两侧点的个数基本相同,把这条直线作为所求直线.有的同学可能会想,可以在图中选择这样的两点画直线,使得直线两侧的点的个数基本相同,把这条直线作为所求直线,如图8.2-3所示.思路3:在散点图中多取几对点,确定出几条直线,再分别求出这些直线的斜率、截距的平均数作为所求直线的斜率和截距.还有的同学会想,在散点图中多取几对点,确定出几条直线的方程,再分别求出这些直线的斜率、截距的平均数,将这两个平均数作为所求直线的斜率和截距如图8.2-4所示.同学们不妨去实践一下,看看这些方法是不是真的可行.环节二 观察分析,感知概念上面这些方法虽然有一定的道理,但比较难操作,我们需要另辟蹊径先进一步明确我们面临的任务:从成对样本数据出发,用数学的方法刻画“从整体上看,各散点与直线最接近”.通常,我们会想到利用点到直线的“距离”来刻画散点与该直线的接近程度,然后用所有“距离”之和刻画所有样本观测数据与该直线的接近程度我们设满足一元线性回归模型的两个变量的对样本数据为,,…,,由,得.显然越小,表示点与点的“距离”越小,即样本数据点离直线的竖直距离越小,如图8.2-5所示.特别地,时,表示点在这条直线上.因此,可以用这n个竖直距离之和来刻画各样本观测数据与直线的“整体接近程度”.问题3.你能结合具体实例解释产生模型①中随机误差项的原因吗?在实际应用中,因为绝对值使得计算不方便,所以人们通常用各散点到直线的竖直距离的平方之和来刻画“整体接近程度”.在上式中,是已知的成对样本数据,所以Q由a和b所决定,即它是a和b的函数.因为Q还可以表示为,即它是随机误差的平方和,这个和当然越小越好,所以我们取使Q达到最小的a和b的值,作为截距和斜率的估计值.环节三 抽象概括,形成概念问题4:如何求a,b的值,使 最小?下面利用成对样本数据求使Q取最小值的a,b.记,.因为,注意到所以.上式右边各项均为非负数,且前n项与a无关.所以,要使Q取到最小值,后一项的值应为0,即此时.上式是关于b的二次函数,因此要使Q取得最小值,当且仅当b的取值为.综上,当a,b的取值为(2)时,Q达到最小.我们将称为Y关于x的经验回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线.这种求经验回归方程的方法叫做最小二乘法,求得的,叫做b,a的最小二乘估计(least squares estimate).问题5:利用下表的数据,依据用最小二乘估计一元线性回归模型参数的公式,求出儿子身高Y关于父亲身高x的经验回归方程。对于表8.2-1中的数据,利用公式(2)可以计算出,,得到儿子身高Y关于父亲身高x的经验回归方程为,相应的经验回归直线如图8.2-6所示.问题6:当时,.如果一位父亲的身高为176 cm,他儿子长大成人后的身高一定是177 cm吗 为什么 显然不一定,因为还有其他影响儿子身高的因素,父亲身高不能完全决定儿子身高.不过,我们可以作出推测,当父亲身高为176 cm时,儿子身高一般在177 cm左右.实际上,如果把这所学校父亲身高为176 cm的所有儿子身高作为一个子总体,那么177 cm是这个子总体的均值的估计值.这里的经验回归方程,其斜率可以解释为父亲身高每增加1 cm,其儿子身高平均增加0.839 cm.分析模型还可以发现,高个子父亲有生高个子儿子的趋势,但一群高个子父亲的儿子们的平均身高要低于父亲们的平均身高,例如,则;矮个子父亲有生矮个子儿子的趋势,但一群矮个子父亲的儿子们的平均身高要高于父亲们的平均身高,例如,则;英国著名统计学家高尔顿 (F. Galton, 1822—1911)把这种后代的身高向中间值靠近的趋势称为 “回归现象”.后来,人们把由一个变量的变化去推测另一个变量的变化的方法称为回归分析.根据模型,父亲身高为多少时,长大成人的儿子的平均身高与父亲的一样 你怎么看这个判断 在方程,令,解得.表明成年男性的平均身高约为179.857 cm.环节四 辨析理解 深化概念对于响应变量Y,通过观测得到的数据称为观测值,通过经验回归方程得到的y称为预测值,观测值减去预测值称为残差.残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.例如,对于表8.2-1中的第6个观测,父亲身高为172 cm,其儿子身高的观测值为,预测值为,残差为.类似地,可以得到其他的残差,如表8.2-2所示.表8.2-2编号 父亲身高/cm 儿子身高/cm 儿子身高预测值/cm 残差1 174 176 174.943 1.0572 170 176 171.587 4.4133 173 170 174.104 -4.1044 169 170 170.748 -0.7485 182 185 181.655 3.3456 172 176 173.265 2.7357 180 178 179.977 -1.9778 172 174 173.265 0.7359 168 170 169.909 0.09110 166 168 168.231 -0.23111 182 178 181.655 -3.65512 173 172 174.104 -2.10413 164 165 166.553 -1.55314 180 182 179.977 2.023环节五 概念应用,巩固内化问题4:如何判断模型刻画数据的效果?为了使数据更加直观,用父亲身高作为横坐标,残差作为纵坐标,可以画出残差图,如图8.2-7所示观察表8.2-2可以看到,残差有正有负,残差的绝对值最大是4.413.观察残差的散点图可以发现,残差比较均匀地分布在横轴的两边.说明残差比较符合一元线性回归模型的假定,是均值为0、方差为的随机变量的观测值.可见,通过观察残差图可以直观判断模型是否满足一元线性回归模型的假设.一般地,建立经验回归方程后,通常需要对模型刻画数据的效果进行分析.借助残差分析还可以对模型进行改进,使我们能根据改进模型作出更符合实际的预测与决策.问题5:观察以下四幅残差图,你认为哪一个残差满足一元线性回归模型中对随机误差的假定?根据一元线性回归模型中对随机误差的假定,残差应是均值为0、方差为的随机变量的观测值.在图8.2-8中,图(1)显示残差与观测时间有线性关系,应将时间变量纳入模型;图(2)显示残差与观测时间有非线性关系,应在模型中加入时间的非线性函数部分;图(3)说明残差的方差不是一个常数,随观测时间变大而变大图(4)的残差比较均匀地分布在以取值为0的横轴为对称轴的水平带状区域内.可见,在图8.2-8中,只有图(4)满足一元线性回归模型对随机误差的假设.环节六 归纳总结,反思提升1.本节课学习的概念有哪些?(1)一元线性回归模型.(2)最小二乘法.(3)残差.2.在解决问题时,用到了哪些数学思想?思想方法数形结合.环节七 目标检测,作业布置完成教材:教科书第113页练习第2、3题.备用练习6.已知变量x与y且观测数据如下表(其中,),则由该观测的数据算得的线性回归方程可能是( )1 2 3 4 56.5 a 4 b 1A. B. C. D.7.已知,取值如下表:从所得的散点图分析可知:与线性相关,且,则等于A. B. C. D.8.2020年全球经济都受到了新冠疫情的影响,但我国在中国共产党的正确领导下防控及时,措施得当,很多企业的生产所受影响甚微.我国某电子公司于2020年6月底推出了一款领先于世界的5G电子产品.现调查得到该5G产品上市时间和市场占有率(单位:%)的几组相关对应数据.如图所示的折线图中,横轴1代表2020年8月,2代表2020年9月,…,5代表2020年12月,根据数据得出关于的线性回归方程为.若用此方程分析并预测该产品市场占有率的变化趋势,则该产品市场占有率最早何时能超过0.5%(精确到月)( )A.2021年5月 B.2021年6月 C.2021年8月 D.2021年9月9.陕西关中的秦腔表演朴实,粗犷,细腻,深刻,再有电子布景的独有特效,深得观众喜爱.戏曲相关部门特意进行了“喜爱看秦腔”调查,发现年龄段与爱看秦腔的人数比存在较好的线性相关关系,年龄在,,,的爱看人数比分别是0.10,0.18,0.20,0.30.现用各年龄段的中间值代表年龄段,如42代表.由此求得爱看人数比关于年龄段的线性回归方程为.那么,年龄在的爱看人数比为( )A.0.42 B.0.39 C.0.37 D.0.3510.已知与及与的对应数据如下表,且关于的线性回归方程为,则关于的线性回归方程为( )10 20 30 40 5020 30 40 50 70x 1 2 3 4 5y 2 3 4 5 7A. B.C. D.试卷第1页,共3页试卷第1页,共3页参考答案:1. 错误 正确【分析】根据随机误差的概念及线性回归方程可判断结果.【详解】(1)产生随机误差的原因有多种,测量工具仅仅是其中的一个方面,故(1)错误;(2)根据线性回归方程概念可知(2)正确.故答案为:①错误,②正确.2.D【分析】对于A:根据线性回归方程必过样本中心点运算求解;对于B:根据百分位的定义运算求解;对于C:根据相关系数的定义分析判断;对于D:根据回归方程的进行预测.【详解】对于选项A:年份代码x的平均数,年借阅量y的平均数(万册),则,解得,故A正确;对于选项B:因为,所以借阅量的第75百分位数为5.7,故B正确;对于选项C: 因为,所以y与x的线性相关系数,故C正确;对于选项D:由选项A可得:,令,可得,预计2021年的借阅量为6.12万册,但并不能确定具体结果,故D错误;故选:D.3.A【分析】求出的值,进而求得,将代入可得答案.【详解】由图表可得,故,则,将代入可得,即预测当气温为时,用电量的度数是70度,故选:A4.C【分析】先求出样本中心点,再代入回归直线方程,即可求解.【详解】因为,所以,.因为回归直线方程是,所以,即,解得:=.故选:C5.D【分析】根据最小二乘法计算即可求出答案.【详解】解:由表中数据得,,,,所以,,故选:D.6.C【分析】求出样本中心点,结合样本中心点过回归直线方程求解即可.【详解】解:由题知,,由于样本中心点在回归直线上,将依次代入各选项检验只有满足.所以,该观测的数据算得的线性回归方程可能是.故选:C7.B【分析】计算平均数,可得样本中心点,代入线性回归方程,即可求得a的值.【详解】依题意,得(0+1+4+5+6+8)=4,(1.3+1.8+5.6+6.1++7.4+9.3)=5.25.又直线y=0.95x+a必过中心点(),即点(4,5.25),于是5.25=0.95×4+a,解得a=1.45.故选B.【点睛】本题考查线性回归方程,利用线性回归方程恒过样本中心点是关键.8.C【分析】由回归直线必过点求得,再求出使的即可.【详解】由已知,,,∴,∴关于的线性回归方程为,由,且解得,且,∴该产品市场占有率最早在即2021年8月时能超过0.5%.故选:C.9.D【分析】根据题意,可列出关于的表格,求出,代入,求出,即可求解【详解】由题,对数据进行处理,得出如下表格:年龄段 42 47 52 57爱看人数比 0.10 0.18 0.20 0.30求得,,因样本中心过线性回归方程,将代入,得,即,年龄在对应的为,将代入得:,对应的爱看人数比为:0.35故选:D【点睛】本题考查线性回归方程的应用,样本中心过线性回归方程是一个重要特征,属于中档题10.D【分析】由已知可得,,根据表格数据求出,,由公式求出,,进而可得关于的线性回归方程.【详解】由题表知,,,因为关于的线性回归方程为,所以,可得,所以,则,所以关于的线性回归方程为,故选项D正确;故选:D.答案第1页,共2页答案第1页,共2页 展开更多...... 收起↑ 资源预览