资源简介 专题8.3 一元线性回归模型及其应用(重难点题型精讲)1.一元线性回归模型把式子为Y关于x的一元线性回归模型.其中,Y称为因变量或响应变量,x称为自变量或解释变量;a和b为模型的未知参数,a称为截距参数,b称为斜率参数;e是Y与bx+a之间的随机误差.2.线性经验回归方程与最小二乘法设满足一元线性回归模型的两个变量的n对样本数据为(,),(,),,(,),由=+a+(i=1,2,,n),得|-(+a)|= ||,显然||越小,表示样本数据点离直线y=bx+a的竖直距离越小.通常用各散点到直线的竖直距离的平方之和Q=来刻画各样本观测数据与直线y=bx+a的“整体接近程度”.当a,b的取值为时,Q达到最小.将=x+称为Y关于x的经验回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线.这种求经验回归方程的方法叫做最小二乘法,求得的,叫做b,a的最小二乘估计.经验回归直线一定过点(,).3.残差分析对于响应变量Y,通过观测得到的数据称为观测值,通过经验回归方程得到的称为预测值,观测值减去预测值称为残差.残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.4.刻画回归效果的方式(1)残差图法作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据,或体重估计值等,这样作出的图形称为残差图.在残差图中,残差点比较均匀地落在以取值为0的横轴为对称轴的水平带状区域内,说明选用的模型比较合适,这样的带状区域的宽度越窄,说明模型拟合精度越高.(2)残差平方和法残差平方和为,残差平方和越小,模型拟合效果越好.(3)利用刻画拟合效果=.越大,模型的拟合效果越好,越小,模型的拟合效果越差.(1)对于变量x和变量y,设经过随机抽样获得的成对样本数据为(,),(,),,(,),利用相关系数r来衡量两个变量之间线性关系的强弱,相关系数r的计算公式:(其中,,,和,,,的均值分别为和).①当r>0时,称成对样本数据正相关.这时,当其中一个数据的值变小时,另一个数据的值通常也变小;当其中一个数据的值变大时,另一个数据的值通常也变大.②当r<0时,称成对样本数据负相关.这时,当其中一个数据的值变小时,另一个数据的值通常会变大;当其中一个数据的值变大时,另一个数据的值通常会变小.【题型1 一元线性回归模型】【方法点拨】根据一元线性回归模型的定义,结合具体题目条件,进行求解即可.【例1】(2022·高二单元测试)根据如下样本数据,得到线性回归方程为,若样本点的中心为,则当X每增加1个单位时,Y平均( )X 3 4 5 6 7Y 4.0 -0.5 0.5A.增加1.4个单位 B.减少1.4个单位 C.增加7.9个单位 D.减少7.9个单位【解题思路】根据已知条件解出m和n,得到线性回归方程,即可得到答案.【解答过程】样本点的中心为,则,故,且,解得,,则,可知当X每增加1个单位时,Y平均减少1.4个单位.故选:B.【变式1-1】(2022春·黑龙江大庆·高二期末)给出下列说法中错误的是( )A.回归直线恒过样本点的中心B.两个变量相关性越强,则相关系数就越接近1C.某7个数的平均数为4,方差为2,现加入一个新数据4,此时这8个数的方差不变D.在回归直线方程中,当变量x增加一个单位时,平均减少0.5个单位【解题思路】A中,根据回归直线方程的特征,可判定是否正确;B中,根据相关系数的意义,可判定是否正确;C中,根据方差的计算公式,可判定是否正确;D中,根据回归系数的含义,可判定是否正确.【解答过程】对于A中,回归直线恒过样本点的中心,所以正确;对于B中,根据相关系数的意义,可得两个变量相关性越强,则相关系数就越接近1,所以是正确的;对于C中,根据平均数的计算公式可得,根据方差的计算公式,所以是不正确的;对于D中,根据回归系数的含义,可得在回归直线方程中,当解释变量增加一个单位时,预报变量平均减少0.5个单位,所以是正确的.故选:C.【变式1-2】(2022春·河南南阳·高二期中)已知变量x和y的回归直线方程为,变量y与z负相关.下列结论中正确的是( )A.x与y正相关,x与z正相关 B.x与y正相关,x与z负相关C.x与y负相关,x与z负相关 D.x与y负相关,x与z正相关【解题思路】根据变量x和y的回归直线方程判断.【解答过程】解:因为变量x和y的回归直线方程为,且,所以变量x与y正相关,又变量y与z负相关,所以x与z负相关,故选:B.【变式1-3】(2022春·陕西渭南·高一期末)根据如下样本数据:得到线性回归方程为,则( )A. B. C. D.【解题思路】根据与负相关且样本点集中在第一象限可判断出结果.【解答过程】由样本数据知:与负相关,;又样本点位于第一象限,在轴截距为正,.故选:B.【题型2 残差的计算】【方法点拨】根据题目条件,得出经验回归方程,再进行残差的计算.【例2】(2022春·湖北·高二期末)某城市选用一种植物进行绿化,设其中一株幼苗从观察之日起,第x天的高度为ycm,测得一些数据如下表所示:第x天 1 2 3 4 5 6 7高度y/cm 1 4 6 9 11 12 13由表格中数据可得y关于x的经验回归方程为,则第7天的残差为( )A.1.12 B.2.12 C. D.【解题思路】依题意求出、,根据回归直线方程必过样本中心点求出,即可得到回归直线方程,再根据残差公式计算可得;【解答过程】解:通过表格计算得,,,因为经验回归直线过点,所以,所以关于的经验回归方程为.所以回归模型第天的残差.故选:C.【变式2-1】(2023春·河南开封·高三开学考试)某部门统计了某地区今年前7个月在线外卖的规模如下表:月份代号x 1 2 3 4 5 6 7在线外卖规模y(百万元) 11 13 18 ★ 28 ★ 35其中4、6两个月的在线外卖规模数据模糊,但这7个月的平均值为23.若利用回归直线方程来拟合预测,且7月相应于点的残差为,则( )A.1.0 B.2.0 C.3.0 D.4.0【解题思路】根据给定条件,求出,再借助回归直线的特征及残差列出方程组即可求解作答.【解答过程】依题意,,而,于是得,而当时,,即,联立解得,所以.故选:B.【变式2-2】(2022春·河南许昌·高二期末)为研究变量x,y的相关关系,收集得到下面五个样本点(x,y):x 5.5 6.5 7 7.5 8.5y 9 8 6 4 3若由最小二乘法求得y关于x的回归直线方程为,则据此计算残差为1.1的样本点是( )A.(5.5,9) B.(6.5,8) C.(7,6) D.(7.5,4)【解题思路】先求出回归方程的样本中心点,从而可求得,再根据残差的定义可判断.【解答过程】由题意可知,,,所以回归方程的样本中心点为,因此有,所以,当时,;当时,;当时,;当时,;故选:B.【变式2-3】(2022春·江苏宿迁·高二阶段练习)在对具有线性相关的两个变量和进行统计分析时,得到如下数据:4 8 10 121 2 3 5 6由表中数据求得关于的回归方程为,则,,这三个样本数据中,残差的绝对值最小的是( )A. B. C. D.和【解题思路】根据样本中心点一定在线性回归方程上,求出,分别计算出三个样本数据的残差的绝对值,比较得到结果.【解答过程】,,因为样本中心点一定在上,代入解得:,当时,,;当时,,,当时,,,因为,所以残差的绝对值最小的是故选:B.【题型3 刻画回归效果的方式】【方法点拨】根据刻画回归效果的三种方式,结合具体题目条件,选取适当的方式来刻画模型的拟合效果,即可得解.【例3】(2022秋·宁夏银川·高三开学考试)下列说法正确的个数是( )(1)在做回归分析时,残差图中残差点分布的带状区域的宽度越窄表示回归效果越差(2)某地气象局预报:6月9日本地降水概率为90%,结果这天没下雨,这表明天气预报并不科学(3)回归分析模型中,残差平方和越小,说明模型的拟合效果越好(4)在回归直线方程,当解释变量每增加1个单位时,预报变量多增加0.1个单位A.2 B.3 C.4 D.1【解题思路】根据残差分析的性质判断(1),(3)选项,由概率的意义判断(2)选项,根据回归直线方程的意义判断(4).【解答过程】解:对(1),在做回归分析时,残差图中残差点分布的带状区域的宽度越窄表示回归效果越好,故错误;对(2),概率只说明事件发生的可能性,某次事件不一定发生,所以并不能说明天气预报不科学,故错误;对(3),在回归分析模型中,残差平方和越小,说明模型的拟合效果越好,故正确;对(4),在回归直线方程,当解释变量每增加1个单位时,预报变量增加0.1个单位,故正确.故选:A.【变式3-1】(2022春·山东菏泽·高二期末)关于线性回归的描述,下列命题错误的是( )A.回归直线一定经过样本点的中心 B.残差平方和越小,拟合效果越好C.决定系数越接近1,拟合效果越好 D.残差平方和越小,决定系数越小【解题思路】根据线性回归的性质判断即可【解答过程】对A,回归直线一定经过样本点的中心正确;对B,残差平方和越小,拟合效果越好正确;对C,决定系数越接近1,拟合效果越好正确;对D,残差平方和越小,拟合效果越好,决定系数越接近1,故D错误;故选:D.【变式3-2】(2022秋·广东广州·高三阶段练习)对两个变量和进行回归分析,得到一组样本数据,,…,则下列说法不正确的是( )A.若变量和之间的相关系数为,则变量和之间具有较强的线性相关关系B.残差平方和越小的模型,拟合的效果越好C.用决定系数来刻画回归效果,越小说明拟合效果越好D.在残差图中,残差点分布水平带状区域的宽度越窄,则回归方程的预报精确度越高【解题思路】变量和之间的相关系数为越大,则变量和之间具有较强的线性相关关系可判断A;残差平方和越小的模型,拟合的效果越好可判断B;用决定系数来刻画回归效果,越大说明拟合效果越好可判断 C;在残差图中,残差点分布水平带状区域的宽度越窄,则回归方程的预报精确度越高可判断D.【解答过程】变量和之间的相关系数为越大,则变量和之间具有较强的线性相关关系,故A正确;残差平方和越小的模型,拟合的效果越好,故B正确;用决定系数来刻画回归效果,越大说明拟合效果越好,故C错误;在残差图中,残差点分布水平带状区域的宽度越窄,则回归方程的预报精确度越高,故D正确.故选:C.【变式3-3】(2022春·甘肃天水·高二阶段练习)关于线性回归的描述,有下列命题:①回归直线一定经过样本中心点;②相关系数的绝对值越大,拟合效果越好;③相关指数越接近1拟合效果越好;④残差平方和越小,拟合效果越好.其中正确的命题个数为( )A.1 B.2 C.3 D.4【解题思路】根据回归直线方程的性质,相关系数、相关系数及残差平方和的意义判断各项的正误即可.【解答过程】对于①,回归直线一定经过样本中心点,故正确;对于②,相关系数的绝对值越接近于1,相关性越强,故错误;对于③,相关指数越接近1拟合效果越好,故正确;对于④,残差平方和越小,拟合效果越好,故正确.故选:C.【题型4 代入法求线性经验回归方程】【方法点拨】经验回归直线一定经过样本点的中心(,),求出样本点的中心后代入线性回归方程求解相应字母.【例4】(2023秋·四川广安·高二阶段练习)已知两个变量和之间存在线性相关关系,某兴趣小组收集了一组,的样本数据如下表所示:1 2 3 4 50.5 0.6 1 1.4 1.5根据表中数据利用最小二乘法得到的回归方程是( )A. B.C. D.【解题思路】求出,,由回归直线必过样本中心,将点(,)依次代入各项检验是否成立可得结果.【解答过程】∵,∴回归直线必过样本中心(3,1),而A、B、D项中的回归直线方程不过点(3,1),C项的回归直线方程过点(3,1),故选:C.【变式4-1】(2022秋·陕西榆林·高二期中)已知,的取值如下表所示:x 0 1 3 4y 2.2 4.3 4.8 6.7若与线性相关,且,则( )A.2.2 B.2.9 C.2.8 D.2.6【解题思路】利用平均数可得样本的中心点为,将中心点对应的值代入题目中的等式即可求出的值.【解答过程】由表格,得,,线性回归直线过样本中心点,所以,所以.故选:D.【变式4-2】(2023秋·河南焦作·高二期末)某产品的广告费用x与销售额y的统计数据如表:广告费用x(万元) 3 4 5 6销售额y(万元) 25 30 40 45根据如表可得回归方程中的为7.根据此模型预测广告费用为10万元时销售额为( )万元A.63.6 B.75.5 C.73.5 D.72.0【解题思路】线性回归方程.根据回归方程必过样本中心点,求出回归系数,再将代入,即可得到预报销售额.【解答过程】解:由题意,,,由回归方程中的为7可得,,解得,所以,回归方程为,所以时,元.故选:C.【变式4-3】(2023秋·四川宜宾·高二期末)某小区流感大爆发,当地医疗机构使用中西医结合的方法取得了不错的成效,每周治愈的患者人数如表所示,由表格可得y关于x的线性经验回归方程为,则测此回归模型第4周的治愈人数为( )周数(x) 1 2 3 4 5治愈人数(y) 5 15 35 ? 140A. B. C. D.【解题思路】设第4周的治愈人数为,表示出样本中心点,代入到回归方程中,进而可求出答案.【解答过程】根据题意,设第4周的治愈人数为,则有,,所以样本中心点为,代入到回归方程中,得,故选:B.【题型5 经验回归模型的应用】【方法点拨】(1)确定研究对象,明确哪个变量是解释变量,哪个变量是响应变量;(2)画出解释变量和响应变量的散点图,观察它们之间的关系(如是否存在线性关系等);(3)确定经验回归方程的类型(如我们观察到数据呈线性关系,则选用线性经验回归方程);(4)按一定规则(如最小二乘法)估计经验回归方程中的参数;(5)得出结果后分析残差图是否有异常(如个别数据对应残差过大,残差呈现不随机的规律性等),若存在异常,则检查数据是否有误,或模型是否合适等.【例5】(2023秋·四川雅安·高二期末)某连锁经营公司所属5个零售店某月的销售额和利润额资料如表.商店名称 A B C D E销售额x(千万元) 3 5 6 7 9利润额y(千万元) 2 3 3 4 5(1)若销售额和利润额具有相关关系,用最小二乘法计算利润额y对销售额x的回归直线方程.(参考公式,)(2)若该公司计划再开一个店想达到预期利润为8百万,请预估销售额需要达到多少 【解题思路】(1)根据已知条件,结合最小二乘法和回归直线方程的公式,即可求解.(2)将代入回归直线方程中,即可求解.【解答过程】(1)由表中的数据可得,,,,,故利润额y对销售额x的回归直线方程为.(2)∵该公司计划再开一个店想达到预期利润为8百万,即0.8千万,∴,解得,故预计销售额需要达到8百万.【变式5-1】(2023·全国·模拟预测)目前手机已经成为人们生活中的必需品,国内市场已经进入成熟期,下表是2016—2021年某市手机总体出货量(单位:万部)统计表.年份 2016年 2017年 2018年 2019年 2020年 2021年年份代码 1 2 3 4 5 6手机总体出货量/万部 5.6 4.9 4.1 3.9 3.2 3.5(1)已知该市手机总体出货量y与年份代码x之间可用线性回归模型拟合,求y关于x的线性回归方程(系数精确到0.01);(2)预测2022年该市手机总体出货量.附:线性回归方程中斜率与截距的最小二乘估计公式分别为,.【解题思路】(1)根据题中所给数据,利用最小二乘法求出,即可得解;(2)将代入(1)中回归方程,即可得解.【解答过程】(1)由题中统计表得,,所以 ,,则,,所以y关于x的线性回归方程为;(2)由题意得2022年对应的年份代码,代入,得,所以预测2022年该市手机总体出货量为2.63万部.【变式5-2】(2023秋·四川成都·高二期末)某工厂统计2022年销售网点数量与售卖出的产品件数的数据如下表:销售网点数x(单位:个) 17 19 20 21 23售卖出的产品件数y(单位:万件) 21 22 25 27 30假定该工厂销售网点的个数与售卖出的产品件数呈线性相关关系,(1)求2022年售卖出的产品件数y(单位:万件)关于销售网点数x(单位:个)的线性回归方程;(2)根据(1)中求出的线性回归方程,预测2022年该工厂建立40个销售网点时售卖出的产品件数.参考公式:,.【解题思路】(1)由参考公式可算出销售网点数x(单位:个)的线性回归方程;(2)将代入由(1)算得的回归方程可得答案.【解答过程】(1)由题,可得,,,.则,.故回归方程为:.(2)将代入回归方程,则.故2022年该工厂建立40个销售网点时售卖出的产品件数约万件.【变式5-3】(2023·山东·模拟预测)我国技术给直播行业带来了很多发展空间,加上受疫情影响,直播这种成本较低的获客渠道备受商家青睐,某商场统计了2022年1~5月某商品的线上月销售量y(单位:千件)与售价x(单位:元/件)的情况如下表示.月份 1 2 3 4 5售价x(元/件) 60 56 58 57 54月销售量y(千件) 5 9 7 10 9(1)求相关系数,并说明是否可以用线性回归模型拟合与的关系(当时,可以认为两个变量有很强的线性相关性;否则,没有很强的线性相关性)(精确到0.01);(2)建立关于的线性回归方程,并估计当售价为元/件时,该商品的线上月销售量估计为多少千件?(3)若每件商品的购进价格为元/件,如果不考虑其他费用,由(2)中结论,当商品售价为多少时,可使得该商品的月利润最大?(该结果保留整数)参考公式:对于一组数据,相关系数,其回归直线的斜率和截距的最小二乘估计分别为:.参考数据:.【解题思路】(1)根据数据计算,从而分别代入计算出,,,由公式计算相关系数并判断相关性;(2)代入公式求解,,从而写出回归方程,再代入,计算;(3)设每月的利润为元,写出关于的函数解析式,根据二次函数的性质,求解对称轴即可.【解答过程】(1)由已知数据可得,,,,所以相关系数,因为,所以与有很强的线性相关性,可以用线性回归模型拟合.(2)由于,,所以关于的线性回归方程为,当时,,故当售价为元/件时,该商品的线上月销售量估计为千件.(3)设每月的利润为元,则,当时,Z取得最大值.即当商品售价为元/件时,可使得该商品的月利润最大.【题型6 非线性经验回归方程的求法】【方法点拨】(1)作散点图确定曲线模型:曲线所对应的函数种类繁多,这就要求我们充分想象,大胆猜测拟合函数类型,粗略估计使用哪个函数拟合.(2)非线性转化为线性:先通过适当变换化非线性关系为线性关系,然后按照线性检验回归方程的求解步骤进行求解.(3)分析模型的拟合效果,得出结论.【例6】(2023·陕西西安·统考一模)为了研究某种细菌随天数x变化的繁殖个数y,收集数据如下:天数x 1 2 3 4 5 6繁殖个数y 3 6 13 25 45 100(1)判断(为常数)与(为常数,且)哪一个适宜作为繁殖个数y关于天数x变化的回归方程类型?(给出判断即可,不必说明理由)(2)对于非线性回归方程(为常数,且),令,可以得到繁殖个数的对数z关于天数x具有线性关系及一些统计量的值,3.50 32 2.85 17.5 307 12.12(ⅰ)证明:对于非线性回归方程,令,可以得到繁殖个数的对数z关于天数x具有线性关系(即为常数);(ⅱ)根据(ⅰ)的判断结果及表中数据,建立y关于x的回归方程(系数保留2位小数).附:对于一组数据其回归直线方程的斜率和截距的最小二乘估计分别为.【解题思路】(1)根据给定数据作出散点图,再借助散点图即可判断作答.(2)(ⅰ)由(1)选定的回归方程类型,取对数即可得关于x的直线方程作答;(ⅱ)由(ⅰ)的结果,利用最小二乘法求解作答.【解答过程】(1)作出繁殖个数y关于天数x变化的散点图,如图,观察散点图知,样本点分布在一条指数型曲线周围,所以更适宜作为繁殖个数y关于天数x变化的回归方程类型.(2)(ⅰ)由(1)知,(为常数,且),又,因此,令,即有为常数,所以繁殖个数的对数z关于天数x具有线性关系.(ⅱ),,由(ⅰ)知,,,因此,所以y关于x的回归方程为.【变式6-1】(2023·云南·高三阶段练习)近年来,云南省保山市龙陵县紧紧围绕打造“中国石斛之乡”的发展定位,大力发展石斛产业,该产业带动龙陵县近四分之一人口脱贫致富.2022年8月,龙陵紫皮石斛获国家地理标志运用促进工程重点项目,并被评为优秀等次.在政府的大力扶持下,龙陵紫皮石斛产量逐年增长,2017年底到2022年底龙陵县石斛产量统计如下及散点图如图.年份 2017 2018 2019 2020 2021 2022年份代码x 1 2 3 4 5 6紫皮石斛产量y(吨) 3200 3400 3600 4200 7500 9000(1)根据散点图判断,与(a,b,c,d均为常数)哪一个更适合作为龙陵县紫皮石斛产量y关于年份代码x的回归方程类型?(给出判断即可,不必说明理由)(2)经计算得下表中数据,根据(1)中结果,求出y关于x的回归方程;3.5 5150 8.46 17.5 20950 3.85其中.(3)龙陵县计划到2025年底实现紫皮石斛年产量达1.5万吨,根据(2)所求得的回归方程,预测该目标是否能完成?(参考数据:)附:,.【解题思路】(1)根据判断即可;(2)根据表中数据和参考数据,利用公式求解即可;(3)根据(2)中所得的回归方程即可预测到2025年底该目标值,从而即可判断.【解答过程】(1)由散点图可知,更适合作为龙陵县紫皮石斛产量y关于年份代码x的回归方程类型.(2)对两边取自然对数,得.令,所以.因为,所以.所以,所以.所以龙陵县紫皮石斛产量y关于年份代码x的回归方程为.(3)当时,,故预测该目标可以完成.【变式6-2】(2023·江西抚州·高三开学考试)数据显示中国车载音乐已步入快速发展期,随着车载音乐的商业化模式进一步完善,市场将持续扩大,下表为2018—2022年中国车载音乐市场规模(单位:十亿元),其中年份2018—2022对应的代码分别为1—5.年份代码x 1 2 3 4 5车载音乐市场规模y 2.8 3.9 7.3 12.0 17.0(1)由上表数据知,可用指数函数模型拟合y与x的关系,请建立y关于x的回归方程(a,b的值精确到0.1);(2)综合考虑2023年及2024年的经济环境及疫情等因素,某预测公司根据上述数据求得y关于x的回归方程后,通过修正,把作为2023年与2024年这两年的年平均增长率,请根据2022年中国车载音乐市场规模及修正后的年平均增长率预测2024年的中国车载音乐市场规模.参考数据:1.94 33.82 1.7 1.6其中,.参考公式:对于一组数据,,…,,其回归直线的斜率和截距的最小二乘估计公式分别为,.【解题思路】(1)由得,由回归直线的斜率和截距的最小二乘估计公式求得,从而求得y关于x的回归方程.(2)两年的年平均增长率为0.3,故2024年的中国车载音乐市场规模为【解答过程】(1)因为,所以两边同时取常用对数,得,设,所以,设,因为,所以,所以所以所以(2)由题意知2023年与2024年这两年的年平均增长率,2022年中国车载音乐市场规模为1.7,故预测2024年的中国车载音乐市场规模(十亿元).【变式6-3】(2023·全国·高三专题练习)某企业为改进生产,现 某产品及成本相关数据进行统计.现收集了该产品的成本费y(单位:万元/吨)及同批次产品生产数量x(单位:吨)的20组数据.现分别用两种模型①,②进行拟合,据收集到的数据,计算得到如下值:14.5 0.08 665 0.04 -450 4表中,.若用刻画回归效果,得到模型①、②的值分别为,.(1)利用和比较模型①、②的拟合效果,应选择哪个模型?并说明理由;(2)根据(1)中所选择的模型,求y关于x的回归方程;并求同批次产品生产数量为25(吨)时y的预报值.附:对于一组数据,,…,,其回归直线的斜率和截距的最小二乘法估计分别为,.【解题思路】(1)根据已知,根据的意义,即可得出模型②的拟合效果好,选择模型②;(2)与可用线性回归来拟合,有,求出系数,得到回归方程,即可得到成本费与同批次产品生产数量的回归方程为,代入,即可求出结果.【解答过程】(1)应该选择模型②.由题意可知,,则模型②中样本数据的残差平方和比模型①中样本数据的残差平方和小,即模型②拟合效果好.(2)由已知,成本费与可用线性回归来拟合,有.由已知可得,,所以,则关于的线性回归方程为.成本费与同批次产品生产数量的回归方程为,当(吨)时,(万元/吨).所以,同批次产品生产数量为25(吨)时y的预报值为6万元/吨.专题8.3 一元线性回归模型及其应用(重难点题型精讲)1.一元线性回归模型把式子为Y关于x的一元线性回归模型.其中,Y称为因变量或响应变量,x称为自变量或解释变量;a和b为模型的未知参数,a称为截距参数,b称为斜率参数;e是Y与bx+a之间的随机误差.2.线性经验回归方程与最小二乘法设满足一元线性回归模型的两个变量的n对样本数据为(,),(,),,(,),由=+a+(i=1,2,,n),得|-(+a)|= ||,显然||越小,表示样本数据点离直线y=bx+a的竖直距离越小.通常用各散点到直线的竖直距离的平方之和Q=来刻画各样本观测数据与直线y=bx+a的“整体接近程度”.当a,b的取值为时,Q达到最小.将=x+称为Y关于x的经验回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线.这种求经验回归方程的方法叫做最小二乘法,求得的,叫做b,a的最小二乘估计.经验回归直线一定过点(,).3.残差分析对于响应变量Y,通过观测得到的数据称为观测值,通过经验回归方程得到的称为预测值,观测值减去预测值称为残差.残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.4.刻画回归效果的方式(1)残差图法作图时纵坐标为残差,横坐标可以选为样本编号,或身高数据,或体重估计值等,这样作出的图形称为残差图.在残差图中,残差点比较均匀地落在以取值为0的横轴为对称轴的水平带状区域内,说明选用的模型比较合适,这样的带状区域的宽度越窄,说明模型拟合精度越高.(2)残差平方和法残差平方和为,残差平方和越小,模型拟合效果越好.(3)利用刻画拟合效果=.越大,模型的拟合效果越好,越小,模型的拟合效果越差.(1)对于变量x和变量y,设经过随机抽样获得的成对样本数据为(,),(,),,(,),利用相关系数r来衡量两个变量之间线性关系的强弱,相关系数r的计算公式:(其中,,,和,,,的均值分别为和).①当r>0时,称成对样本数据正相关.这时,当其中一个数据的值变小时,另一个数据的值通常也变小;当其中一个数据的值变大时,另一个数据的值通常也变大.②当r<0时,称成对样本数据负相关.这时,当其中一个数据的值变小时,另一个数据的值通常会变大;当其中一个数据的值变大时,另一个数据的值通常会变小.【题型1 一元线性回归模型】【方法点拨】根据一元线性回归模型的定义,结合具体题目条件,进行求解即可.【例1】(2022·高二单元测试)根据如下样本数据,得到线性回归方程为,若样本点的中心为,则当X每增加1个单位时,Y平均( )X 3 4 5 6 7Y 4.0 -0.5 0.5A.增加1.4个单位 B.减少1.4个单位 C.增加7.9个单位 D.减少7.9个单位【变式1-1】(2022春·黑龙江大庆·高二期末)给出下列说法中错误的是( )A.回归直线恒过样本点的中心B.两个变量相关性越强,则相关系数就越接近1C.某7个数的平均数为4,方差为2,现加入一个新数据4,此时这8个数的方差不变D.在回归直线方程中,当变量x增加一个单位时,平均减少0.5个单位【变式1-2】(2022春·河南南阳·高二期中)已知变量x和y的回归直线方程为,变量y与z负相关.下列结论中正确的是( )A.x与y正相关,x与z正相关 B.x与y正相关,x与z负相关C.x与y负相关,x与z负相关 D.x与y负相关,x与z正相关【变式1-3】(2022春·陕西渭南·高一期末)根据如下样本数据:得到线性回归方程为,则( )A. B. C. D.【题型2 残差的计算】【方法点拨】根据题目条件,得出经验回归方程,再进行残差的计算.【例2】(2022春·湖北·高二期末)某城市选用一种植物进行绿化,设其中一株幼苗从观察之日起,第x天的高度为ycm,测得一些数据如下表所示:第x天 1 2 3 4 5 6 7高度y/cm 1 4 6 9 11 12 13由表格中数据可得y关于x的经验回归方程为,则第7天的残差为( )A.1.12 B.2.12 C. D.【变式2-1】(2023春·河南开封·高三开学考试)某部门统计了某地区今年前7个月在线外卖的规模如下表:月份代号x 1 2 3 4 5 6 7在线外卖规模y(百万元) 11 13 18 ★ 28 ★ 35其中4、6两个月的在线外卖规模数据模糊,但这7个月的平均值为23.若利用回归直线方程来拟合预测,且7月相应于点的残差为,则( )A.1.0 B.2.0 C.3.0 D.4.0【变式2-2】(2022春·河南许昌·高二期末)为研究变量x,y的相关关系,收集得到下面五个样本点(x,y):x 5.5 6.5 7 7.5 8.5y 9 8 6 4 3若由最小二乘法求得y关于x的回归直线方程为,则据此计算残差为1.1的样本点是( )A.(5.5,9) B.(6.5,8) C.(7,6) D.(7.5,4)【变式2-3】(2022春·江苏宿迁·高二阶段练习)在对具有线性相关的两个变量和进行统计分析时,得到如下数据:4 8 10 121 2 3 5 6由表中数据求得关于的回归方程为,则,,这三个样本数据中,残差的绝对值最小的是( )A. B. C. D.和【题型3 刻画回归效果的方式】【方法点拨】根据刻画回归效果的三种方式,结合具体题目条件,选取适当的方式来刻画模型的拟合效果,即可得解.【例3】(2022秋·宁夏银川·高三开学考试)下列说法正确的个数是( )(1)在做回归分析时,残差图中残差点分布的带状区域的宽度越窄表示回归效果越差(2)某地气象局预报:6月9日本地降水概率为90%,结果这天没下雨,这表明天气预报并不科学(3)回归分析模型中,残差平方和越小,说明模型的拟合效果越好(4)在回归直线方程,当解释变量每增加1个单位时,预报变量多增加0.1个单位A.2 B.3 C.4 D.1【变式3-1】(2022春·山东菏泽·高二期末)关于线性回归的描述,下列命题错误的是( )A.回归直线一定经过样本点的中心 B.残差平方和越小,拟合效果越好C.决定系数越接近1,拟合效果越好 D.残差平方和越小,决定系数越小【变式3-2】(2022秋·广东广州·高三阶段练习)对两个变量和进行回归分析,得到一组样本数据,,…,则下列说法不正确的是( )A.若变量和之间的相关系数为,则变量和之间具有较强的线性相关关系B.残差平方和越小的模型,拟合的效果越好C.用决定系数来刻画回归效果,越小说明拟合效果越好D.在残差图中,残差点分布水平带状区域的宽度越窄,则回归方程的预报精确度越高【变式3-3】(2022春·甘肃天水·高二阶段练习)关于线性回归的描述,有下列命题:①回归直线一定经过样本中心点;②相关系数的绝对值越大,拟合效果越好;③相关指数越接近1拟合效果越好;④残差平方和越小,拟合效果越好.其中正确的命题个数为( )A.1 B.2 C.3 D.4【题型4 代入法求线性经验回归方程】【方法点拨】经验回归直线一定经过样本点的中心(,),求出样本点的中心后代入线性回归方程求解相应字母.【例4】(2023秋·四川广安·高二阶段练习)已知两个变量和之间存在线性相关关系,某兴趣小组收集了一组,的样本数据如下表所示:1 2 3 4 50.5 0.6 1 1.4 1.5根据表中数据利用最小二乘法得到的回归方程是( )A. B.C. D.【变式4-1】(2022秋·陕西榆林·高二期中)已知,的取值如下表所示:x 0 1 3 4y 2.2 4.3 4.8 6.7若与线性相关,且,则( )A.2.2 B.2.9 C.2.8 D.2.6【变式4-2】(2023秋·河南焦作·高二期末)某产品的广告费用x与销售额y的统计数据如表:广告费用x(万元) 3 4 5 6销售额y(万元) 25 30 40 45根据如表可得回归方程中的为7.根据此模型预测广告费用为10万元时销售额为( )万元A.63.6 B.75.5 C.73.5 D.72.0【变式4-3】(2023秋·四川宜宾·高二期末)某小区流感大爆发,当地医疗机构使用中西医结合的方法取得了不错的成效,每周治愈的患者人数如表所示,由表格可得y关于x的线性经验回归方程为,则测此回归模型第4周的治愈人数为( )周数(x) 1 2 3 4 5治愈人数(y) 5 15 35 ? 140A. B. C. D.【题型5 经验回归模型的应用】【方法点拨】(1)确定研究对象,明确哪个变量是解释变量,哪个变量是响应变量;(2)画出解释变量和响应变量的散点图,观察它们之间的关系(如是否存在线性关系等);(3)确定经验回归方程的类型(如我们观察到数据呈线性关系,则选用线性经验回归方程);(4)按一定规则(如最小二乘法)估计经验回归方程中的参数;(5)得出结果后分析残差图是否有异常(如个别数据对应残差过大,残差呈现不随机的规律性等),若存在异常,则检查数据是否有误,或模型是否合适等.【例5】(2023秋·四川雅安·高二期末)某连锁经营公司所属5个零售店某月的销售额和利润额资料如表.商店名称 A B C D E销售额x(千万元) 3 5 6 7 9利润额y(千万元) 2 3 3 4 5(1)若销售额和利润额具有相关关系,用最小二乘法计算利润额y对销售额x的回归直线方程.(参考公式,)(2)若该公司计划再开一个店想达到预期利润为8百万,请预估销售额需要达到多少 【变式5-1】(2023·全国·模拟预测)目前手机已经成为人们生活中的必需品,国内市场已经进入成熟期,下表是2016—2021年某市手机总体出货量(单位:万部)统计表.年份 2016年 2017年 2018年 2019年 2020年 2021年年份代码 1 2 3 4 5 6手机总体出货量/万部 5.6 4.9 4.1 3.9 3.2 3.5(1)已知该市手机总体出货量y与年份代码x之间可用线性回归模型拟合,求y关于x的线性回归方程(系数精确到0.01);(2)预测2022年该市手机总体出货量.附:线性回归方程中斜率与截距的最小二乘估计公式分别为,.【变式5-2】(2023秋·四川成都·高二期末)某工厂统计2022年销售网点数量与售卖出的产品件数的数据如下表:销售网点数x(单位:个) 17 19 20 21 23售卖出的产品件数y(单位:万件) 21 22 25 27 30假定该工厂销售网点的个数与售卖出的产品件数呈线性相关关系,(1)求2022年售卖出的产品件数y(单位:万件)关于销售网点数x(单位:个)的线性回归方程;(2)根据(1)中求出的线性回归方程,预测2022年该工厂建立40个销售网点时售卖出的产品件数.参考公式:,.【变式5-3】(2023·山东·模拟预测)我国技术给直播行业带来了很多发展空间,加上受疫情影响,直播这种成本较低的获客渠道备受商家青睐,某商场统计了2022年1~5月某商品的线上月销售量y(单位:千件)与售价x(单位:元/件)的情况如下表示.月份 1 2 3 4 5售价x(元/件) 60 56 58 57 54月销售量y(千件) 5 9 7 10 9(1)求相关系数,并说明是否可以用线性回归模型拟合与的关系(当时,可以认为两个变量有很强的线性相关性;否则,没有很强的线性相关性)(精确到0.01);(2)建立关于的线性回归方程,并估计当售价为元/件时,该商品的线上月销售量估计为多少千件?(3)若每件商品的购进价格为元/件,如果不考虑其他费用,由(2)中结论,当商品售价为多少时,可使得该商品的月利润最大?(该结果保留整数)参考公式:对于一组数据,相关系数,其回归直线的斜率和截距的最小二乘估计分别为:.参考数据:.【题型6 非线性经验回归方程的求法】【方法点拨】(1)作散点图确定曲线模型:曲线所对应的函数种类繁多,这就要求我们充分想象,大胆猜测拟合函数类型,粗略估计使用哪个函数拟合.(2)非线性转化为线性:先通过适当变换化非线性关系为线性关系,然后按照线性检验回归方程的求解步骤进行求解.(3)分析模型的拟合效果,得出结论.【例6】(2023·陕西西安·统考一模)为了研究某种细菌随天数x变化的繁殖个数y,收集数据如下:天数x 1 2 3 4 5 6繁殖个数y 3 6 13 25 45 100(1)判断(为常数)与(为常数,且)哪一个适宜作为繁殖个数y关于天数x变化的回归方程类型?(给出判断即可,不必说明理由)(2)对于非线性回归方程(为常数,且),令,可以得到繁殖个数的对数z关于天数x具有线性关系及一些统计量的值,3.50 32 2.85 17.5 307 12.12(ⅰ)证明:对于非线性回归方程,令,可以得到繁殖个数的对数z关于天数x具有线性关系(即为常数);(ⅱ)根据(ⅰ)的判断结果及表中数据,建立y关于x的回归方程(系数保留2位小数).附:对于一组数据其回归直线方程的斜率和截距的最小二乘估计分别为.【变式6-1】(2023·云南·高三阶段练习)近年来,云南省保山市龙陵县紧紧围绕打造“中国石斛之乡”的发展定位,大力发展石斛产业,该产业带动龙陵县近四分之一人口脱贫致富.2022年8月,龙陵紫皮石斛获国家地理标志运用促进工程重点项目,并被评为优秀等次.在政府的大力扶持下,龙陵紫皮石斛产量逐年增长,2017年底到2022年底龙陵县石斛产量统计如下及散点图如图.年份 2017 2018 2019 2020 2021 2022年份代码x 1 2 3 4 5 6紫皮石斛产量y(吨) 3200 3400 3600 4200 7500 9000(1)根据散点图判断,与(a,b,c,d均为常数)哪一个更适合作为龙陵县紫皮石斛产量y关于年份代码x的回归方程类型?(给出判断即可,不必说明理由)(2)经计算得下表中数据,根据(1)中结果,求出y关于x的回归方程;3.5 5150 8.46 17.5 20950 3.85其中.(3)龙陵县计划到2025年底实现紫皮石斛年产量达1.5万吨,根据(2)所求得的回归方程,预测该目标是否能完成?(参考数据:)附:,.【变式6-2】(2023·江西抚州·高三开学考试)数据显示中国车载音乐已步入快速发展期,随着车载音乐的商业化模式进一步完善,市场将持续扩大,下表为2018—2022年中国车载音乐市场规模(单位:十亿元),其中年份2018—2022对应的代码分别为1—5.年份代码x 1 2 3 4 5车载音乐市场规模y 2.8 3.9 7.3 12.0 17.0(1)由上表数据知,可用指数函数模型拟合y与x的关系,请建立y关于x的回归方程(a,b的值精确到0.1);(2)综合考虑2023年及2024年的经济环境及疫情等因素,某预测公司根据上述数据求得y关于x的回归方程后,通过修正,把作为2023年与2024年这两年的年平均增长率,请根据2022年中国车载音乐市场规模及修正后的年平均增长率预测2024年的中国车载音乐市场规模.参考数据:1.94 33.82 1.7 1.6其中,.参考公式:对于一组数据,,…,,其回归直线的斜率和截距的最小二乘估计公式分别为,.【变式6-3】(2023·全国·高三专题练习)某企业为改进生产,现 某产品及成本相关数据进行统计.现收集了该产品的成本费y(单位:万元/吨)及同批次产品生产数量x(单位:吨)的20组数据.现分别用两种模型①,②进行拟合,据收集到的数据,计算得到如下值:14.5 0.08 665 0.04 -450 4表中,.若用刻画回归效果,得到模型①、②的值分别为,.(1)利用和比较模型①、②的拟合效果,应选择哪个模型?并说明理由;(2)根据(1)中所选择的模型,求y关于x的回归方程;并求同批次产品生产数量为25(吨)时y的预报值.附:对于一组数据,,…,,其回归直线的斜率和截距的最小二乘法估计分别为,. 展开更多...... 收起↑ 资源列表 高中数学培优讲义练习(人教A版2019选择性必修三)专题8.3 一元线性回归模型及其应用(重难点题型精讲) Word版含解析.docx 高中数学培优讲义练习(人教A版2019选择性必修三)专题8.3 一元线性回归模型及其应用(重难点题型精讲)(学生版).docx