8.2.1一元线性回归模型+8.2.2一元线性回归模型 第三课 (学案+练习)(含解析) 高中数学人教A版(2019)选择性必修第三册

资源下载
  1. 二一教育资源

8.2.1一元线性回归模型+8.2.2一元线性回归模型 第三课 (学案+练习)(含解析) 高中数学人教A版(2019)选择性必修第三册

资源简介

8.2.1一元线性回归模型+8.2.2一元线性回归模型
第三练 能力提升拔高
【试题来源】来自各地期中期末的联考试题,进行整理和改编;
【试题难度】本次训练试题难度较大,适合学完第三课后,起到提升解题能力和素养的目的.
【目标分析】
1.会求解非线性回归模型有关的实际问题,锻炼数学建模能力,运算求解能力,如第1题.
2.会求解与一元回归模型有关的综合问题,锻炼数学建模能力,运算求解能力,如第13题.
一.单选题
(23-24高二下·河南南阳·阶段练习)
1.某中学课外活动小组为了研究经济走势,根据该市1999-2021年的GDP(国内生产总值)数据绘制出下面的散点图,该小组选择了如下2个模型来拟合GDP值随年份的变化情况,模型一:;模型二:,下列说法正确的是( )
A.变量与负相关
B.根据散点图的特征,模型一能更好地拟合GDP值随年份的变化情况
C.变量与有较强的线性相关性
D.若选择模型二,的图象不一定经过点
(23-24高二下·吉林长春·阶段练习)
2.用模型拟合一组数,若,,设,得变换后的线性回归方程为,则( )
A.20240 B. C. D.2024
(23-24高二下·河南南阳·阶段练习)
3.某学习小组对一组数据进行回归分析,甲同学首先求出回归直线方程,样本点的中心为.乙同学对甲的计算过程进行检查,发现甲将数据误输成,将这两个数据修正后得到回归直线方程,则实数( )
A. B. C. D.
(23-24高三上·内蒙古呼和浩特·期末)
4.用模型拟合一组数据组,其中,设,得变换后的线性回归方程为,则( )
A. B. C.35 D.21
(23-24高二下·河南南阳·阶段练习)
5.某中学课外活动小组为了研究经济走势,根据该市1999-2021年的GDP(国内生产总值)数据绘制出下面的散点图,该小组选择了如下2个模型来拟合GDP值随年份的变化情况,模型一:;模型二:,下列说法正确的是( )
A.变量与负相关
B.根据散点图的特征,模型一能更好地拟合GDP值随年份的变化情况
C.变量与有较强的线性相关性
D.若选择模型二,的图象不一定经过点
(2023·四川广安·模拟预测)
6.下列说法中,正确的命题的是( )
A.一台晩会有个节目,其中有个小品,如果个小品不连续演出,共有不同的演出顺序种
B.已知随机变量服从正态分布,,则
C.以模型去拟合一组数据时,为了求出回归方程,设,求得线性回归方程为,则、的值分别是和
D.若样本数据、、、的方差为,则数据、、、的方差为
二、多选题
(21-22高三上·湖南株洲·期末)
7.某地为响应“扶贫必扶智,扶智就是扶知识、扶技术、扶方法”的号召,建立农业科技图书馆,供农民免费借阅,收集了近5年借阅数据如下表:
年份代码x 1 2 3 4 5
年借阅量y(万册) 4.9 5.1 5.5 5.7 5.8
根据上表,可得y关于x的经验回归方程为,下列结论正确的有( )
A.
B.借阅量4.9,5.1,5.5,5.7,5.8的75%分位数为5.7
C.y与x的线性相关系数
D.第六年的借阅量一定不少于6.12万册
(2024·河北沧州·一模)
8.下表是某地从2019年至2023年能源消费总量近似值(单位:千万吨标准煤)的数据表:
年份 2019 2020 2021 2022 2023
年份代号 1 2 3 4 5
能源消费总量近似值(单位:千万吨标准煤) 44.2 44.6 46.2 47.8 50.8
以为解释变量,为响应变量,若以为回归方程,则决定系数0.9298,若以为回归方程,则,则下面结论中正确的有( )
A.变量和变量的样本相关系数为正数
B.比的拟合效果好
C.由回归方程可准确预测2024年的能源消费总量
D.
(2024·湖南·一模)
9.下列说法中,正确的是( )
A.设有一个经验回归方程为,变量增加1个单位时,平均增加2个单位
B.已知随机变量,若,则
C.两组样本数据和.若已知且,则
D.已知一系列样本点的经验回归方程为,若样本点与的残差相等,则
三、填空题
(2023·全国·模拟预测)
10.为研究变量x,y的相关关系,收集得到如下数据:
x 1 2 3 4 5
y 60
若由最小二乘法求得y关于x的线性回归方程为,并据此计算在样本点处的残差为0,则 .
(2023·江西赣州·二模)
11.用模型拟合一组数据,若,,设,得变换后的线性回归方程为,则ak= .
四、解答题
(22-23高三上·广东深圳·期中)
12.红蜘蛛是柚子的主要害虫之一,能对柚子树造成严重伤害,每只红蜘蛛的平均产卵数y(个)和平均温度x(℃)有关,现收集了以往某地的7组数据,得到下面的散点图及一些统计量的值.

(1)根据散点图判断,与(其中…为自然对数的底数)哪一个更适合作为平均产卵数y(个)关于平均温度x(℃)的回归方程类型?(给出判断即可,不必说明理由)
(2)由(1)的判断结果及表中数据,求出y关于x的回归方程.(计算结果精确到0.1)
附:回归方程中,,
参考数据()
5215 17713 714 27 81.3 3.6
(3)根据以往每年平均气温以及对果园年产值的统计,得到以下数据:平均气温在22℃以下的年数占60%,对柚子产量影响不大,不需要采取防虫措施;平均气温在22℃至28℃的年数占30%,柚子产量会下降20%;平均气温在28℃以上的年数占10%,柚子产量会下降50%.为了更好的防治红蜘蛛虫害,农科所研发出各种防害措施供果农选择.
在每年价格不变,无虫害的情况下,某果园年产值为200万元,根据以上数据,以得到最高收益(收益=产值-防害费用)为目标,请为果农从以下几个方案中推荐最佳防害方案,并说明理由.
方案1:选择防害措施A,可以防止各种气温的红蜘蛛虫害不减产,费用是18万;
方案2:选择防害措施B,可以防治22℃至28℃的蜘蛛虫害,但无法防治28℃以上的红蜘蛛虫害,费用是10万;
方案3:不采取防虫害措施.
(2024·辽宁·模拟预测)
13.土壤食物网对有机质的分解有两条途径,即真菌途径和细菌途径.在不同的土壤生态系统中,由于提供能源的有机物其分解的难易程度不同,这两条途径所起的作用也不同.以细菌分解途径为主导的土壤,有机质降解快,氮矿化率高,有利于养分供应,以真菌途径为主的土壤,氮和能量转化比较缓慢,有利于有机质存财和氮的固持.某生物实验小组从一种土壤数据中随机抽查并统计了8组数据,如下表所示:
编号 1 2 3 4 5 6 7 8
细菌百万个 70 80 90 100 110 120 130 140
真菌百万个 8.0 10.0 12.5 15.0 17.5 21.0 27.0 39.0
其散点图如下,散点大致分布在指数型函数的图象附近.
(1)求关于的经验回归方程(系数精确到0.01);
(2)在做土壤相关的生态环境研究时,细菌与真菌的比值能够反映土壤的碳氮循环.以样本的频率估计总体分布的概率,若该实验小组随机抽查8组数据,再从中任选4组,记真菌(单位:百万个)与细菌(单位:百万个)的数值之比位于区间内的组数为,求的分布列与数学期望.
附:经验回归方程的斜率和截距的最小二乘估计公式分别为,
【易错题目】第题、第题
【复盘要点】非线性回归分析问题
(2024·云南曲靖·一模)
【典例】已知变量关于的回归方程为,若对两边取自然对数,可以发现与线性相关.现有一组数据如下表所示:
1 2 3 4 5
则当时,预测的值为( )
A. B. C. D.
【答案】C
【分析】
令,可得出,求出、的值,将、的值代入,求出的值,可得出变量关于的回归方程,然后令,可得出的值.
【详解】令,由可得,如下表所示:
由表格中的数据可得,,
则有,解得,故,
当时,.
故选:C.
【易错警示】有些非线性回归分析问题并不给出经验公式,这时我们可以画出已知数据的散点图,把它与学过的各种函数(幂函数、指数函数、对数函数等)的图象进行比较,挑选一种跟这些散点拟合得最好的函数,用适当的变量进行变换,如通过换元或取对数等方法,把问题化为线性回归分析问题,使之得到解决.
【复盘训练】
(23-24高二下·吉林长春·阶段练习)
14.用模型拟合一组数,若,,设,得变换后的线性回归方程为,则( )
A.20240 B. C. D.2024
(23-24高三下·山东·开学考试)
15.为研究某池塘中水生植物的覆盖水塘面积(单位:)与水生植物的株数(单位:株)之间的相关关系,收集了4组数据,用模型去拟合与的关系,设与的数据如表格所示:得到与的线性回归方程,则( )
3 4 6 7
2 2.5 4.5 7
A.-2 B.-1 C. D.
(2023·高三下·广东惠州·阶段练习)
16.一只红铃虫产卵数和温度有关,现测得一组数据,可用模型拟合,设,其变换后的线性回归方程为,若,,为自然常数,则 .
(2023高三·全国·专题练习)
17.x和y的散点图如图所示,则下列说法中①x,y是负相关关系;②在该相关关系中,若用拟合时的相关指数为,用拟合时的相关指数为则;③x,y之间不能建立线性回归方程;所有正确命题的序号为 .
(23-24高三上·广东广州·阶段练习)
18.中国茶文化博大精深,饮茶深受大众喜爱,茶水的口感与茶叶类型和水的温度有关,某数学建模小组为了获得茶水温度y(单位:)关于时间x(单位:min)的回归方程模型,通过实验收集在室温,用同一温度的水冲泡的条件下,茶水温度随时间变化的7组数据,并对数据做初步处理得到如图所示散点图以及如表所示数据.

73.5 3.85
表中:,
(1)根据散点图判断,①与②哪一个更适宜作为该茶水温度y关于时间x的回归方程类型?(给出判断即可,不必说明理由)请根据你的判断结果及表中数据建立该茶水温度y关于时间x的回归方程;
(2)已知该茶水温度降至口感最佳,根据(1)中的回归方程,求在相同条件下冲泡的茶水,大约需要放置多长时间才能达到最佳饮用口感?
附:(1)对于一组数据,…,,其回归直线的斜率和截距的最小二乘估计分别为,
(2)参考数据:,,,,
试卷第1页,共3页
试卷第1页,共3页
参考答案:
1.D
【分析】对于ABC,由散点图的变化趋势分析判断;对于D,由线性回归方程的性判断.
【详解】对于 A,由散点图可知 随年份 的增大而增大,所以变量 与 正相关,所以 A 错误;
对于 BC,由散点图可知变量 与 的变化趋向于一条曲线,所以模型二能更好地 拟合 GDP 值随年份的变化情况,所以 B 错误,C错误;
对于 D,若选择模型二:,令,则的图像一定过点,不一定过点,故D正确.
故选:D.
2.C
【分析】先计算,代入线性回归方程求得,再计算即可.
【详解】由条件可知,代入,
则,故C正确.
故选:C
3.D
【分析】根据题意,甲输入的为,即可求得以及,然后将正确数据代入,即可求得样本中心点,代入回归直线即可得到结果.
【详解】由题意可得,假设甲输入的为,
则,则,
且,则,
则改为正确数据时,,即,
,即,所以样本中心点为,
将点代入回归直线方程,得.
故选:D
4.B
【分析】求出,即,得到答案.
【详解】由题意得,
故,
即,
故,解得.
故选:B
5.D
【分析】对于ABC,由散点图的变化趋势分析判断;对于D,由线性回归方程的性判断.
【详解】对于 A,由散点图可知 随年份 的增大而增大,所以变量 与 正相关,所以 A 错误;
对于 BC,由散点图可知变量 与 的变化趋向于一条曲线,所以模型二能更好地 拟合 GDP 值随年份的变化情况,所以 B 错误,C错误;
对于 D,若选择模型二:,令,则的图像一定过点,不一定过点,故D正确.
故选:D.
6.C
【分析】利用插空法可判断A选项;利用正态密度曲线的对称性可判断B选项;利用对数的运算可判断C选项;利用方差的性质可判断D选项.
【详解】对于A选项,一台晩会有个节目,其中有个小品,如果个小品不连续演出,
只需先将其余个节目全排,然后将个小品插入另外个节目形成的个空位中的两个即可,
因此,不同的演出顺序种数为,A错;
对于B选项,已知随机变量服从正态分布,,
则,B错;
对于C选项,以模型去拟合一组数据时,为了求出回归方程,设,
则,
所以,,解得,C对;
对于D选项,因为样本数据、、、的方差为,
则数据、、、的方差为,D错.
故选:C.
7.ABC
【分析】A选项,计算出样本中心点,代入回归方程,求出;B选项,根据百分位数的定义进行求解;C选项,y与x正相关,C正确;D选项,计算出第六年的借阅量约为6.12万册,D错误.
【详解】A选项,,,
将代入得,,解得,A正确;
B选项,,故从小到大选择第4个数作为75%分位数,
即,故借阅量4.9,5.1,5.5,5.7,5.8的75%分位数为5.7,B正确;
C选项,因为,所以y与x正相关,故y与x的线性相关系数,C正确;
D选项,中,令得,
故第六年的借阅量约为6.12万册,可能比6.12万册多,也可能比6.12万册少,D错误.
故选:ABC
8.ABD
【分析】随着变量的增加,变量也在增加可判断A选项;根据决定系数越接近1,拟合效果越好可判断B选项;由经验回归方程的定义可判断C选项;由经验回归方程必过样本中心点可判断D选项.
【详解】对于A选项:随着变量的增加,变量也在增加,故变量和变量成正相关,即样本相关系数为正数,正确;
对于B选项:因为,故比的拟合效果好,正确;
对于C选项:回归方程可预测2024年的能源消费总量,不可准确预测,错误;
对于D选项:由回归方程必过样本中心点,可知,正确.
故选:ABD.
9.BC
【分析】根据回归方程可判定A,根据正态分布可判定B,根据数据的平均数可判定C,根据回归方程及残差的概念可判定D.
【详解】若有一个经验回归方程,随着的增大,会减小,A错误;
曲线关于对称,因为,所以,
所以,B正确;
因为,
所以,
故,C正确;
经验回归方程为,且样本点与的残差相等,
则,所以,D错误.
故选:BC.
10.290
【分析】先利用残差的计算公式求出,再根据回归直线过样本点的中心求出,即可得解.
【详解】因为在样本点处的残差为0,
所以,得,
则y关于x的线性回归方程为.
因为,所以,
所以.
故答案为:
11.
【分析】先求出,因为在回归直线上,求出,将化简为,代入即可得出答案.
【详解】由题意得,因为在回归直线上,所以,由得与比较得:,a.
故答案为:.
12.(1)更适宜
(2)
(3)选择方案1最佳,理由见解析
【分析】(1)根据散点图的形状,可判断更适宜作为平均产卵数y关于平均温度x的回归方程类型;
(2)将两边同时取自然对数,转化为线性回归方程,即可得到答案;
(3)求出三种方案的收益的均值,根据均值越大作为判断标准.
【详解】(1)由散点图可以判断,更适宜作为平均产卵数y关于平均温度x的回归方程类型.
(2)将两边同时取自然对数,可得,
由题中的数据可得,,,
所以,
则,
所以z关于x的线性回归方程为,
故y关于x的回归方程为;
(3)用,和分别表示选择三种方案的收益.
采用第1种方案,无论气温如何,产值不受影响,收益为万,即
采用第2种方案,不发生28℃以上的红蜘蛛虫害,收益为万,
如果发生,则收益为万,即,
同样,采用第3种方案,有
所以,,

.
显然,最大,所以选择方案1最佳.
13.(1)
(2)分布列见解析,2
【分析】(1)令,将指数型回归方程转化为线性回归方程,利用最小二乘法的估计系数公式,即可求得答案;
(2)确定真菌与细菌的数值之比位于区间内的组数,即可确定X的取值,求出每个值对应的概率,即可得分布列,即可求得数学期望.
【详解】(1)由于,故,
令,则,

则,,
故,则关于的经验回归方程为;
(2)由已知图表可知从第1组到第8组的真菌(单位:百万个)与细菌(单位:百万个)的数值之比依次为:
,,
故样本中比值位于内的组数有4组,则X的可能取值为:,
则,,
故X的分布列为:
X 0 1 2 3 4
P
则.
14.C
【分析】先计算,代入线性回归方程求得,再计算即可.
【详解】由条件可知,代入,
则,故C正确.
故选:C
15.C
【分析】根据已知条件,求得,进而代入回归方程可求得,从而得出,联立,即可求得本题答案.
【详解】由已知可得,,,
所以,有,解得,
所以,,
由,得,
所以,,则.
故选:C.
16.
【分析】经过变换后将非线性问题转化为线性问题,在求样本点的中心,回归直线一定过该点,即可求出参数.
【详解】经过变换后,得到,根据题意,故,又,故,,故,于是回归方程为一定经过,故,解得,即,于是.
故答案为:.
17.①②
【解析】根据散点图可以判定变量负相关,指数型函数模型比直线型更恰当,相关指数更大,变量间可以建立线性回归方程,拟合效果不大好.
【详解】在散点图中,点散布在从左上角到右下角的区域,因此x,y是负相关关系,故①正确;
由散点图知用拟合比用拟合效果要好,则R>R,故②正确;
x,y之间可以建立线性回归方程,但拟合效果不好,故③错误.
故答案为:①②
【点睛】此题考查回归模型建立,利用恰当的模型拟合变量间的相关关系,及相关指数与拟合效果之间的关系辨析.
18.(1)②更适宜,;
(2)7.5min.
【分析】(1)根据散点图选择②,取对数,再利用最小二乘法公式求出回归直线方程即可.
(2)利用(1)中回归方程,列出关于的方程求解即得.
【详解】(1)由散点图知,更适宜的回归方程为②,即.
由,得,两边取自然对数,得,
令,则,

结合表中数据,得,
结合参考数据可得,由,得,
所以茶水温度y关于时间x的回归方程为.
(2)依题意,室温下,茶水温度降至口感最佳,
即,整理得,
于是,解得,
所以在相同条件下,刚泡好的茶水大约需要放置7.5min才能达到最佳引用口感.
答案第1页,共2页
答案第1页,共2页8.2.1一元线性回归模型+8.2.2一元线性回归模型
第三课 知识扩展延伸
扩展1:非线性回归分析
例3.近期,某公交公司分别推出支付宝和微信扫码支付乘车活动,活动设置了一段时间的推广期,由于推广期内优惠力度较大,吸引越来越多的人开始使用扫码支付,某线路公交车队统计了活动刚推出一周内每天使用扫码支付的人次,用x表示活动推出的天数,y表示每天使用扫码支付的人次(单位:十人次),绘制了如图所示的散点图.
(1)根据散点图判断在推广期内,与(c,d为大于0的常数)哪一个适宜作为每天使用扫码支付的人次y关于活动推出天数x的经验回归方程类型?(给出判断即可,不必说明理由)
(2)根据(1)的判断结果求y关于x的回归方程,并预测活动推出第8天使用扫码支付的人次.
参考数据:
4 62 1.54 2535 50.12 140 3.47
其中,.
附:对于一组数据,,…,,其经验回归直线的斜率和截距的最小二乘估计分别为,.
【解】(1)根据散点图判断,适宜作为每天使用扫码支付的人次y关于活动推出天数x的回归方程类型.
(2)∵,两边取对数得,
设,∴.
∵,,,
∴,
则,则,即,
∴y关于x的经验回归方程为.
把代入上式得,
故活动推出第8天使用扫码支付的人次约为3470.
【方法总结】对于非线性回归问题,可以画出已知数据的散点图,把它与学过的各种函数(幂函数、指数函数、对数函数等)的图象作比较,挑选一种跟这些散点拟合得最好的函数,然后采用适当的变量变换,把问题化为线性回归问题,使之得到解决,其一般步骤为:
【举一反三1-1】
1.给出下列说法:①以模型去拟合一组数据时,为了求出线性回归方程,设,将其变换后得到线性回归方程,则,的值分别是和0.3;②根据具有线性相关关系的两个变量的统计数据所得的线性回归方程中,,,,则;③通过线性回归方程,可以精确反映变量的取值和变化趋势.其中错误的个数是( )
A.1 B.2 C.3 D.0
【举一反三1-2】[江西景德镇一中2021高二期末]
2.某大型现代化农场在种植某种大棚有机无公害的蔬菜时,为创造更大价值,提高亩产量,积极开展技术创新活动.该农场采用了延长光照时间的方案,该农场选取了20间大棚(每间一亩)进行试点,得到各间大棚产量数据绘制成散点图.光照时长为(单位:小时),大棚蔬菜产量为(单位:千斤每亩),记.
(1)根据散点图判断,与,哪一个适宜作为大棚蔬菜产量关于光照时长的回归方程类型(给出判断即可,不必说明理由);
(2)根据(1)的判断结果及表中数据,建立关于的回归方程;(结果保留小数点后两位)
(3)根据实际种植情况,发现上述回归方程在光照时长位于6~14小时内拟合程度良好,利用(2)中所求方程估计当光照时长为小时(自然对数的底),大棚蔬菜亩产约为多少.
参数数据:
290 102.4 52 4870 540.28 137 1578.2 272.1
参考公式:关于的线性回归方程中,,
扩展2:一元回归模型的综合应用
例2.(2024·全国·模拟预测)自媒体职业就是通过自媒体平台发布文章或者视频,赚取收益的职业.某自媒体从业人员从业10个月以来的月收益(单位:元)统计如下:
第个月 1 2 3 4 5 6 7 8 9 10
月收益(单位:元) 400 1600 1800 2400 2000 2600 3000 3200 3400 3600
(1)若该自媒体从业人员的月收益与自媒体从业时间成正相关关系,试估计该自媒体从业人员从业第几个月开始月收益超过5000元;
(2)从这10个月的月收益不低于2400元的月份里随机抽取3个月进行话题分析,记这3个月中月收益不低于3000元的有个月,求的分布列和期望.
附:经验回归方程中,,其中为样本均值.
【答案】(1)第14个月
(2)分布列见解析,
【分析】(1)根据最小二乘法即可求解回归方程,进而可由不等式求解,
(2)根据超几何的概率公式求解分布列,即可由期望公式求解期望.
【详解】(1),



经验回归方程为.
令,解得,
估计该自媒体从业人员从业第14个月开始月收益超过5000元.
(2)在这10个月中,月收益不低于2400元的有6个月,月收益不低于3000元的有4个月,
的所有可能取值为,

的分布列为
1 2 3

【方法总结】线性回归分析问题的解题策略
(1)利用公式,求出回归系数;
(2)利用经验回归直线过样本点的中心求系数;
(3)利用经验回归方程进行预测,把回归方程看作一次函数,将解释变量x的值代入,得到预测变量的值.
【举一反三2-1】(2024·全国·模拟预测)
3.20世纪80年代初,随着我国的改革开放,经济体制和经营体制逐渐灵活,市场上的商品日益丰富,城市和农村出现小卖部.小卖部主营生活日用商品,有着经营成本小、规模小、商品种类少分布广等特点.近几年,人们的生活水平达到了新的高度,实体小卖部逐渐被应运而生的大小超市所取代.为适应市场,某小卖部经营者欲将经营规模扩大,将小卖部发展成生鲜综合超市,现将2013~2022年的年利润(单位:万元)统计如下:
年限 1 2 3 4 5 6 7 8 9 10
年利润(万元) 2 8 9 12 10 13 15 16 17 18
其中,年限1表示2013年,2表示2014年,3表示2015年,……,以此类推,10表示2022年.
(1)若年利润(单位:万元)与小卖部营业年限成正相关关系,在不改变经营状态的情况下,预测该小卖部2023年的年利润;
(2)以年利润是否低于12万元为评价标准,按照分层抽样从2013~2022年的年利润中随机抽取5个,再从这5个数据中随机抽取2个,求抽取的2个数据至少有1个低于12万元的概率.
附:线性回归方程中,,其中为样本均值.
【举一反三2-2】
4.树木根部半径与树木的高度呈正相关,即树木根部越粗,树木的高度也就越高.某块山地上种植了树木,某农科所为了研究树木的根部半径与树木的高度之间的关系,从这些地块中用简单随机抽样的方法抽取6棵树木,调查得到树木根部半径(单位:米)与树木高度(单位:米)的相关数据如表所示:
0.1 0.2 0.3 0.4 0.5 0.6
1.1 1.3 1.6 1.5 2.0 2.1
(1)求关于的线性回归方程;
(2)对(1)中得到的回归方程进行残差分析,若某树木的残差为零则认为该树木“长势标准”,在此片树木中随机抽取1棵树木,估计这棵树木“长势标准”的概率.
参考公式:回归直线方程为,其中,.
(2023·天津·高考真题)
5.鸢是鹰科的一种鸟,《诗经·大雅·旱麓》曰:“鸢飞戾天,鱼跃余渊”. 鸢尾花因花瓣形如鸢尾而得名,寓意鹏程万里、前途无量.通过随机抽样,收集了若干朵某品种鸢尾花的花萼长度和花瓣长度(单位:cm),绘制散点图如图所示,计算得样本相关系数为,利用最小二乘法求得相应的经验回归方程为,根据以上信息,如下判断正确的为( )
A.花瓣长度和花萼长度不存在相关关系
B.花瓣长度和花萼长度负相关
C.花萼长度为7cm的该品种鸢尾花的花瓣长度的平均值为
D.若从样本中抽取一部分,则这部分的相关系数一定是
(2024·四川广安·二模)
6.某公司收集了某商品销售收入(万元)与相应的广告支出(万元)共10组数据(),绘制出如下散点图,并利用线性回归模型进行拟合.
若将图中10个点中去掉点后再重新进行线性回归分析,则下列说法正确的是( )
A.决定系数变小 B.残差平方和变小
C.相关系数的值变小 D.解释变量与预报变量相关性变弱
(广东·高考真题)
7.某数学老师身高,他爷爷、父亲和儿子的身高分别是、和.因儿子的身高与父亲的身高有关,该老师用线性回归分析的方法预测他孙子的身高为
(2024·江苏·一模)
8.已知变量的统计数据如下表,对表中数据作分析,发现与之间具有线性相关关系,利用最小二乘法,计算得到经验回归直线方程为,据此模型预测当时的值为 .
5 6 7 8 9
3.5 4 5 6 6.5
(安徽·高考真题)
9.某地最近十年粮食需求量逐年上升,下表是部分统计数据:
年份 2002 2004 2006 2008 2010
需求量(万吨) 236 246 257 276 286
(1)利用所给数据求年需求量与年份之间的回归直线方程;
(2)利用(1)中所求的直线方程预测该地2012年的粮食需求量.
(广东·高考真题)
10.下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x(吨)与相应的生产能耗y(吨标准煤)的几组对照数据
x 3 4 5 6
y 2.5 3 4 4.5
(1) 请画出上表数据的散点图;
(2) 请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程;
(3) 已知该厂技术改造前100吨甲产品能耗为90吨标准煤.试根据(2)求出的线性回归方程,预测生产100吨甲产品的生产能耗比技术改造前降低多少吨标准煤?
(参考数据: 3×2.5+4×3+5×4+6×4.5=66.5)
(2022·全国·高考真题)
11.某地经过多年的环境治理,已将荒山改造成了绿水青山.为估计一林区某种树木的总材积量,随机选取了10棵这种树木,测量每棵树的根部横截面积(单位:)和材积量(单位:),得到如下数据:
样本号i 1 2 3 4 5 6 7 8 9 10 总和
根部横截面积 0.04 0.06 0.04 0.08 0.08 0.05 0.05 0.07 0.07 0.06 0.6
材积量 0.25 0.40 0.22 0.54 0.51 0.34 0.36 0.46 0.42 0.40 3.9
并计算得.
(1)估计该林区这种树木平均一棵的根部横截面积与平均一棵的材积量;
(2)求该林区这种树木的根部横截面积与材积量的样本相关系数(精确到0.01);
(3)现测量了该林区所有这种树木的根部横截面积,并得到所有这种树木的根部横截面积总和为.已知树木的材积量与其根部横截面积近似成正比.利用以上数据给出该林区这种树木的总材积量的估计值.
附:相关系数.
(全国·高考真题)
12.下图是某地区2000年至2016年环境基础设施投资额(单位:亿元)的折线图.
为了预测该地区2018年的环境基础设施投资额,建立了与时间变量的两个线性回归模型.根据2000年至2016年的数据(时间变量的值依次为)建立模型①:;根据2010年至2016年的数据(时间变量的值依次为)建立模型②:.
(1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值;
(2)你认为用哪个模型得到的预测值更可靠?并说明理由.
试卷第1页,共3页
试卷第1页,共3页
参考答案:
1.A
【分析】根据线性回归方程的知识判断出正确选项.
【详解】①,,依题意,
对比系数得,①正确.
②,回归直线方程过样本中心点,所以,②正确.
③,通过线性回归方程,无法精确反映变量的取值,③错误.
所以错误的个数是个.
故选:A
2.(1)更适宜作为回归方程类型;(2);(3)千斤每亩.
【解析】(1)根据散点图中点的位置判断;
(2)记.则为,由已知数据计算方程中的系数,即可得;
(3)在(2)的方程中令代入计算可得.
【详解】(1)根据散点图,开始的点在某条直线旁,但后面的点会越来越偏离这条直线,因此更适宜作为回归方程类型;
(2)记.则为,
,,
,,
所以,即.
(3)时,.
【点睛】关键点点睛:本题考查线性回归直线方程,解题关键是根据已知数据计算出回归直线方程中系数.考查了运算求解能力.求解时,注意题目提供的数据,公式,特别是计算公式不能把数据弄混,否则会得出错误结果.
3.(1)20.47万元
(2)
【分析】(1)根据图表利用最小二乘法计算线性回归方程并预测即可;
(2)根据图表利用分层抽样及古典概型计算即可.
【详解】(1),
,


线性回归方程为.
当时,,
在不改变经营状态的情况下,预测该小卖部2023年的年利润为20.47万元.
(2)2013~2022年的年利润中低于12万元的有4个,不低于12万元的有6个,
按照分层抽样从2013~2022年的年利润中随机抽取5个,
则年利润低于12万元的有2个,记为,不低于12万元的有3个,
记为.
从这5个数据中随机抽取2个,
所有等可能结果有,,共10种,
其中,抽取的2个数据至少有1个低于12万元的结果有,共7种,
故所求概率为.
4.(1);(2)
【分析】(1)由最小二乘法先求样本点中心,再代入公式求,即可得到答案;
(2)先计算6棵A树木中残差为零的有3棵,占比为,即可得到答案;
【详解】(1)由,



有,

故关于的回归方程为:.
(2)当时,,残差为,
当时,,残差为,
当时,,残差为,
当时,,残差为,
当时,,残差为,
当时,,残差为,
由这6棵A树木中残差为零的有3棵,占比为,
这棵树木“长势标准”的概率为.
5.C
【分析】根据散点图的特点及经验回归方程可判断ABC选项,根据相关系数的定义可以判断D选项.
【详解】根据散点的集中程度可知,花瓣长度和花萼长度有相关性,A选项错误
散点的分布是从左下到右上,从而花瓣长度和花萼长度呈现正相关性,B选项错误,
把代入可得,C选项正确;
由于是全部数据的相关系数,取出来一部分数据,相关性可能变强,可能变弱,即取出的数据的相关系数不一定是,D选项错误
故选:C
6.B
【分析】从图中分析得到去掉点后,回归效果更好,再由决定系数,残差平方和,相关系数和相关性的概念和性质作出判断.
【详解】从图中可以看出点较其他点,偏离直线远,故去掉点后,回归效果更好,
故决定系数会变大,更接近于1,残差平方和变小,
相关系数的绝对值,即会更接近于1,由图可得与正相关,故会更接近于1,
即相关系数的值变大,解释变量与预报变量相关性变强,
故A、C、D错误,B正确.
故选:B.
7.
【分析】设出解释变量和预报变量;代入线性回归方程公式,求出线性回归方程,将方程中的用182代替,求出他孙子的身高.
【详解】解:设表示父亲的身高,表示儿子的身高,则随的变化情况如下:
173 170 176 182
170 176 182 ?
,,
,,
线性回归方程
当时,.
故答案为:
8.7.4
【分析】经验回归直线方程过样本点的中心,所以把代入求得的值,再代入求解即可.
【详解】由已知得,即样本点中心,
因为经验回归直线方程过样本点的中心,
所以,解得.
所以,当时,.
故答案为:.
9.(1);(2)该地2012年的粮食需求量约为万吨.
【分析】(1)根据给定数据求出,再利用最小二乘法公式计算b即可计算作答.
(2)利用(1)的结论求出时的即可作答.
【详解】(1)依题意,,,
因此,,,
年需求量与年份之间的回归直线方程是:;
(2)由(1)知,当x=2012时,(万吨),
所以预测该地2012年的粮食需求量约为万吨.
10.(1)见解析;
(2)线性回归方程为y=0.7x+0.35
(3)19.65(吨)
【详解】(1)所求散点图如图所示:

(2) 3×2.5+4×3+5×4+6×4.5=66.5,



故所求线性回归方程为=0.7x+0.35.
(3)根据回归方程的预测,现在生产100吨产品消耗的标准煤的数量为0.7×100+0.35=70.35,故耗能降低了90-70.35=19.65吨标准煤.
11.(1);
(2)
(3)
【分析】(1)计算出样本的一棵根部横截面积的平均值及一棵材积量平均值,即可估计该林区这种树木平均一棵的根部横截面积与平均一棵的材积量;
(2)代入题给相关系数公式去计算即可求得样本的相关系数值;
(3)依据树木的材积量与其根部横截面积近似成正比,列方程即可求得该林区这种树木的总材积量的估计值.
【详解】(1)样本中10棵这种树木的根部横截面积的平均值
样本中10棵这种树木的材积量的平均值
据此可估计该林区这种树木平均一棵的根部横截面积为,
平均一棵的材积量为
(2)

(3)设该林区这种树木的总材积量的估计值为,
又已知树木的材积量与其根部横截面积近似成正比,
可得,解之得.
则该林区这种树木的总材积量估计为
12.(1)利用模型①预测值为226.1,利用模型②预测值为256.5,(2)利用模型②得到的预测值更可靠.
【详解】分析:(1)两个回归直线方程中无参数,所以分别求自变量为2018时所对应的函数值,就得结果;(2)根据折线图知2000到2009,与2010到2016是两个有明显区别的直线,且2010到2016的增幅明显高于2000到2009,也高于模型1的增幅,因此所以用模型2更能较好得到2018的预测.
详解:(1)利用模型①,该地区2018年的环境基础设施投资额的预测值为
=–30.4+13.5×19=226.1(亿元).
利用模型②,该地区2018年的环境基础设施投资额的预测值为
=99+17.5×9=256.5(亿元).
(2)利用模型②得到的预测值更可靠.
理由如下:
(i)从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线y=–30.4+13.5t上下,这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型=99+17.5t可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠.
(ii)从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①得到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理,说明利用模型②得到的预测值更可靠.
点睛:若已知回归直线方程,则可以直接将数值代入求得特定要求下的预测值;若回归直线方程有待定参数,则根据回归直线方程恒过点求参数.
答案第1页,共2页
答案第1页,共2页

展开更多......

收起↑

资源列表