资源简介 中小学教育资源及组卷应用平台第三节 成对数据的统计分析第1课时 变量间的相关关系及回归模型课标解读 考向预测1.结合具体实例,了解一元线性回归模型的含义,了解模型中参数的统计意义,了解最小二乘原理,掌握一元线性回归模型中参数的最小二乘估计方法,会使用相关的统计软件. 2.针对实际问题,会用一元线性回归模型进行预测. 预计2025年高考,变量间的相关关系、回归模型主要以应用题的方式出现,需要在复杂的题目描述中找出数量关系,建立数学模型,并且运用数学模型解决实际问题,考查分析问题和处理数据的能力.【知识梳理】1.变量的相关关系(1)相关关系两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系.(2)散点图将各数据在平面直角坐标系中的对应点画出来,得到表示两个变量的一组数据的图形,这样的图形叫做散点图.利用散点图,可以判断两个变量是否相关,相关时是正相关还是负相关.(3)正相关和负相关①当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势,我们就称这两个变量正相关.②负相关:当一个变量的值增加时,另一个变量的相应值呈现减小的趋势,则称这两个变量负相关.(4)线性相关①一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,我们就称这两个变量线性相关.②一般地,如果两个变量具有相关性,但不是线性相关,那么我们就称这两个变量非线性相关或曲线相关.2.样本相关系数(1)相关系数r的计算变量x和变量y的样本相关系数r的计算公式如下:r==.(2)相关系数r的性质①当r>0时,称成对样本数据正相关;当r<0时,称成对样本数据负相关;当r=0时,成对样本数据间没有线性相关关系.②样本相关系数r的取值范围为[-1,1].当|r|越接近1时,成对样本数据的线性相关程度越强;当|r|越接近0时,成对样本数据的线性相关程度越弱.3.一元线性回归模型经验回归方程与最小二乘法我们将=x+称为Y关于x的经验回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线.这种求经验回归方程的方法叫做最小二乘法,求得的,叫做b,a的最小二乘估计,其中4.残差与残差分析(1)残差:对于响应变量Y,通过观测得到的数据称为观测值,通过经验回归方程得到的称为预测值,观测值减去预测值称为残差.(2)残差分析:残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.(3)刻画回归效果的方式①残差图法作图时纵坐标为残差,横坐标为自变量x,这样作出的图形称为残差图.在残差图中,残差点比较均匀地分布在以取值为0的横轴为对称轴的水平的带状区域内,说明选用的模型比较合适,这样的带状区域的宽度越窄,说明模型拟合精度越高.②残差平方和法残差平方和为 (yi-i)2,残差平方和越小,模型拟合效果越好.③利用决定系数R2刻画回归效果R2=1-,R2越大,模型拟合效果越好;R2越小,模型拟合效果越差.【常用结论】1.求解经验回归方程的关键是确定回归系数,,应充分利用回归直线过点(,).2.根据经验回归方程计算的值,仅是一个预测值,不是真实发生的值.【诊断自测】1.概念辨析(正确的打“√”,错误的打“×”)(1)经验回归方程=x+中,若<0,则变量x和y负相关.( )(2)经验回归直线=x+至少经过点(x1,y1),(x2,y2),…,(xn,yn)中的一个点.( )(3)样本相关系数的绝对值越接近1,成对样本数据的线性相关程度越强.( )(4)残差平方和越大,线性回归模型的拟合效果越好.( )答案 (1)× (2)× (3)√ (4)×2.小题热身(1)甲、乙、丙、丁四位同学在建立变量x,y的回归模型时,分别选择了4种不同模型,计算可得它们的R2分别如下表:甲 乙 丙 丁R2 0.98 0.78 0.50 0.85建立的回归模型拟合效果最好的是( )A.甲 B.乙C.丙 D.丁答案 A解析 R2越大,表示回归模型的拟合效果越好.(2)某校一个课外学习小组为研究某作物种子的发芽率y和温度x(单位:℃)的关系,在20个不同的温度条件下进行种子发芽实验,由实验数据(xi,yi)(i=1,2,…,20)得到下面的散点图:由此散点图,在10 ℃至40 ℃之间,下面四个回归方程类型中,最适宜作为发芽率y和温度x的回归方程类型的是( )A.y=a+bx B.y=a+bx2C.y=a+bex D.y=a+bln x答案 D解析 由散点图分布可知,散点图分布在一个对数型函数图象的附近,因此最适宜作为发芽率y和温度x的回归方程类型的是y=a+bln x.故选D.(3)(人教A选择性必修第三册复习参考题8 T2改编)在一元线性回归模型Y=bx+a+e中,下列说法正确的是( )A.Y=bx+a+e是一次函数B.响应变量Y是由解释变量x唯一确定的C.响应变量Y除了受解释变量x的影响外,可能还受到其他因素的影响,这些因素会导致随机误差e的产生D.随机误差e是由于计算不准确造成的,可通过精确计算避免随机误差e的产生答案 C解析 对于A,一元线性回归模型Y=bx+a+e中,方程表示的不是确定性关系,因此不是一次函数,所以A错误;对于B,响应变量Y不是由解释变量x唯一确定的,所以B错误;对于C,响应变量Y除了受解释变量x的影响外,可能还受到其他因素的影响,这些因素会导致随机误差e的产生,所以C正确;对于D,随机误差是不能避免的,只能将误差缩小,所以D错误.(4)若某商品的广告费支出x(单位:万元)与销售额y(单位:万元)之间有如下表所示的对应数据:x 2 4 5 6 8y 20 40 60 70 80根据表中数据,利用最小二乘法求得y关于x的经验回归方程为=x+1.5,当广告费支出为10万元时,销售额的估计值为________万元.答案 106.5解析 =×(2+4+5+6+8)=5,=×(20+40+60+70+80)=54,所以样本中心为(5,54),将其代入经验回归方程=x+1.5中,有54=5+1.5,解得=10.5,所以经验回归方程为=10.5x+1.5,当x=10时,=10.5×10+1.5=106.5.【考点探究】考点一 变量间相关关系的判断例1 (1)对四组数据进行统计,获得如图所示的散点图,关于其样本相关系数的比较,正确的是( )A.r2C.r4答案 A解析 由散点图知图①与图③是正相关,故r1>0,r3>0,图②与图④是负相关,故r2<0,r4<0,且图①与图②的样本点集中在一条直线附近,因此r2(2)(2023·河北邢台阶段考试)已知r1表示变量X与Y之间的线性相关系数,r2表示变量U与V之间的线性相关系数,且r1=0.837,r2=-0.957,则( )A.变量X与Y之间呈正相关关系,且X与Y之间的相关性强于U与V之间的相关性B.变量X与Y之间呈负相关关系,且X与Y之间的相关性强于U与V之间的相关性C.变量U与V之间呈负相关关系,且X与Y之间的相关性弱于U与V之间的相关性D.变量U与V之间呈正相关关系,且X与Y之间的相关性弱于U与V之间的相关性答案 C解析 因为线性相关系数r1=0.837,r2=-0.957,所以变量X与Y之间呈正相关关系,变量U与V之间呈负相关关系,且X与Y之间的相关性弱于U与V之间的相关性.故选C.【通性通法】判断相关关系的方法(1)散点图法:如果样本点的分布从整体上看大致在某一曲线附近,变量之间就有相关关系;如果样本点的分布从整体上看大致在某一直线附近,变量之间就有线性相关关系.(2)样本相关系数:当r>0时,正相关;当r<0时,负相关;|r|越接近于1,相关性越强.(3)经验回归方程:当>0时,正相关;当<0时,负相关.【巩固迁移】1.在一组样本数据(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,x2,…,xn不全相等)的散点图中,若所有样本点(xi,yi)(i=1,2,…,n)都在直线y=-x+1上,则这组样本数据的样本相关系数为( )A.-1 B.0C.- D.1答案 A解析 因为所有样本点都在直线y=-x+1上,呈现完全负相关,所以样本相关系数为-1.2.(2023·天津高考)调查某种群花萼长度和花瓣长度,所得数据如图所示.其中相关系数r=0.8245,下列说法正确的是( )A.花瓣长度和花萼长度没有相关性B.花瓣长度和花萼长度呈负相关C.花瓣长度和花萼长度呈正相关D.若从样本中抽取一部分,则这部分的相关系数一定是0.8245答案 C解析 因为相关系数r=0.8245>0.75,所以花瓣长度和花萼长度的相关性较强,并且呈正相关,所以A,B错误,C正确;因为相关系数与样本的数据有关,所以当样本发生变化时,相关系数也可能会发生变化,所以D错误.故选C.考点二 样本相关系数、决定系数的应用例2 (2022·全国乙卷)某地经过多年的环境治理,已将荒山改造成了绿水青山,为估计一林区某种树木的总材积量,随机选取了10棵这种树木,测量每棵树的根部横截面积(单位:m2)和材积量(单位:m3),得到如下数据:样本号i 1 2 3 4 5 6 7 8 9 10 总和根部 横截 面积xi 0.04 0.06 0.04 0.08 0.08 0.05 0.05 0.07 0.07 0.06 0.6材积量yi 0.25 0.40 0.22 0.54 0.51 0.34 0.36 0.46 0.42 0.40 3.9并计算得x=0.038,y=1.6158,xiyi=0.2474.(1)估计该林区这种树木平均一棵的根部横截面积与平均一棵的材积量;(2)求该林区这种树木的根部横截面积与材积量的样本相关系数(精确到0.01);(3)现测量了该林区所有这种树木的根部横截面积,并得到所有这种树木的根部横截面积总和为186 m2.已知树木的材积量与其根部横截面积近似成正比.利用以上数据给出该林区这种树木的总材积量的估计值.附:相关系数r=,≈1.377.解 (1)设这种树木平均一棵的根部横截面积为,平均一棵的材积量为,则==0.06,==0.39.(2)r====≈≈0.97.(3)设所有这种树木的根部横截面积总和为X,总材积量为Y,则=,故Y=×186=1209(m3).【通性通法】经验回归方程的拟合效果,可以利用相关系数r判断,当|r|越趋近于1时,两变量的线性相关性越强.或利用决定系数R2判断,R2越大,拟合效果越好.【巩固迁移】3.我国机床行业核心零部件对外依存度较高,我国整机配套的中高档功能部件大量依赖进口,根据中国机床工具工业协会的数据,国内高档系统自给率不到10%,约90%依赖进口.因此,迅速提高国产数控机床功能部件制造水平,加快国产数控机床功能部件产业化进程至关重要.通过对某机械上市公司近几年的年报公布的研发费用x(单位:亿元)与产品的直接收益y(单位:亿元)的数据进行统计,得到下表:年份 2016 2017 2018 2019 2020 2021 2022x 2 3 4 6 8 10 13y 15 22 27 40 48 54 60根据数据,可建立y关于x的两个回归模型:模型①:=4.1x+10.9;模型②:=21.3-14.4.(1)根据表格中的数据,分别求出模型①,②的决定系数R2的大小(结果保留三位有效数字);(2)(ⅰ)根据(1)选择拟合精度更高、更可靠的模型;(ⅱ)若2023年该公司计划投入研发费用17亿元,使用(ⅰ)中的模型预测可为该公司带来多少直接收益?回归模型 模型① 模型②(yi-i)2 79.13 18.86附:R2=1-, ≈4.1.解 (1)因为==38,所以 (yi-)2=232+162+112+22+102+162+222=1750,则模型①的决定系数R=1-=1-≈0.955,模型②的决定系数R=1-=1-≈0.989.(2)(ⅰ)由(1)知,R(ⅱ)由经验回归方程=21.3-14.4,可得当x=17时,=21.3-14.4≈72.93,所以若2023年该公司计划投入研发费用17亿元,大约可为该公司带来72.93亿元的直接收益.考点三 回归分析(多考向探究)考向1 一元线性回归模型例3 已知某绿豆新品种发芽的适宜温度在6~22 ℃之间,一农学实验室研究人员为研究温度x(单位:℃)与绿豆新品种发芽数y(单位:颗)之间的关系,每组选取了成熟种子50颗,分别在对应的8~14 ℃的温度环境下进行实验,得到如下散点图:其中=24, (xi-)(yi-)=70,(yi-)2=176.(1)运用相关系数进行分析说明,是否可以用线性回归模型拟合y与x的关系?(2)求出y关于x的经验回归方程=x+,并预测在19 ℃的温度下,种子的发芽颗数.参考公式:相关系数r=,经验回归方程=x+,其中=,=-.参考数据: ≈8.77.解 (1)根据题意,得=×(8+9+10+11+12+13+14)=11.(xi-)2=(8-11)2+(9-11)2+(10-11)2+(11-11)2+(12-11)2+(13-11)2+(14-11)2=28,==8≈70.16.因而相关系数r=≈≈0.998.由于|r|≈0.998很接近1,∴可以用线性回归模型拟合y与x的关系.(2)===,=24-×11=-,∴y关于x的经验回归方程为=x-.若x=19,则=×19-=44颗,∴在19 ℃的温度下,预测种子的发芽颗数为44.【通性通法】求经验回归方程的步骤【巩固迁移】4.(2023·安徽马鞍山第三次教学质量监测)为了研究某果园的一种果树的产量与种植密度的关系,某中学的数学兴趣小组在该果园选取了一块种植区域进行了统计调查,他们将每株果树与其直线距离不超过1米的果树株数x记为其密度,在记录了该种植区域内每株果树的密度后,从中选取密度为0,1,2,3,4的果树,统计其产量的平均值y(单位:kg),得到如下统计表:x 0 1 2 3 4y 15 12 11 9 8(1)小组成员甲认为y与x有很强的线性相关关系,请你帮他利用最小二乘法求出y关于x的经验回归方程=x+;(2)小组成员乙提出:若利用经验回归方程计算的平均产量的估计值i与实际的平均产量yi(1≤i≤n,n∈N*)满足|yi-i|>0.5,则应该修正模型,寻找更合适的函数拟合x与y的关系.统计知种植密度分别为5,6的果树的平均产量为5.5 kg、4.4 kg,请你以这七组数据为依据判断(1)中得到的经验回归方程是否需要修正?参考公式:=,=-.解 (1)=2,=11,xiyi=93,x-52=10,故==-1.7,=-=14.4,所以经验回归方程为=-1.7x+14.4.(2)令x=0,1,2,3,4,5,6,代入=-1.7x+14.4,分别得|-y|=0.6,0.7,0,0.3,0.4,0.4,0.2,从而|yi-i|=<0.5,故不需要修正.考向2 非线性回归模型例4 某工厂生产一种产品,从该种产品中随机抽取6件合格产品,测得数据如下:尺寸x/mm 38 48 58 68 78 88质量y/g 16.8 18.8 20.7 22.4 24 25.5(1)若按照检测标准,合格产品的质量y与尺寸x之间近似满足关系式y=c·xd(c,d为大于0的常数),求y关于x的经验回归方程;(2)已知合格产品的收益z(单位:千元)与合格产品尺寸和质量的关系为z=2y-0.32x,根据(1)中经验回归方程分析,当合格产品的尺寸x约为何值时(结果用整数表示),收益z的预报值最大?附:①参考数据: (ln xi·ln yi)=75.3, (ln xi)=24.6, (ln yi)=18.3, (ln xi)2=101.4.②参考公式:对于样本(vi,ui)(i=1,2,…,n),其经验回归直线=v+的斜率和截距的最小二乘估计公式分别为==,=-,e≈2.7182.解 (1)对y=c·xd(c,d>0)两边取自然对数得ln y=ln c+dln x.令vi=ln xi,ui=ln yi,则=v+,其中=ln .根据所给统计量及最小二乘估计公式得=====,=-=-×=-×=1,又=ln =1,所以=e,所以y关于x的经验回归方程为=e·x.(2)由(1)得=e·x,所以=2e-0.32x=-0.32()2+2e.令t=,则当t=时,取得最大值,此时x=t2≈72,所以当合格产品的尺寸x约为72时,收益z的预报值最大.【通性通法】非线性回归分析的步骤【巩固迁移】5.(2024·淄博诊断)小叶紫檀是珍稀树种,因其木质好备受玩家喜爱.其幼苗从观察之日起,第x天的高度为y cm,测得数据如下:x 1 4 9 16 25 36 49y 0 4 7 9 11 12 13数据的散点图如图所示:为近似描述y与x的关系,除了一次函数y=bx+a,还有y=b+a和y=bx2+a两个函数可选.(1)从三个函数中选出“最好”的曲线拟合y与x的关系,并求出其回归方程(保留到小数点后1位);(2)判断说法“高度从1000 cm长到1001 cm所需时间超过一年”是否成立,并给出理由.参考公式:==,=-.参考数据(其中ui=,ti=x):=20,=4,=668,=8,x=4676,u=140,t=7907396,xiyi=1567,uiyi=283,tiyi=56575.解 (1)从散点图可以看出,曲线的形状与函数y=相似,故选择函数y=b+a拟合y与x的关系.==≈2.1,≈8-2.1×4=-0.4,其经验回归方程为=2.1-0.4.(2)将y=1000,1001分别代入经验回归方程,得2.1-0.4=1000和2.1-0.4=1001,故x2-x1=-≈454,显然454>365,所以,说法“高度从1000 cm长到1001 cm所需时间超过一年”成立.21世纪教育网 www.21cnjy.com 精品试卷·第 2 页 (共 2 页)21世纪教育网(www.21cnjy.com)中小学教育资源及组卷应用平台第三节 成对数据的统计分析第1课时 变量间的相关关系及回归模型课标解读 考向预测1.结合具体实例,了解一元线性回归模型的含义,了解模型中参数的统计意义,了解最小二乘原理,掌握一元线性回归模型中参数的最小二乘估计方法,会使用相关的统计软件. 2.针对实际问题,会用一元线性回归模型进行预测. 预计2025年高考,变量间的相关关系、回归模型主要以应用题的方式出现,需要在复杂的题目描述中找出数量关系,建立数学模型,并且运用数学模型解决实际问题,考查分析问题和处理数据的能力.【知识梳理】1.变量的相关关系(1)相关关系两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系.(2)散点图将各数据在平面直角坐标系中的对应点画出来,得到表示两个变量的一组数据的图形,这样的图形叫做散点图.利用散点图,可以判断两个变量是否相关,相关时是正相关还是负相关.(3)正相关和负相关①当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势,我们就称这两个变量正相关.②负相关:当一个变量的值增加时,另一个变量的相应值呈现减小的趋势,则称这两个变量负相关.(4)线性相关①一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,我们就称这两个变量线性相关.②一般地,如果两个变量具有相关性,但不是线性相关,那么我们就称这两个变量非线性相关或曲线相关.2.样本相关系数(1)相关系数r的计算变量x和变量y的样本相关系数r的计算公式如下:r==.(2)相关系数r的性质①当r>0时,称成对样本数据正相关;当r<0时,称成对样本数据负相关;当r=0时,成对样本数据间没有线性相关关系.②样本相关系数r的取值范围为[-1,1].当|r|越接近1时,成对样本数据的线性相关程度越强;当|r|越接近0时,成对样本数据的线性相关程度越弱.3.一元线性回归模型经验回归方程与最小二乘法我们将=x+称为Y关于x的经验回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线.这种求经验回归方程的方法叫做最小二乘法,求得的,叫做b,a的最小二乘估计,其中4.残差与残差分析(1)残差:对于响应变量Y,通过观测得到的数据称为观测值,通过经验回归方程得到的称为预测值,观测值减去预测值称为残差.(2)残差分析:残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.(3)刻画回归效果的方式①残差图法作图时纵坐标为残差,横坐标为自变量x,这样作出的图形称为残差图.在残差图中,残差点比较均匀地分布在以取值为0的横轴为对称轴的水平的带状区域内,说明选用的模型比较合适,这样的带状区域的宽度越窄,说明模型拟合精度越高.②残差平方和法残差平方和为 (yi-i)2,残差平方和越小,模型拟合效果越好.③利用决定系数R2刻画回归效果R2=1-,R2越大,模型拟合效果越好;R2越小,模型拟合效果越差.【常用结论】1.求解经验回归方程的关键是确定回归系数,,应充分利用回归直线过点(,).2.根据经验回归方程计算的值,仅是一个预测值,不是真实发生的值.【诊断自测】1.概念辨析(正确的打“√”,错误的打“×”)(1)经验回归方程=x+中,若<0,则变量x和y负相关.( )(2)经验回归直线=x+至少经过点(x1,y1),(x2,y2),…,(xn,yn)中的一个点.( )(3)样本相关系数的绝对值越接近1,成对样本数据的线性相关程度越强.( )(4)残差平方和越大,线性回归模型的拟合效果越好.( )2.小题热身(1)甲、乙、丙、丁四位同学在建立变量x,y的回归模型时,分别选择了4种不同模型,计算可得它们的R2分别如下表:甲 乙 丙 丁R2 0.98 0.78 0.50 0.85建立的回归模型拟合效果最好的是( )A.甲 B.乙C.丙 D.丁(2)某校一个课外学习小组为研究某作物种子的发芽率y和温度x(单位:℃)的关系,在20个不同的温度条件下进行种子发芽实验,由实验数据(xi,yi)(i=1,2,…,20)得到下面的散点图:由此散点图,在10 ℃至40 ℃之间,下面四个回归方程类型中,最适宜作为发芽率y和温度x的回归方程类型的是( )A.y=a+bx B.y=a+bx2C.y=a+bex D.y=a+bln x(3)(人教A选择性必修第三册复习参考题8 T2改编)在一元线性回归模型Y=bx+a+e中,下列说法正确的是( )A.Y=bx+a+e是一次函数B.响应变量Y是由解释变量x唯一确定的C.响应变量Y除了受解释变量x的影响外,可能还受到其他因素的影响,这些因素会导致随机误差e的产生D.随机误差e是由于计算不准确造成的,可通过精确计算避免随机误差e的产生(4)若某商品的广告费支出x(单位:万元)与销售额y(单位:万元)之间有如下表所示的对应数据:x 2 4 5 6 8y 20 40 60 70 80根据表中数据,利用最小二乘法求得y关于x的经验回归方程为=x+1.5,当广告费支出为10万元时,销售额的估计值为________万元.【考点探究】考点一 变量间相关关系的判断例1 (1)对四组数据进行统计,获得如图所示的散点图,关于其样本相关系数的比较,正确的是( )A.r2C.r4(2)(2023·河北邢台阶段考试)已知r1表示变量X与Y之间的线性相关系数,r2表示变量U与V之间的线性相关系数,且r1=0.837,r2=-0.957,则( )A.变量X与Y之间呈正相关关系,且X与Y之间的相关性强于U与V之间的相关性B.变量X与Y之间呈负相关关系,且X与Y之间的相关性强于U与V之间的相关性C.变量U与V之间呈负相关关系,且X与Y之间的相关性弱于U与V之间的相关性D.变量U与V之间呈正相关关系,且X与Y之间的相关性弱于U与V之间的相关性【通性通法】判断相关关系的方法(1)散点图法:如果样本点的分布从整体上看大致在某一曲线附近,变量之间就有相关关系;如果样本点的分布从整体上看大致在某一直线附近,变量之间就有线性相关关系.(2)样本相关系数:当r>0时,正相关;当r<0时,负相关;|r|越接近于1,相关性越强.(3)经验回归方程:当>0时,正相关;当<0时,负相关.【巩固迁移】1.在一组样本数据(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,x2,…,xn不全相等)的散点图中,若所有样本点(xi,yi)(i=1,2,…,n)都在直线y=-x+1上,则这组样本数据的样本相关系数为( )A.-1 B.0C.- D.12.(2023·天津高考)调查某种群花萼长度和花瓣长度,所得数据如图所示.其中相关系数r=0.8245,下列说法正确的是( )A.花瓣长度和花萼长度没有相关性B.花瓣长度和花萼长度呈负相关C.花瓣长度和花萼长度呈正相关D.若从样本中抽取一部分,则这部分的相关系数一定是0.8245考点二 样本相关系数、决定系数的应用例2 (2022·全国乙卷)某地经过多年的环境治理,已将荒山改造成了绿水青山,为估计一林区某种树木的总材积量,随机选取了10棵这种树木,测量每棵树的根部横截面积(单位:m2)和材积量(单位:m3),得到如下数据:样本号i 1 2 3 4 5 6 7 8 9 10 总和根部 横截 面积xi 0.04 0.06 0.04 0.08 0.08 0.05 0.05 0.07 0.07 0.06 0.6材积量yi 0.25 0.40 0.22 0.54 0.51 0.34 0.36 0.46 0.42 0.40 3.9并计算得x=0.038,y=1.6158,xiyi=0.2474.(1)估计该林区这种树木平均一棵的根部横截面积与平均一棵的材积量;(2)求该林区这种树木的根部横截面积与材积量的样本相关系数(精确到0.01);(3)现测量了该林区所有这种树木的根部横截面积,并得到所有这种树木的根部横截面积总和为186 m2.已知树木的材积量与其根部横截面积近似成正比.利用以上数据给出该林区这种树木的总材积量的估计值.附:相关系数r=,≈1.377.【通性通法】经验回归方程的拟合效果,可以利用相关系数r判断,当|r|越趋近于1时,两变量的线性相关性越强.或利用决定系数R2判断,R2越大,拟合效果越好.【巩固迁移】3.我国机床行业核心零部件对外依存度较高,我国整机配套的中高档功能部件大量依赖进口,根据中国机床工具工业协会的数据,国内高档系统自给率不到10%,约90%依赖进口.因此,迅速提高国产数控机床功能部件制造水平,加快国产数控机床功能部件产业化进程至关重要.通过对某机械上市公司近几年的年报公布的研发费用x(单位:亿元)与产品的直接收益y(单位:亿元)的数据进行统计,得到下表:年份 2016 2017 2018 2019 2020 2021 2022x 2 3 4 6 8 10 13y 15 22 27 40 48 54 60根据数据,可建立y关于x的两个回归模型:模型①:=4.1x+10.9;模型②:=21.3-14.4.(1)根据表格中的数据,分别求出模型①,②的决定系数R2的大小(结果保留三位有效数字);(2)(ⅰ)根据(1)选择拟合精度更高、更可靠的模型;(ⅱ)若2023年该公司计划投入研发费用17亿元,使用(ⅰ)中的模型预测可为该公司带来多少直接收益?回归模型 模型① 模型②(yi-i)2 79.13 18.86附:R2=1-, ≈4.1.考点三 回归分析(多考向探究)考向1 一元线性回归模型例3 已知某绿豆新品种发芽的适宜温度在6~22 ℃之间,一农学实验室研究人员为研究温度x(单位:℃)与绿豆新品种发芽数y(单位:颗)之间的关系,每组选取了成熟种子50颗,分别在对应的8~14 ℃的温度环境下进行实验,得到如下散点图:其中=24, (xi-)(yi-)=70,(yi-)2=176.(1)运用相关系数进行分析说明,是否可以用线性回归模型拟合y与x的关系?(2)求出y关于x的经验回归方程=x+,并预测在19 ℃的温度下,种子的发芽颗数.参考公式:相关系数r=,经验回归方程=x+,其中=,=-.参考数据: ≈8.77.【通性通法】求经验回归方程的步骤【巩固迁移】4.(2023·安徽马鞍山第三次教学质量监测)为了研究某果园的一种果树的产量与种植密度的关系,某中学的数学兴趣小组在该果园选取了一块种植区域进行了统计调查,他们将每株果树与其直线距离不超过1米的果树株数x记为其密度,在记录了该种植区域内每株果树的密度后,从中选取密度为0,1,2,3,4的果树,统计其产量的平均值y(单位:kg),得到如下统计表:x 0 1 2 3 4y 15 12 11 9 8(1)小组成员甲认为y与x有很强的线性相关关系,请你帮他利用最小二乘法求出y关于x的经验回归方程=x+;(2)小组成员乙提出:若利用经验回归方程计算的平均产量的估计值i与实际的平均产量yi(1≤i≤n,n∈N*)满足|yi-i|>0.5,则应该修正模型,寻找更合适的函数拟合x与y的关系.统计知种植密度分别为5,6的果树的平均产量为5.5 kg、4.4 kg,请你以这七组数据为依据判断(1)中得到的经验回归方程是否需要修正?参考公式:=,=-.考向2 非线性回归模型例4 某工厂生产一种产品,从该种产品中随机抽取6件合格产品,测得数据如下:尺寸x/mm 38 48 58 68 78 88质量y/g 16.8 18.8 20.7 22.4 24 25.5(1)若按照检测标准,合格产品的质量y与尺寸x之间近似满足关系式y=c·xd(c,d为大于0的常数),求y关于x的经验回归方程;(2)已知合格产品的收益z(单位:千元)与合格产品尺寸和质量的关系为z=2y-0.32x,根据(1)中经验回归方程分析,当合格产品的尺寸x约为何值时(结果用整数表示),收益z的预报值最大?附:①参考数据: (ln xi·ln yi)=75.3, (ln xi)=24.6, (ln yi)=18.3, (ln xi)2=101.4.②参考公式:对于样本(vi,ui)(i=1,2,…,n),其经验回归直线=v+的斜率和截距的最小二乘估计公式分别为==,=-,e≈2.7182.【通性通法】非线性回归分析的步骤【巩固迁移】5.(2024·淄博诊断)小叶紫檀是珍稀树种,因其木质好备受玩家喜爱.其幼苗从观察之日起,第x天的高度为y cm,测得数据如下:x 1 4 9 16 25 36 49y 0 4 7 9 11 12 13数据的散点图如图所示:为近似描述y与x的关系,除了一次函数y=bx+a,还有y=b+a和y=bx2+a两个函数可选.(1)从三个函数中选出“最好”的曲线拟合y与x的关系,并求出其回归方程(保留到小数点后1位);(2)判断说法“高度从1000 cm长到1001 cm所需时间超过一年”是否成立,并给出理由.参考公式:==,=-.参考数据(其中ui=,ti=x):=20,=4,=668,=8,x=4676,u=140,t=7907396,xiyi=1567,uiyi=283,tiyi=56575.21世纪教育网 www.21cnjy.com 精品试卷·第 2 页 (共 2 页)21世纪教育网(www.21cnjy.com) 展开更多...... 收起↑ 资源列表 第3节 第1课时 成对数据的统计分析(原卷版).docx 第3节 第1课时 成对数据的统计分析(解析版).doc