资源简介 第三节 变量的相关关系及回归模型(1)结合实例,了解样本相关系数的统计含义,了解样本相关系数与标准化数据向量夹角的关系;(2)结合实例,会通过相关系数比较多组成对数据的相关性;(3)结合具体实例,了解一元线性回归模型的含义,了解模型参数的统计意义,了解最小二乘原理,掌握一元线性回归模型参数的最小二乘估计方法;(4)针对实际问题,会用一元线性回归模型进行预测. 重点一 变量的相关关系1.常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系.与函数关系不同,相关关系是一种非确定性关系.2.如果从整体上看,当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势,就称这两个变量正相关;如果当一个变量的值增加时,另一个变量的相应值呈现减少的趋势,则称这两个变量负相关.3.一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,就称这两个变量线性相关.[逐点清]1.(选择性必修第三册103页习题1题改编)两个变量的相关关系有①正相关,②负相关,③不相关,则下列散点图从左到右分别反映的变量间的相关关系是( )A.①②③ B.②③① C.②①③ D.①③②解析:D 第一个散点图中,散点图中的点是从左下角区域分布到右上角区域,是正相关;第三个散点图中,散点图中的点是从左上角区域分布到右下角区域,是负相关;第二个散点图中,散点图中的点的分布没有什么规律,是不相关,所以应该是①③②.重点二 样本相关系数1.样本相关系数r= .[注意] 1 当r>0时,表明两个变量正相关;当r<0时,表明两个变量负相关; 2 r的绝对值越接近于1,表明两个变量的线性相关性越强;r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系;通常|r|大于0.75时,认为两个变量有很强的线性相关关系.2.样本相关系数r与“标准化”数据向量夹角的关系对于变量x和变量y,设经过随机抽样获得的成对样本数据为(x1,y1),(x2,y2),…,(xn,yn).经过“标准化”处理后的成对数据为(x′1,y′1),(x′2,y′2),…,(x′n,y′n),它们的第一分量构成n维向量x′=(x′1,x′2,…,x′n),第二分量构成n维向量y′=(y′1,y′2,…,y′n),设x′与y′的夹角为 θ,则r=x′·y′=|x′||y′|cos θ.∵|x′|=|y′|=,∴r=cos θ,又∵-1≤cos θ≤1,∴-1≤r≤1.[逐点清]2.(多选)为了检验变量x与y的线性相关程度,由样本点(x1,y1),(x2,y2),…,(x10,y10)求得两个变量的样本相关系数为r,则下列说法错误的是( )A.若所有样本点都在直线y=-2x+1上,则r=1B.若所有样本点都在直线y=-2x+1上,则r=-1C.若|r|越大,则变量x与y的线性相关程度越强D.若|r|越小,则变量x与y的线性相关程度越强解析:AD 若所有样本点都在直线y=-2x+1上,且直线斜率为负数,则r=-1,故A说法错误,B说法正确;若|r|越大,则变量x与y的线性相关程度越强,故C说法正确,D说法错误.故选A、D.重点三 一元线性回归模型1.经验回归直线从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有线性相关关系,这条直线叫做经验回归直线.2.经验回归方程为=x+,其中==,=-.3.通过求Q= (yi-bxi-a)2的最小值而得到经验回归直线的方法,即使得样本数据的点到回归直线的距离的平方和最小,这一方法叫做最小二乘法.[逐点清]3.(多选)设某大学的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系,根据一组样本数据(xi,yi)(i=1,2,…,n),用最小二乘法建立的经验回归方程为=0.85x-85.71,则下列结论中正确的有( )A.y与x具有正的线性相关关系B.回归直线过样本点的中心(,)C.若该大学某女生身高增加1 cm,则其体重约增加0.85 kgD.若该大学某女生身高为170 cm,则可断定其体重必为58.79 kg解析:ABC A正确;B正确;C正确;对于D,当x=170 cm时,=0.85×170-85.71=58.79(kg),但这是预测值,不可断定其体重必为58.79 kg.故D不正确.故选A、B、C.重点四 判断回归模型的拟合效果由成对样本数据(xi,yi)(i=1,2,…,n)按照最小二乘法得到经验回归方程=x+,其中y叫做观测值,叫做预测值,残差e=y-.相对于样本点(xi,yi)的随机误差i=yi-i=yi-(xi+).1.残差分析法(1)作残差图:作图时纵坐标为残差,横坐标可以选为样本编号,或xi数据,或yi数据,这样作出的图形称为残差图.(2)残差分析:残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,这样的带状区域的宽度越窄,说明模型拟合精度越高,经验回归方程的预报精度越高.2.决定系数 (R2)法R2=1-.R2的值越趋近于1,模型的拟合效果越好.变量间相关关系的判断1.在一次对人体脂肪含量和年龄关系的研究中,研究人员获得了一组样本数据,并制作成如图所示的人体脂肪含量与年龄关系的散点图.根据该图,下列结论中正确的是( )A.人体脂肪含量与年龄正相关,且脂肪含量的中位数等于20%B.人体脂肪含量与年龄正相关,且脂肪含量的中位数小于20%C.人体脂肪含量与年龄负相关,且脂肪含量的中位数等于20%D.人体脂肪含量与年龄负相关,且脂肪含量的中位数小于20%解析:B 观察图形,可知人体脂肪含量与年龄正相关,且脂肪含量的中位数小于20%,故选B.2.已知变量x和y满足关系y=-0.1x+1,变量y与z正相关.下列结论中正确的是( )A.x与y正相关,x与z负相关B.x与y正相关,x与z正相关C.x与y负相关,x与z负相关D.x与y负相关,x与z正相关解析:C 因为y=-0.1x+1的斜率小于0,故x与y负相关.因为y与z正相关,可设z=y+,>0,则z=y+=-0.1x++,故x与z负相关.判断相关关系的2种方法(1)散点图法:如果所有的样本点都落在某一函数的曲线附近,变量之间就有相关关系.如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系;(2)相关系数法:利用相关系数判定,当|r|越趋近于1,变量的线性相关程度越强. 样本相关系数 (2020·全国Ⅱ卷)某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加.为调查该地区某种野生动物的数量,将其分成面积相近的200个地块,从这些地块中用简单随机抽样的方法抽取20个作为样区,调查得到样本数据(xi,yi)(i=1,2,…,20),其中xi和yi分别表示第i个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得i=60,i=1 200,(xi-)2=80,(yi-)2=9 000,(xi-)(yi-)=800.(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘以地块数);(2)求样本(xi,yi)(i=1,2,…,20)的相关系数(精确到0.01);(3)根据现有统计资料,各地块间植物覆盖面积差异很大.为提高样本的代表性以获得该地区这种野生动物数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由.附:相关系数r=,≈1.414.[解] (1)由已知得样本平均数=i=60,从而该地区这种野生动物数量的估计值为60×200=12 000.(2)样本(xi,yi)(i=1,2,…,20)的相关系数r===≈0.94.(3)分层随机抽样:根据植物覆盖面积的大小对地块分层,再对200个地块进行简单随机抽样.理由如下:由(2)知各样区的这种野生动物数量与植物覆盖面积有很强的正相关.由于各地块间植物覆盖面积差异很大,从而各地块间这种野生动物数量差异也很大,采用分层随机抽样的方法较好地保持了样本结构与总体结构的一致性,提高了样本的代表性,从而可以获得该地区这种野生动物数量更准确的估计.相关系数r的统计含义及应用1.由r的正、负可判断成对样本数据中两相关变量是正相关还是负相关.2.可根据|r|的大小从量的角度判断成对样本数据是否具有线性相关性,进而可知能否用线性回归方程进行分析和预测.3.当|r|≤0.25时,即便求得了经验回归方程也没有任何统计意义. 大学生是国家的未来,代表着国家可持续发展的实力,能够促进国家综合实力的提高.据统计,2016年至2020年我国高校毕业生人数y(单位:万人)的数据如下表:年份 2016 2017 2018 2019 2020年份代号x 16 17 18 19 20高校毕业生人数y(单位:万人) 765 795 820 834 874(1)根据上表数据,计算y与x的相关系数r,并说明y与x的线性相关性的强弱;(已知:0.75≤|r|≤1,则认为y与x线性相关性很强;0.3≤|r|<0.75,则认为y与x线性相关性一般;|r|<0.3,则认为y与x线性相关性较弱)(2)求y关于x的经验回归方程,并预测2023年我国高校毕业生的人数(结果取整数).参考公式和数据:r=, (xi-)2=10, (yi-)2=6 727.44,≈259.4,=,=-.解:(1)由已知求得=18,=817.6.所以 (xi-)(yi-)=(-2)×(-52.6)+(-1)×(-22.6)+16.4+2×56.4=257.所以r===≈0.99,因为0.99>0.75,所以y与x线性相关性很强.(2)===25.7.=-=817.6-25.7×18=355,所以y关于x的经验回归方程是=25.7x+355.当x=23时,=25.7×23+355=946.1≈946,即预测2023年我国高校毕业生的人数约为946万.经验回归模型考向1 回归模型的辨析1.某学校开展研究性学习活动,某同学获得一组实验数据如下表:x 1.99 3 4 5.1 6.12y 1.5 4.04 7.5 12 18.01对于表中数据,现给出以下拟合曲线,其中拟合程度最好的是( )A.y=2x-2 B.y=xC.y=log2x D.y=(x2-1)解析:D 根据实验数据可以得出,x近似增加一个单位时,y的增量近似为2.5,3.5,4.5,6,比较接近y=(x2-1),故选D.2.已知变量x与y,且观测数据如下表(其中6.5>a>4>b>1,a+b=6),则由该观测的数据算得的经验回归方程可能是( )x 1 2 3 4 5y 6.5 a 4 b 1A.=0.4x+2.3 B.=2x-2.4C.=-2x+9.5 D.=-0.3x+0.44解析:C 由题意==3,==3.5,把代入各方程,A中,=0.4×3+2.3=3.5,同理有B中,=3.6,C中=3.5,D中,=-0.46,又表格中数据随着x的增大,y减小,因此它们负相关,x的系数为负.故选C.由散点图的形状,根据y的变化趋势判断x的系数,结合函数的图象确定回归模型. 考向2 线性经验回归问题 某研究机构为调查人的最大可视距离y(单位:米)和年龄x(单位:岁)之间的关系,对不同年龄的志愿者进行了研究,收集数据得到下表:x 20 25 30 35 40y 167 160 150 143 130(1)根据上表提供的数据,求出y关于x的经验回归方程=x+;(2)根据(1)中求出的经验回归方程,估计年龄为50岁的人的最大可视距离.参考公式:经验回归方程=x+中斜率和截距的最小二乘估计公式分别为==,=-.[解] (1)由题意可得==30,==150,xiyi=20×167+25×160+30×150+35×143+40×130=22 045,x=202+252+302+352+402=4 750,所以===-1.82,则=-=150+1.82×30=204.6,故所求经验回归方程为=-1.82x+204.6.(2)当x=50时,=-1.82×50+204.6=113.6,即年龄为50岁的人的最大可视距离约为113.6米.线性回归分析问题的解题策略(1)利用最小二乘估计公式,求出回归系数;(2)利用经验回归直线过样本点的中心求系数;(3)写出经验回归方程,并利用经验回归方程进行预测. 树木根部半径与树木的高度呈正相关,即树木根部越粗,树木的高度也就越高.某块山地上种植了A树木,某农科所为了研究A树木的根部半径与树木的高度之间的关系,从这些地块中用简单随机抽样的方法抽取6棵A树木,调查得到A树木根部半径x(单位:米)与A树木高度y(单位:米)的相关数据如表所示:x 0.1 0.2 0.3 0.4 0.5 0.6y 1.1 1.3 1.6 1.5 2.0 2.1(1)求y关于x的经验回归方程;(2)对(1)中得到的经验回归方程进行残差分析,若某A树木的残差为零则认为该树木“长势标准”,在此片树木中随机抽取1棵树木,估计这棵树木“长势标准”的概率.参考公式:经验回归方程为=x+,其中==,=-.解:(1)由已知得=×(0.1+0.2+0.3+0.4+0.5+0.6)=0.35,=×(1.1+1.3+1.6+1.5+2.0+2.1)=1.6,iyi=0.1×1.1+0.2×1.3+0.3×1.6+0.4×1.5+0.5×2.0+0.6×2.1=3.71,=0.12+0.22+0.32+0.42+0.52+0.62=0.91,则===2,=-=1.60-2×0.35=0.9,故y关于x的经验回归方程为=2x+0.9.(2)当x=0.1时,=2×0.1+0.9=1.1,残差为1.1-1.1=0,当x=0.2时,=2×0.2+0.9=1.3,残差为1.3-1.3=0,当x=0.3时,=2×0.3+0.9=1.5,残差为1.6-1.5=0.1,当x=0.4时,=2×0.4+0.9=1.7,残差为1.5-1.7=-0.2,当x=0.5时,=2×0.5+0.9=1.9,残差为2.0-1.9=0.1,当x=0.6时,=2×0.6+0.9=2.1,残差为2.1-2.1=0,由这6棵A树木中残差为零的有3棵,占比为=,所以这棵树木“长势标准”的概率为.考向3 非线性经验回归问题 数独是源自18世纪瑞士的一种数学游戏,玩家需要根据9×9盘面上的已知数字,推理出所有剩余空格的数字,并满足每一行、每一列、每一个粗线宫(3×3)内的数字均含1~9,不重复.数独爱好者小明打算报名参加“丝路杯”全国数独大赛初级组的比赛,赛前小明在某数独APP上进行一段时间的训练,每天的解题平均速度y(秒)与训练天数x(天)有关,经统计得到如表的数据:x(天) 1 2 3 4 5 6 7y(秒) 990 990 450 320 300 240 210(1)现用y=a+作为经验回归模型,请利用表中数据,求出该经验回归方程;(2)请用第(1)题的结论预测,小明经过100天训练后,每天解题的平均速度y约为多少秒?参考数据:iyi=1 845,=0.37,-72=0.55.参考公式:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其经验回归直线=+u的斜率和截距的最小二乘估计公式分别为:=,=-.[解] (1)由题意得=×(990+990+450+320+300+240+210)=500,令t=,设y关于t的经验回归方程为=t+,则有===1 000,=500-1 000×0.37=130,所以=1 000t+130,又t=,所以y关于x的回归方程为=+130.(2)当x=100时,=140,所以经过100天训练后,小明每天解题的平均速度约为140秒.有些非线性回归分析问题并不给出经验公式,这时我们可以画出已知数据的散点图,把它与学过的各种函数(幂函数、指数函数、对数函数等)的图象进行比较,挑选一种跟这些散点拟合得最好的函数,用适当的变量进行变换,把问题化为线性回归问题,使之得到解决.其一般步骤为: 某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x(单位:千元)对年销售量y(单位:t)和年利润z(单位:千元)的影响.对近8年的年宣传费xi和年销售量yi(i=1,2,…,8)的数据进行初步处理,得到如图所示的散点图及一些统计量的值.(xi-)2 (wi-)2 (xi-)(yi-) (wi-)(yi-)46.6 563 6.8 289.8 1.6 1 469 108.8表中wi=,=i.(1)根据散点图判断,y=a+bx与y=c+d哪一个适宜作为年销售量y关于年宣传费x的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y关于x的经验回归方程;(3)已知这种产品的年利润z与x,y的关系为z=0.2y-x.根据(2)的结果回答下列问题.①年宣传费x=49时,年销售量及年利润的预报值是多少?②年宣传费x为何值时,年利润的预报值最大?附:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其回归直线=+u的斜率和截距的最小二乘估计分别为=,=-.解:(1)由散点图可以判断,y=c+d适宜作为年销售量y关于年宣传费x的回归方程类型.(2)令w=,建立y关于w的经验回归方程=+w.由于===68,=-=563-68×6.8=100.6,所以y关于w的经验回归方程为=100.6+68w,因此y关于x的经验回归方程为=100.6+68.(3)①由(2)知,当x=49时,年销售量y的预报值=100.6+68=576.6,年利润z的预报值=0.2×576.6-49=66.32.②根据(2)的结果知,年利润z的预报值=0.2(100.6+68)-x=-x+13.6+20.12.所以当==6.8,即x=46.24时,取得最大值.故年宣传费为46.24千元时,年利润的预报值最大.[课时过关检测]A级——基础达标1.根据如下样本数据:x 3 4 5 6 7 8y 4.0 2.5 0.5 0.5 0.4 0.1得到的经验回归方程为=x+,则( )A.>0,>0 B.>0,<0C.<0,>0 D.<0,<0解析:B 根据给出的数据可发现:整体上y与x呈现负相关,所以<0,由样本点(3,4.0)及(4,2.5)可知>0,故选B.2.已知x与y之间的一组数据如表:x 0 1 2 3y m 3 5.5 7已求得y关于x的经验回归方程为=2.1x+0.85,则m的值为( )A.1 B.0.85C.0.7 D.0.5解析:D ==1.5,==,因为点(,)在经验回归方程上,所以=2.1×1.5+0.85,解得m=0.5,故选D.3.已知变量x,y相对应的一组数据为(10,1.5),(11,3.2),(11,8.3),(12.5,14),(13,5),变量x′,y′相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1),用r1表示变量x与y之间的线性相关系数,用r2表示变量x′与y′间的线性相关系数,则有( )A.r2C.r2<0解析:C ∵从第一组数据中看出1>0,故r1>0;从第二组数据中看出2<0,故r2<0;于是有r2<04.某考察团对10个城市的职工人均工资x(千元)与居民人均消费y(千元)进行调查统计,得出y与x具有线性相关关系,且经验回归方程为=0.6x+1.2.若某城市职工人均工资为5千元,估计该城市人均消费额占人均工资收入的百分比为( )A.66% B.67%C.79% D.84%解析:D ∵y与x具有线性相关关系,且满足经验回归方程=0.6x+1.2,该城市居民人均工资为=5,∴可以估计该城市的职工人均消费=0.6×5+1.2=4.2,∴可以估计该城市人均消费额占人均工资收入的百分比为=84%.5.在一组样本数据(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,x2,…,xn不全相等)的散点图中,若所有样本点(xi,yi)(i=1,2,…,n)都在直线y=x+1上,则这组样本数据的样本相关系数为( )A.-1 B.0C. D.1解析:D 由题设知,所有样本点(xi,yi)(i=1,2,…,n)都在直线y=x+1上,可知这组样本数据完全正相关,故其相关系数为1,故选D.6.某工厂为了对一种新研究的产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:单价x(元) 4 5 6 7 8 9销量y(件) 90 84 83 80 75 68由表中数据,求得经验回归方程为=-4x+.若在这些样本点中任取一点,则它在经验回归直线左下方的概率为________.解析:由表中数据得=6.5,=80,由=-4x+,得=106,故经验回归方程为=-4x+106.将(4,90),(5,84),(6,83),(7,80),(8,75),(9,68)分别代入经验回归方程,可知有6个样本点,因84<-4×5+106=86,68<-4×9+106=70,故(5,84)和(9,68)在经验回归直线的左下方,满足条件的只有2个样本点,故所求概率为=.答案:7.国际青年物理学家竞赛(简称IYPT)是当今最受重视的中学生顶级国际物理赛事,某中学物理兴趣小组通过实验对其中一道竞赛题的两个物理量u、v进行测量,得到10组数据(u1,v1),(u2,v2),…,(u10,v10),通过散点图发现具有较强的线性相关关系,并且利用最小二乘法求得经验回归方程为=1.5u+1,由于数据保存失误导致i丢失,但i=50被保存,通过所学知识可以求得i=________.解析:由i=50,得=i=50×=5,再由经验回归方程恒过样本点的中心可得,=1.5×+1=1.5×5+1=8.5,∴i=10=10×8.5=85.答案:858.为了提高农民收入,某农科所实地考察,研究发现某村适合种植A,B两种经济作物,通过大量考察研究得到如下统计数据:经济作物A的亩产量约为300公斤,其收购价格处于上涨趋势,最近五年的价格如下表:年份编号x 1 2 3 4 5年份 2017 2018 2019 2020 2021单价y(元/公斤) 18 20 23 25 29经济作物B的收购价格始终为25元/公斤,其亩产量的频率分布直方图如下:(1)若经济作物A的单价y(单位:元/公斤)与年份编号x具有线性相关关系,请求出y关于x的经验回归方程,并估计2022年经济作物A的单价;(2)用上述频率分布直方图估计经济作物B的平均亩产量(每组数据以区间的中点值为代表),若不考虑其他因素,试判断2022年该村应种植经济作物A还是经济作物B?并说明理由.附:==,=-.解:(1)∵==3,==23,∴==2.7,=23-2.7×3=14.9.则y关于x的经验回归方程为=2.7x+14.9.当x=6时,=2.7×6+14.9=31.1,故估计2022年经济作物A的单价为31.1元/公斤.(2)利用频率和为1得2m==0.01,∴m=0.005.经济作物B的亩产量的平均值为(360×0.005+380×0.010+400×0.017 5+420×0.012 5+440×0.005)×20=401,故经济作物A的亩产值为300×31.1=9 330(元),经济作物B的亩产值为25×401=10 025(元).∵9 330<10 025,∴应该种植经济作物B.B级——综合应用9.毛绒玩具是由毛绒面料与其他纺织材料为主要面料,内部填塞各种填充物而制成的玩具,色差和色度是衡量毛绒玩具质量优劣的重要指标之一,现抽检一批该产品测得以下数据:色差X 21 23 25 27 29 31色度Y 15 16 17 21 22 23由大量实验数据可知该产品的色差和色度之间满足线性相关关系,且=0.25x+,现有一对测量数据为(32,21.25),则该组数据的残差为( )A.0.65 B.0.75C.-0.75 D.0.95解析:B 残差在数理统计中是指实际观察值与估计值(拟合值)之间的差.由题意得到样本中心点的坐标为(26,19),代入经验回归方程得到=12.5,=0.25x+12.5,将x=32代入,求解得到对应的估计值为20.5,所以所求残差为21.25-20.5=0.75,故选B.10.已知变量y关于x的经验回归方程为=ebx-0.5,其一组数据如下表所示:x 1 2 3 4y e e3 e4 e6若x=5,则预测y的值可能为( )A.e5 B.eC.e7 D.e解析:D 由=ebx-0.5,得ln =bx-0.5,令z=ln ,则z=bx-0.5.x 1 2 3 4z 1 3 4 6==2.5,==3.5.∵样本点的中心(,)满足z=bx-0.5,∴3.5=b×2.5-0.5,解得b=1.6,∴z=1.6x-0.5,∴=e1.6x-0.5.当x=5时,=e1.6×5-0.5=e,故选D.11.在一次考试中,5名学生的数学和物理成绩如下表:(已知学生的数学和物理成绩具有线性相关关系)学生的编号i 1 2 3 4 5数学成绩x 80 75 70 65 60物理成绩y 70 66 68 64 62现已知其经验回归方程为=0.36x+,则=________,根据此经验回归方程估计数学得90分的同学的物理成绩为________.(四舍五入到整数)解析:==70,==66,所以66=0.36×70+,即=40.8,即经验回归方程为=0.36x+40.8.当x=90时,=0.36×90+40.8=73.2≈73.答案:40.8 7312.随着科技的发展,网购已经逐渐融入了人们的生活.在家里面不用出门就可以买到自己想要的东西,在网上付款即可,两三天就会送到自己的家门口.某公司组织统计了近五年来该公司网购的人数yi(单位:人)与时间ti(单位:年)的数据,列表如下:ti 1 2 3 4 5yi 24 27 41 64 79(1)依据表中给出的数据,是否可用经验回归模型拟合y与t的关系,请计算相关系数r并加以说明(计算结果精确到0.01);(若|r|>0.75,则线性相关程度很高,可用经验回归模型拟合)附:相关系数公式r=, ==,参考数据≈75.47.(2)建立y关于t的经验回归方程,并预测第六年该公司的网购人数(计算结果精确到整数).(参考公式:=-)解:(1)由题知=3,=47,iyi=852, =, =,则r====≈≈0.97>0.75.故y与t的线性相关程度很高,可用经验回归模型拟合.(2)由(1)得====14.7,=47-14.7×3=2.9.所以y关于t的经验回归方程为=14.7t+2.9.将t=6带入经验回归方程,得=91.1≈91,所以预测第6年该公司的网购人数约为91人.C级——迁移创新13.中国茶文化博大精深,已知茶水的口感与茶叶类型以及水温有关.经验表明,某种绿茶用85 ℃的水泡制,再等到茶水温度降至60 ℃时饮用,可以产生最佳口感.某学习研究小组通过测量,得到了下面表格中的数据(室温是20 ℃).泡制时间x/min 0 1 2 3 4水温y/℃ 85 79 74 71 65(1)小组成员根据上面表格中的数据绘制散点图,并根据散点图分布情况,考虑到茶水温度降到室温(即20 ℃)就不能再降的事实,决定选择函数模型y=kcx+20(x≥0)来刻画.①令z=ln(y-20),求出z关于x的经验回归方程;②利用①的结论,求出y=kcx+20(x≥0,c>0)中的k与c.(2)你认为该品种绿茶用85 ℃的水大约泡制多久后饮用,可以产生最佳口感?参考数据:ln 65≈4.2,ln 59≈4.1,ln 54≈4.0,ln 51≈3.9,ln 45≈3.8,log0.90.6≈4.8,e-0.1≈0.9,e4.2≈66.7,≈0.6.参考公式:=x+,=,=-.解:(1)①由已知得出x与z的关系,如下表:泡制时间x/min 0 1 2 3 4z 4.2 4.1 4.0 3.9 3.8设经验回归方程为=x+,由题意,得==2,==4,∴(xi-)(zi-)=(-2)×0.2+(-1)×0.1+1×(-0.1)+2×(-0.2)=-1,(xi-)2=(-2)2+(-1)2+12+22=10,则===-0.1,=-=4+0.1×2=4.2,则z关于x的经验回归方程为=-0.1x+4.2.②由y=kcx+20(x≥0),得y-20=kcx(x≥0),两边取对数得,ln(y-20)=ln k+xln c,利用①的结论得:ln c=-0.1,ln k=4.2,∴c=e-0.1≈0.9,k=e4.2≈66.7.(2)由(1)得,y=66.7×0.9x+20(x≥0),令y=60,得x=log0.90.6≈4.8.∴该品种绿茶用85 ℃的水泡制4.8 min后饮用,口感最佳. 展开更多...... 收起↑ 资源预览