资源简介 第二节 变量间的相关关系、统计案例·最新考纲·1.会作两个有关联变量的数据的散点图,并利用散点图认识变量间的相关关系.2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程(线性回归方程系数公式不要求记忆).3.了解独立性检验的思想、方法,并能初步应用独立性检验的思想方法解决一些简单的实际问题.4.通过典型案例了解回归分析的思想方法,并能初步应用回归分析的思想、方法解决一些简单的实际问题.·考向预测·考情分析:两个变量线性相关的判断及应用,回归直线方程的求法及应用,利用2×2列联表判断两个变量的相关关系将是高考考查的热点,题型将是选择与填空题或者在解答题中综合考查.学科素养:通过线性回归分析及独立性检验的应用考查数学建模、数据分析、数学运算的核心素养.积 累 必备知识——基础落实 赢得良好开端一、必记3个知识点1.变量间的相关关系常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系.2.两个变量的线性相关(1)从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有线性相关关系,这条直线叫回归直线.(2)从散点图上看,点分布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点分布在左上角到右下角的区域内,两个变量的相关关系为负相关.(3)回归方程为 =x+,其中= ,=-.(4)相关系数当r>0时,表明两个变量正相关;当r<0时,表明两个变量负相关.r的绝对值越接近于1,表明两个变量的线性相关性越强.r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系,通常|r|大于0.75时,认为两个变量有很强的线性相关性.3.独立性检验(1)2×2列联表:假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称2×2列联表)为:y1 y2 总计x1 a b a+bx2 c d c+d总计 a+c b+d a+b+c+d(2)K2统计量K2= (其中n=a+b+c+d为样本容量).二、必明3个常用结论1.求解回归方程的关键是确定回归系数,,应充分利用回归直线过样本中心点(,).2.根据K2的值可以判断两个分类变量有关的可信程度,若K2越大,则两分类变量有关的把握越大.3.根据回归方程计算的 值,仅是一个预报值,不是真实发生的值.三、必练4类基础题(一)判断正误1.判断下列说法是否正确(请在括号中打“√”或“×”).(1)散点图是判断两个变量是否相关的一种重要方法和手段.( )(2)回归直线方程=x+至少经过点(x1,y1),(x2,y2),…,(xn,yn)中的一个点.( )(3)若事件X,Y关系越密切,则由观测数据计算得到的K2的观测值越小.( )(4)两个变量的相关系数的绝对值越接近于1,它们的相关性越强.( )(二)教材改编2.[必修3·P90例题改编]某研究机构对高三学生的记忆力x和判断力y进行统计分析,所得数据如表:x 6 8 10 12y 2 3 5 6则y对x的线性回归直线方程为( )A.=2.3x-0.7 B.=2.3x+0.7C.=0.7x-2.3 D.=0.7x+2.33.[选修2-3·P86例2改编]两个变量y与x的回归模型中,分别选择了4个不同模型,它们的相关指数R2如下,其中拟合效果最好的模型是( )A.模型1的相关指数R2为0.98B.模型2的相关指数R2为0.80C.模型3的相关指数R2为0.50D.模型4的相关指数R2为0.25(三)易错易混4.(回归方程的概念不清)设某大学的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系,根据一组样本数据(xi,yi)(i=1,2,…,n),用最小二乘法建立的回归方程为=0.85x-85.71,则下列结论中不正确的是________.(填序号)①y与x具有正的线性相关关系;②回归直线过样本点的中心(,);③若该大学某女生身高增加1 cm,则其体重约增加0.85 kg;④若该大学某女生身高为170 cm,则可断定其体重必为58.79 kg.5.(忽视回归直线方程过样本点中心)在一次考试中,5名学生的数学和物理成绩如下表(已知学生的数学和物理成绩具有线性相关关系):学生的编号i 1 2 3 4 5数学成绩x 80 75 70 65 60物理成绩y 70 66 68 64 62现已知其线性回归方程为=0.36x+,则根据此线性回归方程估计数学得90分的同学的物理成绩为________分.(四舍五入取整数)(四)走进高考6.[2020·全国卷Ⅰ]某校一个课外学习小组为研究某作物种子的发芽率y和温度x(单位:℃)的关系,在20个不同的温度条件下进行种子发芽实验,由实验数据(xi,yi)(i=1,2,…,20)得到下面的散点图:由此散点图,在10 ℃至40 ℃之间,下面四个回归方程类型中最适宜作为发芽率y和温度x的回归方程类型的是( )A.y=a+bx B.y=a+bx2C.y=a+bex D.y=a+b ln x提 升 关键能力——考点突破 掌握类题通法考点一 相关关系的判断 1.对变量x,y有观测数据(xi,yi)(i=1,2,…,10),得散点图如图①,对变量u,v有观测数据(ui,vi)(i=1,2,…,10),得散点图如图②.由这两个散点图可以判断( )A.变量x与y正相关,u与v正相关B.变量x与y正相关,u与v负相关C.变量x与y负相关,u与v正相关D.变量x与y负相关,u与v负相关2.某公司在2019年上半年的月收入x(单位:万元)与月支出y(单位:万元)的统计资料如表所示:月份 1月份 2月份 3月份 4月份 5月份 6月份收入x 12.3 14.5 15.0 17.0 19.8 20.6支出y 5.63 5.75 5.82 5.89 6.11 6.18根据统计资料,则( )A.月收入的中位数是15,x与y有正线性相关关系B.月收入的中位数是17,x与y有负线性相关关系C.月收入的中位数是16,x与y有正线性相关关系D.月收入的中位数是16,x与y有负线性相关关系3.四名同学根据各自的样本数据研究变量x,y之间的相关关系,并求得回归直线方程,分别得到以下四个结论:①y与x负相关且=2.347x-6.423;②y与x负相关且=-3.476x+5.648;③y与x正相关且=5.437x+8.493;④y与x正相关且=-4.326x-4.578.其中一定不正确的结论的序号是( )A.①② B.②③C.③④ D.①④反思感悟) 判定两个变量正、负相关性的方法(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.(2)相关系数:r>0时,正相关;r<0时,负相关.(3)线性回归方程中: >0时,正相关;<0时,负相关.考点二 回归分析 角度1 线性回归方程及其应用[例1] 某手机厂商在销售200万台某型号手机时开展“手机碎屏险”活动.活动规则如下:用户购买该型号手机时可选购“手机碎屏险”,保费为x元.若在购机后一年内发生碎屏可免费更换一次屏幕.该手机厂商将在这200万台该型号手机全部销售完毕一年后,在购买碎屏险且购机后一年内未发生碎屏的用户中随机抽取1 000名,每名用户赠送1 000元的红包.为了合理确定保费x的值,该手机厂商进行了问卷调查,统计后得到下表(其中y表示保费为x元时愿意购买该“手机碎屏险”的用户比例):x 10 20 30 40 50y 0.79 0.59 0.38 0.23 0.01(1)根据上面的数据求出y关于x的回归直线方程;(2)通过大数据分析,在使用该型号手机的用户中,购机后一年内发生碎屏的比例为0.5%.已知更换一次该型号手机屏幕的费用为800元,若该手机厂商要求在这次活动中因销售该“手机碎屏险”产生的利润不少于70万元,能否把保费x定为5元?参考数据:表中x的5个值从左到右分别记为x1,x2,x3,x4,x5,相应的y值分别记为y1,y2,y3,y4,y5,经计算有(xi-)(yi-)=-19.2,其中=i,=听课笔记:(反思感悟) 求线性回归方程的基本步骤(1)先把数据制成表,从表中计算出,,+ +…+,x1y1+x2y2+…+xnyn的值;(2)计算回归系数 , ;(3)写出线性回归方程 = +角度2 相关系数及其应用[例2] [2020·全国卷Ⅱ]某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加.为调查该地区某种野生动物的数量,将其分成面积相近的200个地块,从这些地块中用简单随机抽样的方法抽取20个作为样区,调查得到样本数据(xi,yi)(i=1,2,…,20),其中xi和yi分别表示第i个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得i=60,i=1 200,(xi-)2=80,(yi-)2=9 000,(xi-)(yi-)=800.(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘以地块数);(2)求样本(xi,yi)(i=1,2,…,20)的相关系数(精确到0.01);(3)根据现有统计资料,各地块间植物覆盖面积差异很大.为提高样本的代表性以获得该地区这种野生动物数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由.附:相关系数r=,≈1.414.听课笔记:反思感悟) 回归方程的拟合效果,可以利用相关系数判断,当|r|越趋近于1时,两变量的线性相关性越强.角度3 非线性回归方程[例3] 某购物商场分别推出支付宝和微信“扫码支付”购物活动,活动设置了一段时间的推广期,由于推广期内优惠力度较大,吸引越来越多的人开始使用“扫码支付”.现统计了活动刚推出一周内每天使用扫码支付的人次,用x表示活动推出的天数,y表示每天使用扫码支付的人次,统计数据如下表所示:x 1 2 3 4 5 6 7y 6 11 21 34 66 101 196(1)根据散点图判断,在推广期内,扫码支付的人次y关于活动推出天数x的回归方程适合用y=c·dx来表示,求出该回归方程,并预测活动推出第8天使用扫码支付的人次;(2)推广期结束后,商场对顾客的支付方式进行统计,结果如下表:支付方式 现金 会员卡 扫码比例 20% 50% 30%商场规定:使用现金支付的顾客无优惠,使用会员卡支付的顾客享受8折优惠,扫码支付的顾客随机优惠,根据统计结果得知,使用扫码支付的顾客,享受7折优惠的概率为,享受8折优惠的概率为,享受9折优惠的概率为.现有一名顾客购买了a元的商品,根据所给数据用事件发生的频率来估计相应事件发生的概率,估计该顾客支付的平均费用是多少?参考数据:设vi=lg yi,=i≈1.52,i·vi≈49.56,100.52≈3.31参考公式:对于一组数据(u1,v1),(u2,v2),…(un,vn),其回归直线=+·u的斜率和截距的最小二乘估计公式分别为:=, = -反思感悟回归分析问题的类型及解题方法(1)求回归方程①根据散点图判断两变量是否线性相关,如不是,应通过换元构造线性相关.②利用公式,求出回归系数③待定系数法:利用回归直线过样本点的中心求系数 .(2)利用回归方程进行预测,把线性回归方程看作一次函数,求函数值.(3)利用回归直线判断正、负相关,决定正相关还是负相关的是系数.(4)回归方程的拟合效果,可以利用相关系数判断,当|r|越趋近于1时,两变量的线性相关性越强.【对点训练】1.已知某种商品的广告费支出x(单位:万元)与销售额y(单位:万元)之间有如下表对应数据,根据表中数据可得回归方程=x+其中=11据此估计,当投入6万元广告费时,销售额约为( )x 1 2 3 4 5y 10 15 30 45 50A.60万元 B.63万元C.65万元 D.69万元2.某公司为研究某种图书每册的成本费y(单位:元)与印刷数量x(单位:千册)的关系,收集了一些数据并进行了初步处理,得到了下面的散点图及一些统计量的值.表中ui=,=i(1)根据散点图判断:y=a+bx与y=c+哪一个模型更适合作为该图书每册的成本费y与印刷数量x的回归方程?(只要求给出判断,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y关于x的回归方程(结果精确到0.01);(3)若该图书每册的定价为9.22元,则至少应该印刷多少册才能使销售利润不低于80 000元?(假设能够全部售出,结果精确到1)附:对于一组数据(ω1,v1),(ω2,v2),…,(ωn,vn),其回归直线=+ω的斜率和截距的最小二乘估计分别为=, = -考点三 独立性检验 [应用性、创新性][例4] [2021·全国甲卷]甲、乙两台机床生产同种产品,产品按质量分为一级品和二级品,为了比较两台机床产品的质量,分别用两台机床各生产了200件产品,产品的质量情况统计如下表:一级品 二级品 合计甲机床 150 50 200乙机床 120 80 200合计 270 130 400(1)甲机床、乙机床生产的产品中一级品的频率分别是多少?(2)能否有99%的把握认为甲机床的产品质量与乙机床的产品质量有差异?附:K2=,P(K2≥k) 0.050 0.010 0.001k 3.841 6.635 10.828听课笔记:反思感悟) 独立性检验的一般步骤(1)根据样本数据制成2×2列联表;(2)根据公式K2= 计算K2的值;(3)查表比较K2与临界值的大小关系,作统计判断.[2022·湖南长沙模拟]为了解某校学生参加社区服务的情况,采用按性别分层抽样的方法进行调查,已知该校共有学生960人,其中男生560人,从全校学生中抽取了容量为n的样本,得到一周参加社区服务时间的统计数据如表所示.超过1小时的人数 不超过1小时的人数男 20 8女 12 m(1)求m,n的值;(2)能否有95%的把握认为该校学生一周参加社区服务时间是否超过1小时与性别有关?附:P(K2≥k) 0.050 0.010 0.001k 3.841 6.635 10.828K2=.第二节 变量间的相关关系、统计案例积累必备知识三、1.答案:(1)√ (2)× (3)× (4)√2.解析:易求=9,=4,样本点的中心(9,4)代入验证,满足=0.7x-2.3.答案:C3.解析:在两个变量y与x的回归模型中,它们的相关指数R2越接近1,拟合效果越好,在四个选项中A的相关指数最大,所以拟合效果最好的是模型1.答案:A4.解析:由于回归直线的斜率为正值,故y与x具有正的线性相关关系,选项①中的结论正确;回归直线过样本点的中心,选项②中的结论正确;根据回归直线斜率的意义易知选项③中的结论正确;由于回归分析得出的是估计值,故选项④中的结论不正确.答案:④5.解析:==70,==66,所以66=0.36×70+,得=40.8,即线性回归方程为=0.36x+40.8.当x=90时,=0.36×90+40.8=73.2≈73(分).答案:736.解析:观察散点图可知,散点图用光滑曲线连接起来比较接近对数型函数的图象.答案:D提升关键能力考点一1.解析:由散点图可得两组数据均线性相关,且图①的线性回归方程斜率为负,图②的线性回归方程斜率为正,则由散点图可判断变量x与y负相关,u与v正相关.答案:C2.解析:月收入的中位数是=16,收入增加,支出增加,故x与y有正线性相关关系.答案:C3.解析:正相关指的是y随x的增大而增大,负相关指的是y随x的增大而减小,故不正确的为①④.答案:D考点二例1 解析:(1)由=30,=0.4,=1 000,得= = - 0.019 2,= - =0.976,所以y关于x的回归直线方程为 = - 0.019 2x+0.976.(2)能把保费x定为5元.理由如下:若保费x定为5元,则估计y=-0.019 2×5+0.976=0.88,估计该手机厂商在这次活动中因销售该“手机碎屏险”产生的利润为2 000 000×0.88×5-2 000 000×0.88×0.5%×800-1 000×1 000=0.76× (元)=76(万元)>70(万元),所以能把保费x定为5元.例2 解析:(1)由已知得样本平均数= = 60 ,从而该地区这种野生动物数量的估计值为60(2) 样本()(i=1,2…,20)的相关系数r===≈0.94.解析: (3)分层抽样:根据植物覆盖面积的大小对地块分层,再对200个地块进行分层抽样.理由如下:由(2)知各样区的这种野生动物数量与植物覆盖面积有很强的正相关.由于各地块间植物覆盖面积差异很大,从而各地块间这种野生动物数量差异也很大,采用分层抽样的方法较好地保持了样本结构与总体结构的一致性,提高了样本的代表性,从而可以获得该地区这种野生动物数量更准确的估计.例3 解析:(1)由y=c·dx ,两边同时取常用对数得:lg y=lg (c·dx)=lg c+lg d·x;设lg y=v,∴v=lg c+lg d·x,∵=4,=1.52,=1+4+9+16+25+36+49=140,∴lg ====0.25,把样本中心点(4,1.52)代入v=lg c+lg d·x,得: lg =0.52,∴=0.52+0.25x,∴lg =0.52+0.25x∴y关于x的回归方程为:=100.52+0.25x=100.52×100.25x=3.31×(100.25)x;把x=8代入上式, =3.31×102=331; 活动推出第8天使用扫码支付的人次为331;解析:(2)记一名顾客购物支付的费用为ξ,则ξ的取值可能为:a,0.9a,0.8a,0.7a;P(ξ=a)=0.2;P(ξ=0.9a)=0.3×=0.15;P(ξ=0.8a)=0.5+0.3×=0.6;P(ξ=0.7a)=0.3×=0.05.分布列为:ξ a 0.9a 0.8a 0.7aP 0.2 0.15 0.6 0.05所以,一名顾客购物的平均费用为:0.2a+0.9a×0.15+0.8a×0.6+0.7a×0.05=0.85a(元).对点训练1.解析:由表格数据可知==3,==30,因为回归方程过点(),所以30=3,且=11,得=-3,所以=11x-3,代入x=6,得=63.答案:B2.解析:(1)由散点图判断,y=c+更适合作为该图书每册的成本费y(单位:元)与印刷数量x(单位:千册)的回归方程.(2)令u=,先建立y关于u的线性回归方程,由于=≈8.957≈8.96,所以=·=3.63-8.957×0.269≈1.22,所以y关于u的线性回归方程为=1.22+8.96u,所以y关于x的回归方程为=1.22+.(3)假设印刷x千册,依题意得9.22x-x≥80,解得x≥11.12,所以至少印刷11 120册才能使销售利润不低于80 000元.考点三例4 解析:(1)根据题表中数据知,甲机床生产的产品中一级品的频率是=0.75,乙机床生产的产品中一级品的频率是=0.6.(2)根据题表中的数据可得K2==≈10.256.因为10.256>6.635,所以有99%的把握认为甲机床的产品质量与乙机床的产品质量有差异.对点训练解析:(1)由已知,该校有女生400人,故=,得m=8,从而n=20+8+12+8=48.(2)作出2×2列联表如表所示.超过1小时 的人数 不超过1小时 的人数 总计男 20 8 28女 12 8 20合计 32 16 48由表中数据,得K2==≈0.685 7<3.841,所以没有95%的把握认为该校学生一周参加社区服务时间是否超过1小时与性别有关. 展开更多...... 收起↑ 资源预览