资源简介 11.3 成对数据的统计分析(教师独具内容)1.了解变量间相关关系的判断,样本相关系数的统计含义,会通过样本相关系数比较多组成对数据的相关性.2.了解一元线性回归模型的含义,了解模型参数的统计意义,了解最小二乘原理,掌握一元线性回归模型参数的最小二乘估计方法,会使用相关的统计软件.针对实际问题,会用一元线性回归模型进行预测.3.理解2×2列联表的统计意义;了解2×2列联表独立性检验及其应用.4.重点提升数据分析和数学运算素养.(教师独具内容)1.本考点是历年高考命题的常考内容,属于中低档题目,三种题型都有考查,命题的重点是实际情境下的回归分析、独立性检验与概率求解问题的综合.2.本考点以考查能力为主,回归分析与独立性检验是考查的热点,尤其是建模问题常考常新.预测2023年高考中,这两个问题仍是考查的重要内容.3.考查的方向主要有以下两个方面:一是回归分析,二是独立性检验.要求准确提取具体情境下的相关数据;区分统计数据和估计数据;灵活利用相关公式求解回归系数和χ2的值.(教师独具内容)(教师独具内容)1.变量的相关关系(1)定义:两个变量有关系,但又没有确切到可由其中的一个去精确地决定另一个的程度,这种关系称为相关关系.(2)散点图将各对数据在平面直角坐标系中的对应点画出来,得到表示两个变量的一组数据的图形,这样的统计图叫做散点图.(3)正相关、负相关从整体上看,当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势,我们就称这两个变量正相关;如果当一个变量的值增加时,另一个变量的相应值呈现减少的趋势,则称这两个变量负相关.利用散点图,可以判断两个变量是否相关,相关时是正相关还是负相关.2.线性相关和非线性相关(1)一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,我们就称这两个变量线性相关.(2)一般地,如果两个变量具有相关性,但不是线性相关,那么我们就称这两个变量非线性相关或曲线相关.注:相关关系与函数关系的区别与联系(1)相同点:两者均是指两个变量间的关系.(2)不同点:函数关系是一种确定性的关系,相关关系是一种非确定性的关系.3.样本相关系数(1)r==,称r为变量x和变量y的样本相关系数.(2)样本相关系数r是一个描述成对样本数据的数字特征,它的正负性和绝对值的大小可以反映成对样本数据的变化特征:①当r>0时,称成对样本数据正相关;②当r<0时,称成对样本数据负相关.(3)样本相关系数r的取值范围为[-1,1],样本相关系数r的绝对值大小可以反映成对样本数据之间线性相关的程度:①当|r|越接近1时,成对样本数据的线性相关程度越强;②当|r|越接近0时,成对样本数据的线性相关程度越弱.4.一元线性回归模型把式子称为Y关于x的一元线性回归模型.其中,Y称为因变量或响应变量,x称为自变量或解释变量;a和b为模型的未知参数,a称为截距参数,b称为斜率参数;e是Y与bx+a之间的随机误差.如果e=0,那么Y与x之间的关系就可用一元线性函数模型来描述.5.经验回归方程与最小二乘法设满足一元线性回归模型的两个变量的n对样本数据为(x1,y1),(x2,y2),…,(xn,yn).当a,b的取值为时,Q=(yi-bxi-a)2达到最小.将=x+称为Y关于x的经验回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线.这种求经验回归方程的方法叫做最小二乘法,求得的,叫做b,a的最小二乘估计.注:(1)经验回归方程不一定都有实际意义.回归分析是对具有相关关系的两个变量进行统计分析的方法,只有在散点图大致呈线性时,求出的经验回归方程才有实际意义.(2)根据经验回归方程进行预报,得到的仅是一个估计值,而不一定是精确值.(3)经验回归直线一定过样本点的中心(,).6.残差与残差分析(1)残差:对于响应变量Y,通过观测得到的数据称为观测值,通过经验回归方程得到的称为预测值,观测值减去预测值称为残差.(2)残差分析:残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果,以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.(3)刻画回归效果的方式①残差图法作图时纵坐标为残差,横坐标为自变量x,这样作出的图形称为残差图.在残差图中,残差点比较均匀地分布在以取值为0的横轴为对称轴的水平的带状区域内,说明选用的模型比较合适,这样的带状区域的宽度越窄,说明模型拟合精度越高.②残差平方和法残差平方和为 (yi-i)2,残差平方和越小,模型拟合效果越好.③利用决定系数R2刻画拟合效果R2=1-,R2越大,模型的拟合效果越好,R2越小,模型的拟合效果越差.7.独立性检验(1)假定通过简单随机抽样得到了X和Y的抽样数据列联表,如表所示.则χ2=.(2)利用χ2的取值推断分类变量X和Y是否独立的方法称为χ2独立性检验,读作“卡方独立性检验”,简称独立性检验.(3)χ2独立性检验中几个常用的小概率值和相应的临界值,如下表所示.α 0.1 0.05 0.01 0.005 0.001xα 2.706 3.841 6.635 7.879 10.828注:根据χ2的值可以判断两个分类变量有关的可信程度.若χ2的值越大,则两个分类变量有关系的把握越大.(4)应用独立性检验解决实际问题包括以下几个主要环节:①提出零假设H0:X和Y相互独立,并给出在问题中的解释;②根据抽样数据整理出2×2列联表,计算χ2的值,并与临界值xα比较;③根据检验规则得出推断结论;④在X和Y不独立的情况下,根据需要,通过比较相应的频率,分析X和Y间的影响规律.1.思考辨析(正确的打“√”,错误的打“×”)(1)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系.( )(2)通过经验回归方程=x+可以估计响应变量的取值和变化趋势.( )(3)经验回归方程=x+中,若<0,则变量x和y负相关.( )(4)事件X,Y关系越密切,则由数据计算得到的χ2的值越大.( )答案 (1)√ (2)√ (3)× (4)√2.甲、乙、丙、丁四位同学在建立变量x,y的回归模型时,分别选择了4种不同模型,计算可得它们的R2分别如下表:甲 乙 丙 丁R2 0.98 0.78 0.50 0.85建立的回归模型拟合效果最好的是( )A.甲 B.乙C.丙 D.丁答案 A解析 R2越大,表示回归模型的拟合效果越好.3.已知x与y之间的几组数据如表,则y与x的经验回归直线=x+必过点( )x 0 1 3 4y 1 4 6 9A.(0,1) B.(2,5)C.(1,4) D.(5,9)答案 B解析 经验回归直线一定过样本点的中心(2,5).4. 某企业为了调查其产品在国内和国际市场的发展情况,随机抽取国内、国外各100名客户代表,了解他们对该企业产品的发展前景所持的态度,得到如图所示的等高堆积条形图,则________(填“能”或“不能”)有99%以上的把握认为是否持乐观态度与国内外差异有关.α 0.050 0.010 0.005 0.001xα 3.841 6.635 7.879 10.828附:χ2=.答案 能解析 根据题目所给数据得到如下2×2列联表:乐观 不乐观 合计国内代表 60 40 100国外代表 40 60 100合计 100 100 200则χ2==8>6.635,所以有99%以上的把握认为是否持乐观态度与国内外差异有关.5.某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验.根据收集到的数据(如下表),由最小二乘法求得经验回归方程=0.67x+54.9.零件数x(个) 10 20 30 40 50加工时间y(min) 62 75 81 89现发现表中有一个数据看不清,请你推断出该数据的值为________.答案 68解析 由=30,得=0.67×30+54.9=75.设表中的“模糊数据”为a,则62+a+75+81+89=75×5,∴a=68.1.(2020·全国Ⅰ卷)某校一个课外学习小组为研究某作物种子的发芽率y和温度x(单位:℃)的关系,在20个不同的温度条件下进行种子发芽实验,由实验数据(xi,yi)(i=1,2,…,20)得到下面的散点图:由此散点图,在10 ℃至40 ℃之间,下面四个回归方程类型中最适宜作为发芽率y和温度x的回归方程类型的是( )A.y=a+bx B.y=a+bx2C.y=a+bex D.y=a+bln x答案 D解析 由散点图分布可知,散点图分布在一个对数型函数图象的附近,因此最适宜作为发芽率y和温度x的回归方程类型的是y=a+bln x.故选D.2.(2021·全国甲卷)甲、乙两台机床生产同种产品,产品按质量分为一级品和二级品,为了比较两台机床产品的质量,分别用两台机床各生产了200件产品,产品的质量情况统计如下表:一级品 二级品 合计甲机床 150 50 200乙机床 120 80 200合计 270 130 400(1)甲机床、乙机床生产的产品中一级品的频率分别是多少?(2)能否有99%的把握认为甲机床的产品质量与乙机床的产品质量有差异?附:K2=,P(K2≥k) 0.050 0.010 0.001k 3.841 6.635 10.828解 (1)设甲机床、乙机床生产的产品中一级品的频率分别为f1,f2,则f1==0.75,f2==0.6.(2)根据题表中的数据,得K2==≈10.256.因为10.256>6.635,所以有99%的把握认为甲机床的产品质量与乙机床的产品质量有差异.3.(2020·全国Ⅱ卷)某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加.为调查该地区某种野生动物的数量,将其分成面积相近的200个地块,从这些地块中用简单随机抽样的方法抽取20个作为样区,调查得到样本数据(xi,yi)(i=1,2,…,20),其中xi和yi分别表示第i个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得xi=60,yi=1200,(xi-)2=80,(yi-)2=9000,(xi-)(yi-)=800.(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘以地块数);(2)求样本(xi,yi)(i=1,2,…,20)的相关系数(精确到0.01);(3)根据现有统计资料,各地块间植物覆盖面积差异很大.为提高样本的代表性以获得该地区这种野生动物数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由.附:相关系数r=,≈1.414.解 (1)每个样区野生动物数量的平均数为yi=×1200=60,地块数为200,所以该地区这种野生动物数量的估计值为200×60=12000.(2)样本(xi,yi)的相关系数为r===≈0.94.(3)由于各地块间植物覆盖面积差异很大,为提高样本数据的代表性,应采用分层随机抽样,先将植物覆盖面积按优、中、差分成三层,在各层内按比例抽取样本,在每层内用简单随机抽样法抽取样本即可.4.(2020·新高考Ⅰ卷)为加强环境保护,治理空气污染,环境监测部门对某市空气质量进行调研,随机抽查了100天空气中的PM2.5和SO2浓度(单位:μg/m3),得下表:[0,50] (50,150] (150,475][0,35] 32 18 4(35,75] 6 8 12(75,115] 3 7 10(1)估计事件“该市一天空气中PM2.5浓度不超过75,且SO2浓度不超过150”的概率;(2)根据所给数据,完成下面的2×2列联表:[0,150] (150,475][0,75](75,115](3)根据(2)中的列联表,判断是否有99%的把握认为该市一天空气中PM2.5浓度与SO2浓度有关?附:K2=,P(K2≥k) 0.050 0.010 0.001k 3.841 6.635 10.828解 (1)由表格中的数据可知,该市100天中,空气中的PM2.5浓度不超过75,且SO2浓度不超过150的有32+6+18+8=64天,所以该市一天空气中PM2.5浓度不超过75,且SO2浓度不超过150的概率的估计值为=0.64.(2)由所给数据,可得2×2列联表为[0,150] (150,475][0,75] 64 16(75,115] 10 10(3)根据2×2列联表中的数据可得K2===≈7.484>6.635,所以有99%的把握认为该市一天空气中PM2.5浓度与SO2浓度有关.一、基础知识巩固考点 相关关系的判断例1 (多选)下列变量之间的关系是相关关系的是( )A.圆的面积S和半径rB.光照时间和果树亩产量C.降雪量和交通事故发生率D.每亩田施肥量和粮食亩产量答案 BCD解析 A中,两者之间是确定性的函数关系.一般来说,光照时间越长,果树亩产量越高;降雪量越大,交通事故发生率越高;施肥量越多,粮食亩产量越高,所以B,C,D是相关关系.例2 (2021·西安中学高三月考)对四组数据进行统计,获得如图所示的散点图,关于其样本相关系数的比较,正确的是( )A.r2<r4<0<r3<r1B.r4<r2<0<r1<r3C.r4<r2<0<r3<r1D.r2<r4<0<r1<r3答案 A解析 由散点图可知图(1)与图(3)是正相关,故r1>0,r3>0,图(2)与图(4)是负相关,故r2<0,r4<0,且图(1)与图(2)的样本点集中在一条直线附近,因此r2<r4<0<r3<r1.故选A.例3 以下是在某地搜集到的不同楼盘房屋的销售价格y(单位:万元)和房屋面积x(单位:m2)的数据:房屋面积x/m2 115 110 80 135 105销售价格y/万元 49.6 43.2 38.8 58.4 44(1)画出数据对应的散点图;(2)判断房屋的销售价格和房屋面积之间是否具有相关关系.如果有相关关系,是正相关还是负相关?解 (1)数据对应的散点图如图所示.(2)通过以上数据对应的散点图可以判断,房屋的销售价格和房屋面积之间具有相关关系,并且是正相关. 1.在一组样本数据(x1,y1),(x2,y2),…,(xn,yn)(n≥2,x1,x2,…,xn不全相等)的散点图中,若所有样本点(xi,yi)(i=1,2,…,n)都在直线y=x+1上,则这组样本数据的样本相关系数为( )A.-1 B.0C. D.1答案 D解析 所有样本点均在同一条斜率为正数的直线上,则样本相关系数为1,故选D.2.(多选)下列四个命题中正确的是( )A.已知两个变量具有线性相关关系,其经验回归方程为=+ x,若 =2,=1,=3,则=1B.两个变量线性相关性越强,则样本相关系数的绝对值越接近于0C.在经验回归方程=0.2x+12中,当变量x每增加一个单位时,变量平均增加0.2个单位D.以模型y=cekx去拟合一组数据时,为了求出经验回归方程,设z=ln y,将其变换后得到线性方程=0.3x+4,则c=e4,k=0.3答案 ACD解析 对于A,将 =2,=1,=3代入经验回归方程=+ x,得3=+2,则=1,正确;对于B,两个变量线性相关性越强,则相关系数的绝对值越接近于1,错误;对于C,在经验回归方程=0.2x+12中,当变量x增加一个单位时,变量=0.2(x+1)+12=0.2x+12+0.2,平均增加0.2个单位,正确;对于D,对y=cekx两边取对数得ln y=ln c+kx,设z=ln y,则z=kx+ln c,与=0.3x+4比较,得4=ln c,k=0.3,即c=e4,正确. 判断相关关系的两种方法(1)散点图法:如果所有的样本点都落在某一函数的曲线附近,变量之间就有相关关系.如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系.(2)相关系数法:利用样本相关系数判断,当|r|越趋近于1时,线性相关性越强.考点 一元线性回归模型和非线性回归模型及其应用例4 (2021·福州模拟)随着我国中医学的发展,药用昆虫的使用愈来愈多.每年春暖以后至寒冬前,昆虫大量活动与繁殖,易于采集各种药用昆虫.已知一只药用昆虫的产卵数y(单位:个)与一定范围内的温度x(单位:℃)有关,于是科研人员在3月份的31天中随机挑选了5天进行研究,现收集了该种药用昆虫的5组观测数据如下表:日期 2日 7日 15日 22日 30日温度x/℃ 10 11 13 12 8产卵数y/个 23 25 30 26 16科研人员确定的研究方案是:先从这5组数据中任选2组,用剩下的3组数据建立y关于x的经验回归方程,再对被选取的2组数据进行检验.(1)若选取的是3月2日与30日这2组的数据,请根据3月7日、15日和22日这3组的数据,求出y关于x的经验回归方程;(2)若由经验回归方程得到的估计数据与所选出的检验数据的误差均不超过2个,则认为得到的经验回归方程是可靠的,试问(1)中所得的经验回归方程是否可靠?参考公式:经验回归方程=+ x中斜率和截距的最小二乘估计公式分别为=,=- .解 (1)由已知数据得=12,=27,(xi-)(yi-)=5, (xi-)2=2,所以==,=-=27-×12=-3.所以y关于x的经验回归方程为=x-3.(2)由(1)知,y关于x的经验回归方程为=x-3.当x=10时,=×10-3=22,|22-23|<2,当x=8时,=×8-3=17,|17-16|<2.所以(1)中所得的经验回归方程=x-3是可靠的.例5 千百年来,人们一直在通过不同的方式传递信息.在古代,烽火狼烟、飞鸽传书、快马驿站等通信方式被人们广泛传知;第二次工业革命后,科技的进步带动了电讯事业的发展,电报、电话的发明让通信领域发生了翻天覆地的变化;之后,计算机和互联网的出现则使得“千里眼”“顺风耳”变为现实……此时此刻,5G的到来即将给人们的生活带来颠覆性的变革.“5G领先”一方面是源于我国顶层设计的宏观布局,另一方面则来自政府高度重视、企业积极抢滩、企业层面的科技创新能力和先发优势.某科技创新公司基于领先技术的支持,丰富的移动互联网应用等明显优势,随着技术的不断完善,该公司的5G经济收入在短期内逐月攀升.业内预测,该创新公司在第1个月至第7个月的5G经济收入y(单位:百万元)关于月份x的数据如下表:时间(月份) 1 2 3 4 5 6 7收入(百万元) 6 11 21 34 66 101 196根据以上数据绘制如下散点图.(1)为了更充分运用大数据、人工智能、5G等技术,公司需要派出员工实地检测产品性能和使用状况.公司领导要从报名的五名科技人员A,B,C,D,E中随机抽取3个人前往,则A,B同时被抽到的概率为多少?(2)根据散点图判断,y=ax+b与y=c·dx(a,b,c,d均为大于零的常数)哪一个适宜作为5G经济收入y关于月份x的回归方程类型?(给出判断即可,不必说明理由)并根据你的判断结果及表中的数据,求出y关于x的经验回归方程;(3)请你预测该公司8月份的5G经济收入.参考数据:yi lg yi xiyi xivi 100.45 100.54435 10.78 2535 50.12 2.82 3.47v=lg y,vi=lg yi.参考公式:对于一组具有线性相关关系的数据(xi,vi)(i=1,2,3,…,n),其经验回归直线=x+的斜率和截距的最小二乘估计公式分别为=,=- .解 (1)从报名的科技人员A,B,C,D,E中随机抽取3个人,则所有的情况为{A,B,C},{A,B,D},{A,B,E},{A,C,D},{A,C,E},{A,D,E},{B,C,D},{B,C,E},{B,D,E},{C,D,E},共10种.记“A,B同时被抽到”为事件Q,则事件Q包含的样本点为{A,B,C},{A,B,D},{A,B,E},共3个,故P(Q)=.(2)根据散点图判断,y=c·dx适宜作为5G经济收入y关于月份x的回归方程类型.由y=c·dx,两边同时取常用对数得lg y=lg (c·dx)=lg c+xlg d.设lg y=v,lg c=α,lg d=β,所以v=α+βx.因为=×(1+2+3+4+5+6+7)=4,=vi=lg yi=×10.78=1.54,x=12+22+32+42+52+62+72=140,所以====0.25.=- =1.54-0.25×4=0.54,所以=0.54+0.25x,所以lg =0.54+0.25x,所以y关于x的经验回归方程为=100.54+0.25x=3.47×100.25x.(3)当x=8时,=3.47×100.25×8=347,所以预测该公司8月份的5G经济收入为347百万元.例6 关于x与y有如下数据:x 2 4 5 6 8y 30 40 60 50 70有如下的两个线性模型:①=6.5x+17.5;②=7x+17.试比较哪一个拟合效果更好.参考公式:R2=1-.解 由①可得yi-i与yi-的关系如下表:x 2 4 5 6 8yi-i -0.5 -3.5 10 -6.5 0.5yi- -20 -10 10 0 20所以 (yi-i)2=(-0.5)2+(-3.5)2+102+(-6.5)2+0.52=155,(yi-)2=(-20)2+(-10)2+102+02+202=1000.所以R=1-=1-=0.845.由②可得yi-i与yi-的关系如下表:x 2 4 5 6 8yi-i -1 -5 8 -9 -3yi- -20 -10 10 0 20所以 (yi-i)2=(-1)2+(-5)2+82+(-9)2+(-3)2=180,所以R=1-=1-=0.82.所以R>R.所以①的拟合效果更好. 3.越接近高考学生焦虑程度越强,四个高三学生中大约有一个有焦虑症,经有关机构调查,得出距离高考周数与焦虑程度对应的正常值变化情况如下表:周数x 6 5 4 3 2 1正常值y 55 63 72 80 90 99(1)作出散点图;(2)根据上表数据用最小二乘法求出y关于x的经验回归方程=x+ (精确到0.01);(3)根据经验,观测值为正常值的0.85~1.06为正常,1.06~1.12为轻度焦虑,1.12~1.20为中度焦虑,1.20及其以上为重度焦虑,若为中度焦虑及其以上,则要进行心理疏导.若一个学生在距高考第二周时观测值为103,则该学生是否需要进行心理疏导?其中xiyi=1452,x=91,=,=-.解 (1)散点图如图所示.(2)=×(6+5+4+3+2+1)=3.5,=×(55+63+72+80+90+99)=76.5,xiyi=1452,x=91,则=≈-8.83,=76.5+8.83×3.5≈107.41,∴经验回归方程为=-8.83x+107.41.(3)≈1.14>1.12,∴该学生需要进行心理疏导.4.(2021·湖北武汉5月模拟)2021年,我国新型冠状病毒肺炎疫情已经得到初步控制,抗疫工作取得阶段性胜利.某市号召市民接种疫苗,提出全民“应种尽种”的口号,疫苗成了重要的防疫物资.某疫苗生产厂不断加大投入,高速生产,现对其某月内连续9天的日生产量yi(单位:十万支,i=1,2,…,9)数据作了初步统计,得到如图所示的散点图及一些统计量的数值:iyi izi2.72 19 139.09 1095注:图中日期代码1~9分别对应这连续9天的时间;表中zi=eyi,i=1,2,…,9,=i.(1)从这9天中随机选取3天,求这3天中恰有2天的日生产量不高于三十万支的概率;(2)由散点图分析,样本点都集中在曲线y=ln (bt+a)的附近,求y关于t的方程y=ln (bt+a),并估计该厂从什么时候开始日生产量超过四十万支.参考公式:经验回归方程=u+中,斜率和截距的最小二乘估计公式为==,=- .参考数据:e4≈54.6.解 (1)记所求事件为A,9天中日生产量不高于三十万支的有5天.P(A)==.(2)∵y=ln (bt+a),∴z=ey=bt+a,=5,=285.∴b====4,∴a=-b=19-4×5=-1,∴y=ln (4t-1).令ln (4t-1)>4,解得t>≈13.9.∴t≥14,即该厂从统计当天起的第14天开始日生产量超过四十万支.5.对某地区儿童的身高与体重的一组数据,我们用两种模型①y=bx+a,②y=cedx拟合,得到经验回归方程分别为(1)=0.24x-8.81,(2)=1.70e0.022x,作残差分析,如下表:身高x (cm) 60 70 80 90 100 110体重y (kg) 6 8 10 14 15 18(1) 0.41 0.01 1.21 -0.19 0.41(2) -0.36 0.07 0.12 1.69 -0.34 -1.12(1)求表中空格内的值;(2)根据残差比较模型①②的拟合效果,决定选择哪个模型;(3)若残差大于1 kg的样本点被认为是异常数据,应剔除,剔除后对(2)所选择的模型重新建立经验回归方程.(结果保留到小数点后两位)附:对于一组数据(x1,y1),(x2,y2),…,(xn,yn),其经验回归直线=x+的斜率和截距的最小二乘估计分别为=,=- .解 (1)根据残差分析,把x=80代入(1)=0.24x-8.81,得(1)=10.39.∵10-10.39=-0.39,∴表中空格内的值为-0.39.(2)模型①残差的绝对值的和为0.41+0.01+0.39+1.21+0.19+0.41=2.62,模型②残差的绝对值的和为0.36+0.07+0.12+1.69+0.34+1.12=3.7.∵2.62<3.7,∴模型①的拟合效果比较好,选择模型①.(3)残差大于1 kg的样本点被剔除后,剩余的数据如下表:身高x(cm) 60 70 80 100 110体重y(kg) 6 8 10 15 18(1) 0.41 0.01 -0.39 -0.19 0.41由公式=,=- ,得经验回归方程为=0.24x-8.76. 1.求经验回归方程的步骤2.非线性回归分析的步骤非线性回归问题有时并不给出经验公式.这时我们可以画出已知数据的散点图,把它与学过的各种函数(幂函数、指数函数、对数函数等)图象作比较,挑选一种跟这些散点拟合得最好的函数,然后采用适当的变量变换,把问题化为线性回归分析问题,使之得到解决.其一般步骤如下:3.模型拟合效果的判断(1)残差平方和越小,模型的拟合效果越好.(2)决定系数R2越大,模型的拟合效果越好.考点 独立性检验例7 (2019·全国Ⅰ卷改编)某商场为提高服务质量,随机调查了50名男顾客和50名女顾客,每位顾客对该商场的服务给出满意或不满意的评价,得到下面列联表:满意 不满意男顾客 40 10女顾客 30 20(1)分别估计男、女顾客对该商场服务满意的概率;(2)依据小概率值α=0.05的独立性检验,能否推断男、女顾客对商场服务的评价有差异?附:χ2=.参考数据:α 0.1 0.05 0.01 0.005xα 2.706 3.841 6.635 7.879解 (1)由调查数据得,男顾客中对该商场服务满意的频率为=0.8,因此男顾客对该商场服务满意的概率的估计值为0.8.女顾客中对该商场服务满意的频率为=0.6,因此女顾客对该商场服务满意的概率的估计值为0.6.(2)零假设为H0:男、女顾客对商场服务的评价无差异,则χ2=≈4.762.由于4.762>3.841=x0.05,所以依据小概率值α=0.05的独立性检验,我们推断H0不成立,即认为男、女顾客对该商场服务的评价有差异.此推断犯错误的概率不大于0.05.例8 (2021·湖北荆、荆、襄、宜四地七校联考)为积极响应国家“阳光体育运动”的号召,某学校在了解到学生的实际运动情况后,发起以“走出教室,走到操场,走到阳光”为口号的课外活动倡议.为调查该校学生每周平均体育运动时间的情况,从高一、高二基础年级与高三三个年级学生中按照4∶3∶3的比例分层随机抽样,收集300位学生每周平均体育运动时间的样本数据(单位:小时),得到如图所示的频率分布直方图.(已知高一年级共有1200名学生)(1)据图估计该校学生每周平均体育运动时间,并估计高一年级每周平均体育运动时间不足4小时的人数;(2)规定每周平均体育运动时间不少于6小时记为“优秀”,否则为“非优秀”,在样本数据中,有30位高三学生的每周平均体育运动时间不少于6小时,请完成下列2×2列联表,并根据小概率值α=0.01的独立性检验,判断“该校学生的每周平均体育运动时间是否‘优秀’与年级有关”吗?基础年级 高三 合计优秀非优秀合计 300附:χ2=.参考数据:α 0.1 0.05 0.01 0.005xα 2.706 3.841 6.635 7.879解 (1)该校学生每周平均体育运动时间为=1×0.05+3×0.2+5×0.3+7×0.25+9×0.15+11×0.05=5.8.样本中高一年级每周平均体育运动时间不足4小时的人数为300××(0.025×2+0.100×2)=30.又样本中高一年级的有120人,所以估计高一年级每周平均体育运动时间不足4小时的人数约为1200×=300.(2)列联表如下:基础年级 高三 合计优秀 105 30 135非优秀 105 60 165合计 210 90 300零假设为H0:该校学生的每周平均体育运动时间是否“优秀”与年级无关.则χ2==≈7.071>6.635=x0.01.依据小概率值α=0.01的独立性检验,我们推断H0不成立,即认为该校学生的每周平均体育运动时间是否“优秀”与年级有关.此推断犯错误的概率不大于0.01. 6.某省进行高中新课程改革已经四年了,为了了解教师对新课程教学模式的使用情况,某一教育机构对某学校的教师关于新课程教学模式的使用情况进行了问卷调查.共调查了50人,其中有老教师20人,青年教师30人.老教师对新课程教学模式赞同的有10人,不赞同的有10人;青年教师对新课程教学模式赞同的有24人,不赞同的有6人.(1)根据以上数据建立一个2×2列联表;(2)依据小概率值α=0.001的独立性检验,能否推断青年教师和老教师在新课程教学模式的使用上有差异?附:χ2=.参考数据:α 0.1 0.05 0.01 0.005 0.001xα 2.706 3.841 6.635 7.879 10.828解 (1)2×2列联表如下所示.赞同 不赞同 合计老教师 10 10 20青年教师 24 6 30合计 34 16 50(2)零假设H0:青年教师和老教师在新课程教学模式的使用上没有差异.由公式得χ2=≈4.963<10.828=x0.001,我们没有充分证据推断H0不成立,因此可以认为H0成立,即认为青年教师和老教师在新课程教学模式的使用上没有差异.7.(2020·全国Ⅲ卷改编)某学生兴趣小组随机调查了某市100天中每天的空气质量等级和当天到某公园锻炼的人次,整理数据得到下表(单位:天):锻炼人次空气质量等级 [0,200] (200,400] (400,600]1(优) 2 16 252(良) 5 10 123(轻度污染) 6 7 84(中度污染) 7 2 0(1)分别估计该市一天的空气质量等级为1,2,3,4的概率;(2)求一天中到该公园锻炼的平均人次的估计值(同一组中的数据用该组区间的中点值为代表);(3)若某天的空气质量等级为1或2,则称这天“空气质量好”;若某天的空气质量等级为3或4,则称这天“空气质量不好”.根据所给数据,完成下面的2×2列联表,并根据列联表,依据α=0.05的独立性检验,分析一天中到该公园锻炼的人次与该市当天的空气质量是否有关?人次≤400 人次>400空气质量好空气质量不好附:χ2=,其中n=a+b+c+d.α 0.1 0.05 0.01 0.005 0.001xα 2.706 3.841 6.635 7.879 10.828解 (1)由所给数据,该市一天的空气质量等级为1,2,3,4的概率的估计值如下表:空气质量等级 1 2 3 4概率的估计值 0.43 0.27 0.21 0.09(2)一天中到该公园锻炼的平均人次的估计值为×(100×20+300×35+500×45)=350.(3)根据所给数据,可得2×2列联表如下:人次≤400 人次>400空气质量好 33 37空气质量不好 22 8零假设为H0:一天中到公园锻炼的人次与该市当天的空气质量无关.计算可得χ2=≈5.820>3.841=x0.05,依据α=0.05的独立性检验,推断H0不成立,即认为一天中到该公园锻炼的人次与该市当天的空气质量有关.此推断犯错误的概率不大于0.05. 独立性检验的一般步骤(1)根据样本数据制成2×2列联表.(2)根据公式χ2=计算.(3)比较χ2与临界值的大小,作统计推断:如果χ2>xα,则“X与Y有关系”这种推断犯错误的概率不超过α;否则,就认为在犯错误的概率不超过α的前提下不能推断“X与Y有关系”,或者在样本数据中没有发现足够的证据支持结论“X与Y有关系”.二、核心素养提升例1 (2021·海南第五次模拟)从去年开始,全国各地积极开展“一盔一带”安全守护行动,倡导群众佩戴安全头盔、使用安全带.为了解相关的情况,某学习小组统计了国内20个城市的电动自行车头盔佩戴率x(%)和电动自行车驾乘人员交通事故死亡率y(%),并整理得到下面的散点图.(1)求这20个城市的电动自行车头盔佩戴率大于50%的频率;(2)通过散点图分析y与x的相关关系,说明佩戴安全头盔的必要性;(3)有四名同学通过计算得到y与x的相关系数分别为0.97,0.62,-0.45,-0.98,请你从中选出最有可能正确的结果,并以此求出y关于x的经验回归方程.参考数据:xi=1000,yi=1080, (xi-)2=6800, (yi-)2=1700.参考公式:相关系数r=,经验回归方程=+ x中斜率和截距的最小二乘估计公式分别为=,=- .解 (1)电动自行车头盔佩戴率大于50%的城市有10个,故所求的频率为.(2)由散点图可知y与x有较强的负相关关系,提高电动自行车头盔佩戴率能有效降低驾乘人员交通事故死亡率,所以佩戴安全头盔十分有必要.(3)最有可能正确的结果为-0.98.根据参考数据得=xi=50,=yi=54,所以 ==r×=-0.98× =-0.49,=- =54+0.49×50=78.5,所以y关于x的经验回归方程为=-0.49x+78.5.例2 (2021·辽宁铁岭六校高三模拟)某学校共有1000名学生参加知识竞赛,其中男生400人,为了解该校学生在知识竞赛中的情况,采用分层随机抽样的方法抽取了100名学生进行调查,分数分布在450~950分之间,根据调查的结果绘制的学生分数频率分布直方图如图所示:将分数不低于750分的学生称为“高分选手”.(1)求a的值,并估计该校学生分数的平均数、中位数和众数(估计平均数和众数时,同一组中的数据用该组区间的中点值作代表);(2)现采用分层随机抽样的方式从分数落在[550,650),[750,850)内的两组学生中抽取10人,再从这10人中随机抽取3人,记被抽取的3名学生中属于“高分选手”的学生人数为随机变量X,求X的分布列及数学期望;(3)若样本中属于“高分选手”的女生有10人,完成下列2×2列联表,并判断是否有97.5%的把握认为该校学生属于“高分选手”与“性别”有关?属于“高分选手” 不属于“高分选手” 合计男生女生合计参考公式:χ2=,其中n=a+b+c+d.α 0.15 0.10 0.05 0.025 0.010 0.005 0.001xα 2.072 2.706 3.841 5.024 6.635 7.879 10.828解 (1)由题意知100×(0.0015+a+0.0025+0.0015+0.001)=1,解得a=0.0035,样本平均数为=500×0.15+600×0.35+700×0.25+800×0.15+900×0.10=670,中位数为650,众数为600.所以估计该校学生分数的平均数是670,中位数是650,众数是600.(2)由题意,从[550,650)中抽取7人,从[750,850)中抽取3人,随机变量X的所有可能取值有0,1,2,3.P(X=k)=(k=0,1,2,3),所以随机变量X的分布列为P 0 1 2 3X随机变量X的数学期望E(X)=0×+1×+2×+3×=.(3)由题可知,样本中男生40人,女生60人,属于“高分选手”的25人,其中女生10人,得出以下2×2列联表:属于“高分选手” 不属于“高分选手” 合计男生 15 25 40女生 10 50 60合计 25 75 100χ2===≈5.556>5.024,所以有97.5%的把握认为该校学生属于“高分选手”与“性别”有关.1.概率统计与回归分析的综合将概率和回归分析的知识进行综合,综合考查对统计图表、概率的基本思想、回归分析的基本思想的理解,考查逻辑推理、数学运算、数据分析的数学素养.2.概率与独立性检验的综合将概率和独立性检验知识进行综合,考查逻辑推理、数学运算和数据分析的数学素养.课时作业一、单项选择题1.(2022·湖北宜昌阶段考试)为了践行“绿水青山就是金银山”的理念,小华同学在一次“植树节”活动中认养了一棵杨树.据统计,杨树的生长年份t和高度h(cm)的统计数据如表.年份t 3 4 5 6高度h(cm) 250 300 400 450由散点图可以看出h,t具有线性相关关系,并求得经验回归方程为=70t+.据此模型估计,该杨树生长8年后的高度为( )A.610 cm B.605 cmC.600 cm D.595 cm答案 D解析 ==350,==4.5,所以就有350=70×4.5+,解得=35,所以杨树生长8年后的高度为=70×8+35=595 cm,故选D.2.如表是2×2列联表,则表中的a,b的值分别为( )Y1 Y2 合计X1 a 8 35X2 11 34 45合计 b 42 80A.27,38 B.28,38C.27,37 D.28,37答案 A解析 a=35-8=27,b=a+11=27+11=38.3.对变量x,y进行回归分析时,依据得到的4个不同的回归模型画出残差图,则下列模型拟合效果最好的是( )答案 A解析 用残差图判断模型的拟合效果,残差点比较均匀地落在水平的带状区域中,说明这样的模型比较合适.带状区域的宽度越窄,说明模型的拟合效果越好.4.(2022·江苏镇江高三月考)党的十九大报告中指出:从2020年到2035年,在全面建成小康社会的基础上,再奋斗15年,基本实现社会主义现代化.若到2035年底我国人口数量增长至14.4亿,由2013年到2019年的统计数据可得国内生产总值(GDP)y(单位:万亿元)关于年份代号x的经验回归方程为=6.60x+50.36(x=1,2,3,4,5,6,7),由经验回归方程预测我国在2035年底人均国内生产总值(单位:万元)约为( )A.14.04 B.202.16C.13.58 D.14.50答案 A解析 2035年为第23年,将x=23代入经验回归方程可得=6.60×23+50.36=202.16,所以,预测我国在2035年底人均国内生产总值为≈14.04(万元).故选A.5.某工厂为了调查工人文化程度与月收入的关系,随机抽取了部分工人,得到如下列联表:文化程度与月收入列联表(单位:人)收入文化程度 月收入2000元以下 月收入2000元及以上 合计高中文化以上 10 45 55高中文化及以下 20 30 50合计 30 75 105由上表中数据计算得χ2=≈6.109.如果认为文化程度与月收入有关系,那么犯错误的概率不会超过( )附表:α 0.10 0.05 0.010 0.005 0.001xα 2.706 3.841 6.635 7.879 10.828A.0.01 B.0.025C.0.03 D.0.05答案 D解析 因为χ2≈6.109>3.841=x0.05,所以认为文化程度与月收入有关系,那么犯错误的概率不会超过0.05.6.(2021·山东日照高三联考)相关变量x,y的散点图如图所示,现对这两个变量进行线性相关分析,方案一:根据图中所有数据,得到经验回归方程=1x+1,样本相关系数为r1;方案二:剔除点(10,21),根据剩下数据得到经验回归方程=2x+2,样本相关系数为r2.则( )A.0C.-1答案 D解析 由散点图得这两个变量呈负相关,所以r1,r2<0.因为剔除点(10,21)后,剩下的数据线性相关性更强,所以|r2|更接近1,所以-17.已知某地的财政收入x与支出y满足经验回归方程=x++e(单位:亿元),其中=0.8,=2,|e|≤0.5,如果今年该地区的财政收入为10亿元,那么支出预计不会超过( )A.9亿元 B.10亿元C.9.5亿元 D.10.5亿元答案 D解析 0.8×10+2+e=10+e≤10.5.8.(2021·长春市第二十中学)某运动制衣品牌为了成衣尺寸更精准,现选择15名志愿者,对其身高和臂展进行测量(单位:厘米),甲图为选取的15名志愿者身高与臂展的折线图,乙图为身高x与臂展y所对应的散点图,并求得其经验回归方程为=1.16x-30.75,以下结论中错误的是( )A.15名志愿者身高的极差小于臂展的极差B.15名志愿者身高和臂展成正相关关系C.身高相差10厘米的两人臂展都相差11.6厘米D.可估计身高为190厘米的人臂展大约为189.65厘米答案 C解析 对于A,身高极差大约是22,臂展极差大约是25,故A正确;对于B,很明显根据散点图以及经验回归方程得到,身高和臂展成正相关关系,故B正确;对于C,身高相差10厘米的两人臂展的估计值相差11.6厘米,但不是准确值,经验回归直线上的点并不都是准确的样本点,故C错误;对于D,身高为190厘米,代入经验回归方程可得臂展等于189.65厘米,但不是准确值,故D正确.故选C.二、多项选择题9.(2021·山东烟台高三三模)对具有相关关系的两个变量x和y进行回归分析时,经过随机抽样获得成对的样本点数据(xi,yi)(i=1,2,…,n),则下列结论正确的是( )A.若两变量x,y具有线性相关关系,则经验回归直线至少经过一个样本点B.若两变量x,y具有线性相关关系,则经验回归直线一定经过样本点中心(,)C.若以模型y=aebx拟合该组数据,为了求出经验回归方程,设z=ln y,将其变换后得到线性方程z=6x+ln 3,则a,b的估计值分别是3和6D.用R2=1-来刻画回归模型的拟合效果时,若所有样本点都落在一条斜率为非零实数的直线上,则R2的值为1答案 BCD解析 若两变量x,y具有线性相关关系,即满足y=x+,则一定满足=+,样本点不一定在经验回归直线上,故A错误,B正确;若以模型y=aebx拟合该组数据,z=ln y=bx+ln a=6x+ln 3,故a=3,b=6,故C正确;用R2=1-来刻画回归模型的拟合效果时,若所有样本点都落在一条斜率为非零实数的直线上,则yi=i,即R2=1-=1-0=1,故D正确.故选BCD.10.针对时下的“抖音热”,某校团委对“学生性别和喜欢抖音是否有关”作了一次调查,其中被调查的男、女生人数相同,男生喜欢抖音的人数占男生人数的,女生喜欢抖音的人数占女生人数的,若有95%的把握认为是否喜欢抖音和性别有关,则被调查的人中男生可能有( )附表:α 0.10 0.05 0.010 0.005 0.001xα 2.706 3.841 6.635 7.879 10.828附:χ2=,n=a+b+c+d.A.25人 B.35人C.45人 D.60人答案 CD解析 设男生可能有x人,依题意得女生有x人,可得2×2列联表如下:喜欢抖音 不喜欢抖音 合计男生 x x x女生 x x x合计 x x 2x若有95%的把握认为是否喜欢抖音和性别有关,则χ2>3.841,即χ2==x>3.841=x0.05,解得x>40.3305,由题意知x>0,且x是5的整数倍,所以45和60都满足题意.三、填空题11.已知对于一组数据(x1,y1),(x2,y2),…,(x10,y10),y关于x的经验回归方程为=-2x+7.2,若xi=6,则yi=________.答案 60解析 由xi=6可得=0.6,把(,)代入经验回归方程可得=-2×0.6+7.2=6,故yi=6×10=60.12.某研究性学习小组调查研究学生玩手机对学习的影响,部分统计数据如下表:玩手机 不玩手机 合计学习成绩优秀 4 8 12学习成绩不优秀 16 2 18合计 20 10 30经计算χ2的值,则最多有________的把握认为玩手机对学习有影响.附:χ2=,n=a+b+c+d.α 0.10 0.05 0.025 0.010 0.005 0.001xα 2.706 3.841 5.024 6.635 7.879 10.828答案 99.5%解析 由表中数据,得χ2==10,且10>7.879,则最多有99.5%的把握认为玩手机对学习有影响.13.(2022·江淮十校联考)对具有线性相关关系的变量x,y,有一组观测数据(xi,yi)(i=1,2,3,…,12),其经验回归方程为=2x+,且y1+y2+y3+…+y12=3(x1+x2+x3+…+x12)=24,则实数的值是________.答案 解析 由y1+y2+y3+…+y12=3(x1+x2+x3+…+x12)=24知=,=2.又经验回归直线一定过样本点的中心(,),故2=2×+,∴=.14.某市居民2017~2021年家庭年平均收入x(单位:万元)与年平均支出y(单位:万元)的统计资料如下表所示:年份 2017 2018 2019 2020 2021收入x 11.5 12.1 13 13.3 15支出y 6.8 8.8 9.8 10 12根据统计资料,居民家庭年平均收入的中位数是________,家庭年平均收入与年平均支出有________相关关系.(填“正”或“负”)答案 13 正解析 由表格可知居民家庭年平均收入的中位数是13.由相关性知识,根据统计资料可以看出,当年平均收入增多时,年平均支出也增多,因此两者之间具有正相关关系.四、解答题15.为了解某班学生喜爱打篮球是否与性别有关,对本班48人进行了问卷调查得到了如下的2×2列联表:已知在全班48人中随机抽取1人,抽到喜爱打篮球的学生的概率为.(1)请将上面的2×2列联表补充完整(不用写计算过程);(2)根据小概率值α=0.05的独立性检验,能否据此推断喜爱打篮球与性别有关?(3)现从女生中抽取2人做进一步调查,设其中喜爱打篮球的女生人数为X,求X的分布列与均值.附:χ2=,n=a+b+c+d.α 0.10 0.05 0.010 0.005 0.001xα 2.706 3.841 6.635 7.879 10.828解 (1)列联表补充如下:(2)零假设为H0:喜爱打篮球与性别无关,计算得χ2=≈4.286>3.841=x0.05,根据小概率值α=0.05的独立性检验,我们推断H0不成立,即认为喜爱打篮球与性别有关,此推断犯错误的概率不大于0.05.(3)喜爱打篮球的女生人数X的可能取值为0,1,2.则P(X=0)==,P(X=1)==,P(X=2)==,故X的分布列为X 0 1 2PX的均值为E(X)=0++=1.16.(2021·吉林东北师大附中高三模拟)如图,在实验室细菌培养过程中,细菌生长主要经历调整期、指数期、稳定期和衰亡期四个时期.在一定条件下,培养基上细菌的最大承载量(达到稳定期时的细菌数量)与培养基质量具有线性相关关系.某实验室在培养细菌A的过程中,通过大量实验获得了以下统计数据:培养基质量x(克) 20 40 50 60 80细菌A的最大承载量y(单位) 300 400 500 600 700(1)建立y关于x的经验回归方程,并预测当培养基质量为100克时,细菌A的最大承载量;(2)研究发现,细菌A的调整期一般为3小时,其在指数期的细菌数量y(单位)与细菌A被植入培养基的时间t近似满足函数关系y=0.8×2t-3+20,试估计在100克培养基上培养细菌A时指数期的持续时间(精确到1小时).参考数据:210=1024,211=2048,212=4096,213=8192.参考公式:经验回归方程=x+中斜率和截距的最小二乘估计公式分别为=,=-.解 (1)由题意可得==50,==500,xiyi=20×300+40×400+50×500+60×600+80×700=139000,x=400+1600+2500+3600+6400=14500,所以====7,故=-=500-7×50=150,所以y关于x的经验回归方程为=7x+150,当培养基质量为100克时,预测细菌A的最大承载量为=7×100+150=850(单位).(2)在100克培养基上培养细菌A时,由(1)可知最大承载量为850单位,又y=0.8×2t-3+20,即850=0.8×2t-3+20,化简可得2t-3=1037.5,所以t-3≈10,则t≈13,所以估计在100克培养基上培养细菌A时指数期的持续时间为10小时.17.下表为2018年至2021年某百货零售企业的线下销售额(单位:万元),其中年份代码x=年份-2017.年份代码x 1 2 3 4线下销售额y 95 165 230 310(1)已知y与x具有线性相关关系,求y关于x的经验回归方程,并预测2023年该百货零售企业的线下销售额;(2)随着网络购物的飞速发展,有不少顾客对该百货零售企业的线下销售额持续增长表示怀疑,某调查平台为了解顾客对该百货零售企业的线下销售额持续增长的看法,随机调查了55位男顾客、50位女顾客(每位顾客从“持乐观态度”和“持不乐观态度”中任选一种),其中对该百货零售企业的线下销售额持续增长持乐观态度的男顾客有10人、女顾客有20人,依据α=0.05的独立性检验,分析对该百货零售企业的线下销售额持续增长所持的态度与性别是否有关.参考公式及数据:=,=-,χ2=,n=a+b+c+d.α 0.10 0.05 0.010 0.005 0.001xα 2.706 3.841 6.635 7.879 10.828解 (1)由题意得=2.5,=200,x=30,xiyi=2355,所以===71,所以=-=200-71×2.5=22.5,所以y关于x的经验回归方程为=71x+22.5.由于2023-2017=6,所以当x=6时,=71×6+22.5=448.5,所以预测2023年该百货零售企业的线下销售额为448.5万元.(2)由题可得2×2列联表如下:持乐观态度 持不乐观态度 合计男顾客 10 45 55女顾客 20 30 50合计 30 75 105零假设为H0:对该百货零售企业的线下销售额持续增长所持的态度与性别无关,计算可得χ2=≈6.109>3.841=x0.05,依据α=0.05的独立性检验,推断H0不成立,即认为对该百货零售企业的线下销售额持续增长所持的态度与性别有关,此推断犯错误的概率不大于0.05. 展开更多...... 收起↑ 资源预览