资源简介 第二节 成对数据的统计分析课程标准 考情分析 核心素养1.了解样本相关系数的统计意义,了解样本相关系数与标准化数据的关系.会通过相关系数比较多组成对数据的相关性. 2.了解一元线性回归模型的含义,了解模型参数的统计意义,了解最小二乘原理,掌握一元线性回归模型参数的最小二乘估计方法,会用一元线性回归模型进行预测. 3.理解2×2列联表的统计意义,了解2×2列联表独立性检验及其应用. 2020年新高考第19题考查了2×2列联表和独立性检验; 2021年新高考(Ⅰ)卷和(Ⅱ)都未考查成对数据的统计分析. 数据分析 数学运算教材回扣·夯实“四基”基础知识1.变量的相关关系(1)两个变量有关系,但又没有确切到可由其中一个去精确地决定另一个的程度,这种关系称为相关关系.(2)正相关、负相关从整体上看,当一个变量的值增加时,另一个变量的相应值也呈现____的趋势,我们就称这两个变量正相关; 如果当一个变量的值增加时,另一个变量的相应值呈现____的趋势,则称这两个变量负相关.(3)线性相关一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一条____附近,我们就称这两个变量线性相关.一般地,如果两个变量具有相关性,但不是线性相关,那么我们就称这两个变量非线性相关或曲线相关.【微点拨】由散点图判断两个变量正相关、负相关的方法:当散点图中的点散布在平面直角坐标系中从左下角到右上角的区域时,两个变量正相关;当散点图中的点散布在平面直角坐标系中从左上角到右下角的区域时,两个变量负相关.2.样本相关系数r==,称r为变量x和变量y的样本相关系数.【微点拨】(1)当r>0时,称成对样本数据正相关;当r<0时,称成对样本数据负相关.(2)样本相关系数r的取值范围为[-1,1],当|r|越接近1时,成对数据的线性相关程度越强;当|r|越接近0时,成对数据的线性相关程度越弱.3.一元线性回归模型(1)数学表述式:如果两个变量之间的关系可以表示为我们称该式为Y关于x的一元线性回归模型.其中,Y称为因变量或响应变量,x称为自变量或解释变量;a和b为模型的未知参数,a称为截距参数,b称为斜率参数;e是Y与bx+a之间的随机误差.(2)经验回归方程我们将=x+称为Y关于x的经验回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线,其中.(3)利用R2刻画回归效果R2的计算公式为R2=1-)2越小,即模型的拟合效果越____;R2越小,残差平方和越大,即模型的拟合效果越____.【微点拨】(1)经验回归直线一定过样本点().(2)经验回归方程不一定都有实际意义.回归分析是对具有相关关系的两个变量进行统计分析的方法,只有在散点图大致呈线性时,求出的经验回归方程才有实际意义.4.列联表与独立性检验(1)2×2列联表如图,给出成对分类变量数据的交叉分类频数的数据统计表称为2×2列联表.X Y 合计Y=0 Y=1X=0 a b a+bX=1 c d c+d合计 a+c b+d n=a+b+c+d(2)独立性检验依据上述2×2列联表构造统计量2=.利用2的取值推断分类变量X和Y是否独立的方法称为χ2独立性检验,读作“卡方独立性检验”,简称独立性检验.临界值表α 0.1 0.05 0.01 0.005 0.001xα 2.706 3.841 6.635 7.879 10.828【微点拨】根据2的值可以判断两个分类变量有关的可信程度.若2的值越大,则两个分类变量有关系的把握越大.基本技能、思想、活动经验题组一 思考辨析(正确的打“√”,错误的打“×”)1.利用散点图可以直观判断两个变量是否具有线性相关关系.( )2.事件X,Y关系越密切,则由观测数据计算得到的χ2越大.( )3.经验回归直线=x+至少经过点(x1,y1),(x2,y2),…,(xn,yn)中的一个点.( )4.两个变量的样本相关系数的绝对值越接近于1,它们的线性相关程度越强.( )题组二 教材改编5.(多选)下列说法不正确的有( )A.经验回归方程适用于一切样本和总体B.经验回归方程一般都有局限性C.样本取值的范围会影响经验回归方程的适用范围D.经验回归方程得到的预测值是响应变量的精确值6.已知变量x,y之间具有线性相关关系,其散点图如图所示,则其经验回归方程可能为( )A.=1.5x+2 B.=-1.5x+2C.=1.5x-2 D.=-1.5x-2题组三 易错自纠7.“厉行节约,反对浪费”之风悄然吹开,某市通过随机询问100名性别不同的居民是否能做到“光盘”行动,得到列联表:分类 做不到“光盘” 能做到“光盘”男 45 10女 30 15α 0.1 0.05 0.01xα 2.706 3.841 6.635由此列联表得到的正确结论是( )A.在犯错误的概率不超过1%的前提下,认为“该市居民能否做到‘光盘’与性别有关”B.在犯错误的概率不超过1%的前提下,认为“该市居民能否做到‘光盘’与性别无关”C.在犯错误的概率不超过0.1的前提下,认为“该市居民能否做到‘光盘’与性别有关”D.在犯错误的概率不超过0.1的前提下,认为“该市居民能否做到‘光盘’与性别无关”8.已知x,y的取值如下表,从散点图可以看出y与x具有线性相关关系,且回归方程为=0.95x+,则=________.x 0 1 3 4y 2.2 4.3 4.8 6.7题型突破·提高“四能”题型一 数据的相关性[例1] (1)(多选)有一散点图如图所示,在5组(x,y)数据中去掉D(3,10)后,下列说法正确的是( )A.经验回归方程不变B.样本相关系数r变大C.各组数据对应的点到经验回归直线的距离的平方和变小D.变量x与变量y的相关程度变强(2)如图是具有相关关系的两个变量的一组数据的散点图和经验回归直线,若去掉一个点使得余下的5个点所对应的数据的样本相关系数最大,则应当去掉的点是( )A.D B.EC.F D.A[听课记录]类题通法判断数据的相关关系的三种方法[巩固训练1] (1)相关变量x,y的散点图如图所示,现对这两个变量进行线性相关分析,方案一:根据图中所有数据,得到经验回归方程:=x+,样本相关系数为r1;方案二:剔除点(10,21),根据剩下数据得到经验回归方程:=x + ,样本相关系数为r2.则( )A.0B.0C.-1D.-1(2)某同学为了解气温对热饮销售的影响,经过统计分析,得到了一个卖出的热饮杯数y与当天气温x的回归方程=-2.352x+147.767.下列选项正确的是( )A.x与y线性正相关B.x与y线性负相关C.y随x增大而增大D.y随x减小而减小题型二 一元线性回归模型及其应用角度1 经验回归方程及应用[例2] 从中国教育在线官方分布的考研动机调查来看,本科生扎堆考研的原因大概集中在这6个方面:本科就业压力大,提升竞争力;通过考研选择真正感兴趣的专业;为了获得学历;继续深造;随大流;有名校情结.如图是2016~2020年全国硕士研究生报考人数的折线图.注:年份代码1~5分别对应年份2016~2020(1)求y关于t的经验回归方程;(2)根据(1)中的经验回归方程,预测2022年全国硕士研究生报考人数.[听课记录]类题通法求经验回归方程的步骤[巩固训练2] 在一段时间内,某种商品的价格x(单位:万元)和需求量y(单位:t)之间的一组数据为:价格x/万元 1.4 1.6 1.8 2 2.2需求量y/t 12 10 7 5 3(1)画出散点图;(2)建立y关于x的经验回归方程;(3)若价格定为1.9万元,预测需求量是多少.(精确到0.01)角度2 非线性回归方程及应用[例3] [2022·湖北八市联考]近年来,明代著名医药学家李时珍故乡黄冈市蕲春县大力发展大健康产业,蕲艾产业化种植已经成为该县脱贫攻坚的主要产业之一,已知蕲艾的株高y(单位:cm)与一定范围内的温度x(单位:℃)有关,现收集了蕲艾的13组观测数据,得到如下的散点图:现根据散点图利用y=a+b或y=c+建立y关于x的回归方程,令s=,t=得到如下数据:且(si,yi)与(ti,yi)(i=1,2,3,…,13)的相关系数分别为r1,r2,且r2=-0.995 3.(1)用相关系数说明哪种模型建立y与x的回归方程更合适;(2)根据(1)的结果及表中数据,建立关于x的回归方程;(3)已知蕲艾的利润z与x、y的关系为z=20y-x,当x为何值时,z的预报值最大.参考数据和公式:0.21×21.22=4.456 2,11.67×21.22=247.637 4,=15.736 5,对于一组数据(ui,vi)(i=1,2,3,…,n),其回归直线方程v=α+βu的斜率和截距的最小二乘法估计分别为=,=-,相关系数r=.[听课记录]类题通法解决非线性回归分析问题的一般思路是换元,化非线性为线性,再用线性回归方程的方法求解.[巩固训练3] 近期,某公交公司分别推出支付宝和微信扫码支付乘车活动,活动设置了一段时间的推广期,由于推广期内优惠力度较大,吸引了越来越多的人开始使用扫码支付.某线路公交车队统计了活动刚推出一周内每一天使用扫码支付的人次,用x表示活动推出的天数,y表示每天使用扫码支付的人次(单位:十人次),统计数据如下表所示:x 1 2 3 4 5 6 7y/十人次 6 11 21 34 66 101 196根据以上数据,绘制了如图所示的散点图.(1)根据散点图判断,在推广期内,y=a+bx与y=c·dx(c,d均为大于零的常数)哪一个适宜作为扫码支付的人次y关于活动推出天数x的经验回归方程类型;(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表1中的数据,建立y关于x的经验回归方程,并预测活动推出第8天使用扫码支付的人次.题型三 列联表与独立性检验[例4] [2020·新高考Ⅰ卷]为加强环境保护,治理空气污染,环境监测部门对某市空气质量进行调研,随机抽查了100天空气中的PM2.5和SO2浓度(单位:μg/m3),得下表: SO2 PM2.5 [0,50] (50,150] (150,475][0,35] 32 18 4(35,75] 6 8 12(75,115] 3 7 10(1)估计事件“该市一天空气中PM2.5浓度不超过75,且SO2浓度不超过150”的概率;(2)根据所给数据,完成下面的2×2列联表: SO2 PM2.5 [0,150] (150,475][0,75](75,115](3)根据(2)中的列联表,判断是否有99%的把握认为该市一天空气中PM2.5浓度与SO2浓度有关?类题通法独立性检验的一般步骤[巩固训练4] 某校组织了全体学生参加“建党100周年”知识竞赛,从高一、高二年级各随机抽取50名学生的竞赛成绩(满分100分),统计如下表:分数段 [50,60) [60,70) [70,80) [80,90) [90,100]高一年级 3 10 12 15 10高二年级 4 6 10 18 12(1)分别估计高一、高二年级竞赛成绩的平均值1与2(同一组中的数据以该组数据所在区间中点的值作代表);(2)学校规定竞赛成绩不低于80分的为优秀,根据所给数据,完成下面的2×2列联表,并判断是否有90%的把握认为竞赛成绩优秀与年级有关?非优秀 优秀 合计高一年级高二年级合计 100第二节 成对数据的统计分析教材回扣 夯实“四基”基础知识1.(2)增加 减少 (3)直线3.(3)好 差基本技能、思想、活动经验1.√ 2.√ 3.× 4.√5.解析:样本或总体具有线性相关关系时,才可求经验回归方程,而且由经验回归方程得到的函数值是近似值,而非精确值,因此经验回归方程有一定的局限性,所以A,D错误.故选AD.答案:AD6.解析:设经验回归方程为 =x+,由散点图可知变量x,y负相关,经验回归直线在y轴上的截距为正数,所以<0,>0,因此方程可能为=-1.5x+2.故选B.答案:B7.解析:列联表如下:分类 做不到“光盘” 能做到“光盘” 总计男 45 10 55女 30 15 45总计 75 25 100所以χ2=≈3.030>2.706,所以在犯错误的概率不超过0.1的前提下,认为“该市居民能否做到‘光盘’与性别有关”.故选C.答案:C8.解析:∵点()在经验回归直线上,∴==2,==4.5,∴经验回归直线过点(2,4.5).代入得4.5=0.95×2+,∴=2.6.答案:2.6题型突破 提高“四能”例1 解析:(1)根据D点在散点图中的位置可知,D比较偏离经验回归直线,故去掉D(3,10)后,数据比原来集中,相关程度变强,经验回归方程有所改变,A错误,B,C,D都正确.(2)因为样本相关系数的绝对值越大,越接近于1,则说明两个变量的线性相关程度越强.因为点E到直线的距离最远,所以去掉点E,余下的5个点所对应的数据的样本相关系数最大,故选B.答案:(1)BCD (2)B巩固训练1 解析:(1)由散点图得两个变量负相关,所以r1<0,r2<0,因为剔除点(10,21)后,剩下点数据线性相关程度更强,|r2|更接近1,所以-1(2)由回归方程y^=-2.352x+147.767,可得:x与y线性负相关,且y随x增大而减小.故选B.答案:(1)D (2)B例2 解析:(1)由题中数据得==3,==214.2,2=(-2)2+(-1)2+02+12+22=10,由参考数据知,(yi-)=311,所以 ===31.1,=-=214.2-31.1×3=120.9,故所求经验回归方程为=31.1t+120.9.(2)将2022年对应的t=7代入经验回归方程,得y^=31.1×7+120.9=338.6,所以预测2022年全国硕士研究生报考人数为338.6万.巩固训练2 解析:(1)散点图如图所示.(2)由散点图可知,x,y线性相关.采用列表的方法计算与.编号 x y x2 xy1 1.4 12 1.96 16.82 1.6 10 2.56 163 1.8 7 3.24 12.64 2 5 4 105 2.2 3 4.84 6.6=×9=1.8,=×37=7.4,==-11.5,=7.4+11.5×1.8=28.1,所以y关于x的经验回归方程为^=+x=28.1-11.5x.(3)当x=1.9时,y=28.1-11.5×1.9=6.25,所以价格定为1.9万元,需求量大约是6.25 t.例3 解析:(1)由题意知r2=-0.995 3,r1===0.885 8,因为|r1|<|r2|<1,所有用y=c+模型建立y与x的回归方程更合适.(2)因为== =-10, = - =109.94+10×0.16=111.54关于x的回归方程为解析:(3)由题意知 =20 - x=20(111.54- )-x=2 230.8-(+x)≤2 230.8-20=2 210.8,所以 ≤2 210.8,当且仅当x=20时等号成立,所以当温度为20 ℃时这种草药的利润最大.根据散点图判断,y=c·dx适宜作为扫码支付的人次y关于活动推出天数x的经验回归方程类型.∵y=c·dx,两边同时取常用对数得lg y=lg (c·dx)=lg c+x·lg d.设lg y=v,∴v=lg c+x·lg d.=140,∴lg ====0.25,lg =lg =0.54,∴=0.54+0.25x,∴lg y^=0.54+0.25x,∴y关于x的经验回归方程为y^=100.54+0.25x=100.54×100.25x=3.47×100.25x.把x=8代入上式,得y^=3.47×102=347.∴预测活动推出第8天使用扫码支付的人次为3 470.例4 解析:(1)根据抽查数据,该市100天空气中的PM2.5浓度不超过75,且SO2浓度不超过150的天数为32+18+6+8=64,因此,该市一天空气中PM2.5浓度不超过75,且SO2浓度不超过150的概率的估计值为=0.64.(2)根据抽查数据,可得2×2列联表: SO2 PM2.5 [0,150] (150,475][0,75] 64 16(75,115] 10 10解析:(3)根据(2)的列联表得χ2=≈7.484.由于7.484>6.635,故有99%的把握认为该市一天空气中PM2.5浓度与SO2浓度有关.巩固训练4 解析:(1)高一年级随机抽出50名学生竞赛成绩的平均值估计为=(55×3+65×10+75×12+85×15+95×10)÷50=78.8;高二年级随机抽出50名学生竞赛成绩的平均值估计为=(55×4+65×6+75×10+85×18+95×12)÷50=80.6;故估计高一高二年级竞赛成绩的平均值分别为78.8与80.6.解析:(2)非优秀 优秀 合计高一年级 25 25 50高二年级 20 30 50合计 45 55 100χ2==≈1.010<2.706,故没有90%的把握认为竞赛成绩优秀与年级有关. 展开更多...... 收起↑ 资源预览