资源简介 中小学教育资源及组卷应用平台专题四十三 成对数据的统计分析知识归纳一、变量间的相关关系1、变量之间的相关关系当自变量取值一定时,因变量的取值带有一定的随机性,则这两个变量之间的关系叫相关关系.由于相关关系的不确定性,在寻找变量之间相关关系的过程中,统计发挥着非常重要的作用.我们可以通过收集大量的数据,在对数据进行统计分析的基础上,发现其中的规律,对它们的关系作出判断.注意:相关关系与函数关系是不同的,相关关系是一种非确定的关系,函数关系是一种确定的关系,而且函数关系是一种因果关系,但相关关系不一定是因果关系,也可能是伴随关系.2、散点图将样本中的个数据点描在平面直角坐标系中,所得图形叫做散点图.根据散点图中点的分布可以直观地判断两个变量之间的关系.(1)如果散点图中的点散布在从左下角到右上角的区域内,对于两个变量的这种相关关系,我们将它称为正相关,如图(1)所示;(2)如果散点图中的点散布在从左上角到右下角的区域内,对于两个变量的这种相关关系,我们将它称为负相关,如图(2)所示.3、相关系数若相应于变量的取值,变量的观测值为,则变量与的相关系数,通常用来衡量与之间的线性关系的强弱,的范围为.(1)当时,表示两个变量正相关;当时,表示两个变量负相关.(2)越接近,表示两个变量的线性相关性越强;越接近,表示两个变量间几乎不存在线性相关关系.当时,所有数据点都在一条直线上.(3)通常当时,认为两个变量具有很强的线性相关关系.二、线性回归1、线性回归线性回归是研究不具备确定的函数关系的两个变量之间的关系(相关关系)的方法.对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn ),其回归方程的求法为其中,,,(,)称为样本点的中心.2、残差分析对于预报变量,通过观测得到的数据称为观测值,通过回归方程得到的称为预测值,观测值减去预测值等于残差,称为相应于点的残差,即有.残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.(1)残差图通过残差分析,残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,其中这样的带状区域的宽度越窄,说明模型拟合精确度越高;反之,不合适.(2)通过残差平方和分析,如果残差平方和越小,则说明选用的模型的拟合效果越好;反之,不合适.(3)相关指数用相关指数来刻画回归的效果,其计算公式是:.越接近于,说明残差的平方和越小,也表示回归的效果越好.三、非线性回归解答非线性拟合问题,要先根据散点图选择合适的函数类型,设出回归方程,通过换元将陌生的非线性回归方程化归转化为我们熟悉的线性回归方程.求出样本数据换元后的值,然后根据线性回归方程的计算方法计算变换后的线性回归方程系数,还原后即可求出非线性回归方程,再利用回归方程进行预报预测,注意计算要细心,避免计算错误.1、建立非线性回归模型的基本步骤:(1)确定研究对象,明确哪个是解释变量,哪个是预报变量;(2)画出确定好的解释变量和预报变量的散点图,观察它们之间的关系(是否存在非线性关系);(3)由经验确定非线性回归方程的类型(如我们观察到数据呈非线性关系,一般选用反比例函数、二次函数、指数函数、对数函数、幂函数模型等);(4)通过换元,将非线性回归方程模型转化为线性回归方程模型;(5)按照公式计算线性回归方程中的参数(如最小二乘法),得到线性回归方程;(6)消去新元,得到非线性回归方程;(7)得出结果后分析残差图是否有异常.若存在异常,则检查数据是否有误,或模型是否合适等.四、独立性检验1、分类变量和列联表(1)分类变量:变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.(2)列联表:①定义:列出的两个分类变量的频数表称为列联表.②2×2列联表.一般地,假设有两个分类变量X和Y,它们的取值分别为{,}和{,},其样本频数列联表(称为2×2列联表)为总计总计从列表中,依据与的值可直观得出结论:两个变量是否有关系.2、等高条形图(1)等高条形图和表格相比,更能直观地反映出两个分类变量间是否相互影响,常用等高条形图表示列联表数据的频率特征.(2)观察等高条形图发现与相差很大,就判断两个分类变量之间有关系.3、独立性检验计算随机变量利用的取值推断分类变量X和Y是否独立的方法称为χ2独立性检验.0.10 0.05 0.010 0.005 0.0012.706 3.841 6.635 7.879 10.828解题方法总结常见的非线性回归模型(1)指数函数型(且,)两边取自然对数,,即,令,原方程变为,然后按线性回归模型求出,.(2)对数函数型令,原方程变为,然后按线性回归模型求出,.(3)幂函数型两边取常用对数,,即,令,原方程变为,然后按线性回归模型求出,.(4)二次函数型令,原方程变为,然后按线性回归模型求出,.(5)反比例函数型型令,原方程变为,然后按线性回归模型求出,.典例分析题型一、变量间的相关关系【例1-1】对两个变量,进行线性相关检验,得线性相关系数,对两个变量,进行线性相关检验,得线性相关系数,则下列判断正确的是( )A.变量与正相关,变量与负相关,变量与的线性相关性较强B.变量与负相关,变量与正相关,变量与的线性相关性较强C.变量与正相关,变量与负相关,变量与的线性相关性较强D.变量与负相关,变量与正相关,变量与的线性相关性较强【答案】C【解析】因为线性相关系数,所以,正相关,因为线性相关系数,所以,负相关,又因为,所以变量,的线性相关性比,的线性相关性强,故A、B、D错误,C正确.【例1-2】在如图所示的散点图中,若去掉点,则下列说法正确的是( ) A.样本相关系数变大B.变量与变量的相关程度变弱C.变量与变量呈正相关D.变量与变量的相关程度变强【答案】D【解析】由散点图知,自变量与因变量呈负相关,即,故C错误;去掉点后,进一步接近1,所以变小,故A错误;去掉点后,与的线性相关加强,即相关程度变强,故B错误,D正确.【例1-3】已知建筑地基沉降预测对于保证施工安全,实现信息化监控有着重要意义.某工程师建立了四个函数模型来模拟建筑地基沉降随时间的变化趋势,并用相关指数、误差平方和、均方根值三个指标来衡量拟合效果.相关指数越接近1表明模型的拟合效果越好,误差平方和越小表明误差越小,均方根值越小越好.依此判断下面指标对应的模型拟合效果最好的是( )A.相关指数 误差平方和 均方根值0.949 8.491 0.499B.相关指数 误差平方和 均方根值0.933 4.179 0.436C.相关指数 误差平方和 均方根值0.997 1.701 0.141D.相关指数 误差平方和 均方根值0.997 2.899 0.326【答案】C【解析】相关指数越接近于1,拟合效果越好,比较相关指数知,可选C,D,误差平方和及均方根值都越小,拟合效果越好,观察误差平方和和均方根值,知C的拟合效果最好.【例1-4】甲、乙、丙、丁四位同学各自对,A,B两变量的线性相关性做试验,并用回归分析方法分别求得相关系数r与残差平方和m如下表:甲 乙 丙 丁r 0.82 0.78 0.69 0.85m 106 115 124 103则能体现A,B两变量有更强的线性相关性的是( )A.甲 B.乙 C.丙 D.丁【答案】D【解析】在验证两个变量之间的线性相关关系中,相关系数的绝对值越接近于1,相关性越强,在四个选项中只有丁的相关系数最大,残差平方和越小,相关性越强,只有丁的残差平方和最小,综上可知丁的试验结果体现、两变量有更强的线性相关性.【例1-5】某统计部门对四组数据进行统计分析后,获得如图所示的散点图.下面关于相关系数的比较,正确的是( )A. B. C. D.【答案】C【解析】由图可知:所对应的图中的散点呈现正相关 ,而且对应的相关性比对应的相关性要强,故,所对应的图中的散点呈现负相关,且根据散点的分布情况可知,因此,故选:C【例1-6】观察下列四幅残差图,满足一元线性回归模型中对随机误差的假定的是( )A. B.C. D.【答案】B【解析】根据一元线性回归模型中对随机误差的假定,残差应是均值为0、方差为的随机变量的观测值.对于A选项,残差与观测时间有线性关系,故A错;对于B选项,残差比较均匀地分布在以取值为0的横轴为对称轴的水平带状区域内;故B正确;对于C选项,残差与观测时间有非线性关系,故C错;对于D选项,残差的方差不是一个常数,随着观测时间变大而变大,故D错.【例1-7】给出下列有关线性回归分析的四个命题:①线性回归直线未必过样本数据点的中心;②回归直线就是散点图中经过样本数据点最多的那条直线;③当相关系数时,两个变量正相关;④如果两个变量的相关性越强,则相关系数就越接近于.其中真命题的个数为( )A. B. C. D.【答案】A【解析】对于①,线性回归直线一定过样本数据点的中心,故①错误;对于②,回归直线在散点图中可能不经过任何一个样本数据点,故②错误;对于③,当相关系数时,两个变量正相关,故③正确;对于④,如果两个变量的相关性越强,则相关性系数就越接近于或,故④错误.故真命题的个数为1.【解题方法总结】判定两个变量相关性的方法(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.(2)样本相关系数:当r>0时,正相关;当r<0时,负相关;|r|越接近于1,相关性越强.(3)经验回归方程:当时,正相关;当时,负相关.题型二、一元线性回归模型【例2-1】为研究某种细菌在特定环境下,随时间变化的繁殖情况,得到如下实验数据:天数天 繁殖个数千个 由最小二乘法得与的线性回归方程为,则当时,繁殖个数的预测值为( )A. B. C. D.【答案】B【解析】由题中数据可得:,,因为回归直线必过样本中心,所以,所以,所以当时,.【例2-2】已知x,y的对应值如下表所示:x 0 2 4 6 8y 1 11若y与x线性相关,且回归直线方程为,则( )A.2 B.3 C.4 D.5【答案】B【解析】,又回归直线方程为,所以,解得.【例2-3】某单位在当地定点帮扶某村种植一种草莓,并把这种原本露天种植的草莓搬到了大棚里,获得了很好的经济效益.根据资料显示,产出的草莓的箱数x(单位:箱)与成本y(单位:千元)的关系如下:x 10 20 30 40 60 80y(1)根据散点图可以认为x与y之间存在线性相关关系,请用最小二乘法求出线性回归方程(,用分数表示)(2)某农户种植的草莓主要以300元/箱的价格给当地大型商超供货,多余的草莓全部以200元/箱的价格销售给当地小商贩.据统计,往年1月份当地大型商超草莓的需求量为50箱、100箱、150箱、200箱的概率分别为,,,,根据回归方程以及往年商超草莓的需求情况进行预测,求今年1月份农户草莓的种植量为200箱时所获得的利润情况.(最后结果精确到个位)附:,,在线性回归直线方程中,.【解析】(1)因为,,所以,由题意可知,所以,又因为,所以回归方程为.(2)由回归方程知,若农户草莓的种植量为200箱,则成本为(千元).设农户草莓的种植量为200箱时的收入为元,200箱草莓供给大型商超和小商贩分别箱和,显然,由题意,因此以及Y的可能取值如下表:50 100 150 200150 100 50 045000 50000 55000 60000所以Y的分布列为:Y 45000 50000 55000 60000P所以,所以预测所获利润约为元.【例2-4】已知某绿豆新品种发芽的适宜温度在之间,一农学实验室研究人员为研究温度x()与绿豆新品种发芽数y(颗)之间的关系,每组选取了成熟种子50颗,分别在对应的的温度环境下进行实验,得到如下散点图: 其中,,.(1)运用相关系数进行分析说明,是否可以用线性回归模型拟合与的关系?(2)求出关于的线性回归方程,并预测在的温度下,种子的发芽的颗数.参考公式:相关系数,回归直线方程,其中,.参考数据:.【解析】(1)根据题意,得.,.因而相关系数.由于很接近1,∴可以用线性回归方程模型拟合y与x的关系.(2),,∴关于的回归方程为.若,则颗.∴在的温度下,预测种子的发芽颗数为44.【例2-5】为调查某地区植被覆盖面积x(单位:公顷)和野生动物数量y的关系,某研究小组将该地区等面积花分为400个区块,从中随机抽取40个区块,得到样本数据(),部分数据如下:x … 2.7 3.6 3.2 3.9 …y … 50.6 63.7 52.1 54.3 …经计算得:,,,.(1)利用最小二乘估计建立y关于x的线性回归方程;(2)该小组又利用这组数据建立了x关于y的线性回归方程,并把这两条拟合直线画在同一坐标系下,横坐标x,纵坐标y的意义与植被覆盖面积x和野生动物数量y一致.设前者与后者的斜率分别为,,比较,的大小关系,并证明.附:y关于x的回归方程中,斜率和截距的最小二乘估计公式分别为: ,, 【解析】(1),,,,故回归方程为;(2)x关于y的线性回归方程为,, ,则 ,r为y与x的相关系数,又,,,故,即,下证:,若,则,即恒成立,代入表格中的一组数据得:,矛盾,故.综上,y关于x的回归方程为.【解题方法总结】求经验回归方程的步骤题型三、非线性回归【例3-1】若需要刻画预报变量和解释变量的相关关系,且从已知数据中知道预报变量随着解释变量的增大而减小,并且随着解释变量的增大,预报变量大致趋于一个确定的值,为拟合和之间的关系,应使用以下回归方程中的(,为自然对数的底数)( )A. B. C. D.【答案】D【解析】对于A:因为在定义域内单调递增且,所以随着的增大而增大,不合题意,故A错误;对于B:因为在定义域内单调递增且,所以随着的增大而减小,当解释变量,,不合题意,故B错误;对于C:因为在定义域内单调递增且,所以随着的增大而减小,当解释变量,,不合题意,故C错误;对于D:因为在定义域内单调递减且,所以随着的增大而减小,当解释变量,,故D错误.【例3-2】云计算是信息技术发展的集中体现,近年来,我国云计算市场规模持续增长.已知某科技公司2018年至2022年云计算市场规模数据,且市场规模y与年份代码x的关系可以用模型(其中e为自然对数的底数)拟合,设,得到数据统计表如下:年份 2018年 2019年 2020年 2021年 2022年年份代码x 1 2 3 4 5云计算市场规模y/千万元 7.4 11 20 36.6 66.72 2.4 3 3.6 4由上表可得经验回归方程,则2025年该科技公司云计算市场规模y的估计值为( )A. B. C. D.【答案】B【解析】因为,所以,即经验回归方程,当时,,所以,即2025年该科技公司云计算市场规模y的估计值为.【例3-3】(多选题)在对具有相关关系的两个变量进行回归分析时,若两个变量不呈线性相关关系,可以建立含两个待定参数的非线性模型,并引入中间变量将其转化为线性关系,再利用最小二乘法进行线性回归分析.下列选项为四个同学根据自己所得数据的散点图建立的非线性模型,且散点图的样本点均位于第一象限,则其中可以根据上述方法进行回归分析的模型有( )A. B.C. D.【答案】ABC【解析】对于选项A :,令 则;对于选项B:令;对于选项 C:即 令 则;对于选项D: 令则此时斜率为 ,与最小二乘法不符.【例3-4】某校课外学习小组研究某作物种子的发芽率和温度(单位:)的关系,由实验数据得到如图所示的散点图.由此散点图判断,最适宜作为发芽率和温度的回归方程类型的是( )A. B.C. D.【答案】D【解析】由散点图可见,数据分布成递增趋势,但是呈现上凸效果,即增加缓慢.A中,是直线型,均匀增长,不符合要求;B中,是二次函数型,图象呈现下凸,增长也较快,不符合要求;C中,是指数型,爆炸式增长,增长快,不符合要求;D中,是对数型,增长缓慢,符合要求.故对数型最适宜该回归模型.故选:D.【例3-5】如图是一组实验数据构成的散点图,以下函数中适合作为与的回归方程的类型是( )A. B. C. D.【答案】D【解析】由散点图中各点的变化趋势知,各点不在一条直线上,排除A.由散点图中各点呈单调递减趋势,排除B.又图中点的横坐标有正有负,故排除C.【例3-6】兰溪杨梅从5月15日起开始陆续上市,据调查统计,得到杨梅销售价格(单位:Q元/千克)与上市时间t(单位:天)的数据如下表所示:时间t/(单位:天) 10 20 70销售价格Q(单位:元/千克) 100 50 100根据上表数据,从下列函数模型中选取一个描述杨梅销售价格Q与上市时间t的变化关系:.利用你选取的函数模型,在以下四个日期中,杨梅销售价格最低的日期为( )A.6月5日 B.6月15日 C.6月25日 D.7月5日【答案】C【解析】根据表中数据,描述杨梅销售价格Q与上市时间Q的变化关系不可能是常数函数、也不可能是单调函数,函数在时均为单调函数,这与表格中的数据不吻合,所以应选取进行描述,将表中数据代入可得,解得,所以,,所以当时杨梅销售价格最低,而6月5日时,6月15日时,6月25日时,7月5日时,所以时杨梅销售价格最低.【例3-7】在正常生产条件下,根据经验,可以认为化肥的有效利用率近似服从正态分布,而化肥施肥量因农作物的种类不同每亩也存在差异.(1)假设生产条件正常,记表示化肥的有效利用率,求;(2)课题组为研究每亩化肥施用量与某农作物亩产量之间的关系,收集了10组数据,并对这些数据作了初步处理,得到了如图所示的散点图及一些统计量的值.其中每亩化肥施用量为(单位:公斤),粮食亩产量为(单位:百公斤) 参考数据:650 91.5 52.5 1478.6 30.5 15 15 46.5,,2,,.(i)根据散点图判断,与,哪一个适宜作为该农作物亩产量关于每亩化肥施用量的回归方程(给出判断即可,不必说明理由);(ii)根据(i)的判断结果及表中数据,建立关于的回归方程;并预测每亩化肥施用量为27公斤时,粮食亩产量的值.附:①对于一组数据,2,3,,,其回归直线的斜率和截距的最小二乘估计分别为,;②若随机变量,则,.【解析】(1)由,根据正态分布曲线的对称性,可得.(2)(i)由散点图可知与的关系不是线性关系,所以适宜作为粮食亩产量关于每亩化肥施用量的回归方程;(ii)因为,所以,令,则,由表可得,所以,所以,所以,所以,当时,(百公斤)【例3-8】在国家大力发展新能源汽车产业的政策下,我国新能源汽车的产销量高速增长.已知某地区2014年底到2021年底新能源汽车保有量的数据统计表如下:年份(年) 2014 2015 2016 2017 2018 2019 2020 2021年份代码x 1 2 3 4 5 6 7 8保有量y/千辆 1.95 2.92 4.38 6.58 9.87 15.00 22.50 33.70(1)根据统计表中的数据判断,与哪一个更适合作为关于的经验回归方程(给出判断即可,不必说明理由),并根据你的判断结果建立关于的经验回归方程;(2)假设每年新能源汽车保有量按(1)中求得的函数模型增长,且传统能源汽车保有量每年下降的百分比相同.若2021年底该地区传统能源汽车保有量为500千辆,预计到2026年底传统能源汽车保有量将下降10%.试估计到哪一年底新能源汽车保有量将超过传统能源汽车保有量.参考数据:,,,其中,,,.参考公式:对于一组数据(,),(,),…,(,),其经验回归直线的斜率和截距的最小二乘估计公式分别为;【解析】(1)根据该地区新能源汽车保有量的增长趋势知,应选择的函数模型是令,则,因为,,所以, .所以.(2)设传统能源汽车保有量每年下降的百分比为r,依题意得,,解得,设从2021年底起经过x年后的传统能源汽车保有量为y千辆,则有,设从2021年底起经过x年后新能源汽车的数量将超过传统能源汽车,则有.所以,解得故从2021年底起经过7年后,即2028年底新能源汽车的数量将超过传统能源汽车.【例3-9】经观测,长江中某鱼类的产卵数与温度有关,现将收集到的温度和产卵数的10组观测数据作了初步处理,得到如图的散点图及一些统计量表.360表中 (1)根据散点图判断,与哪一个适宜作为与之间的回归方程模型并求出关于回归方程;(给出判断即可,不必说明理由)(2)某兴趣小组抽取两批鱼卵,已知第一批中共有6个鱼卵,其中“死卵”有2个;第二批中共有8个鱼卵,其中“死卵”有3个.现随机挑选一批,然后从该批次中随机取出2个鱼卵,求取出“死卵”个数的分布列及数学期望.附:对于一组数据,其回归直线的斜率和截距的最小二乘估计分别为.【解析】(1)根据散点图判断,看出样本点分布在一条指数函数的周围,所以适宜作为与之间的回归方程模型;令,则,,关于的回归方程为.(2)由题意,设随机挑选一批,取出两个鱼卵,其中“死卵”个数为,则的取值为,设“所取两个鱼卵来自第批”,所以,设“所取两个鱼卵有个”“死卵”,由全概率公式,,,所以取出“死卵”个数的分布列为:0 1 2.所以取出“死卵”个数的数学期望.【例3-10】数据显示中国车载音乐已步入快速发展期,随着车载音乐的商业化模式进一步完善,市场将持续扩大,下表为2018-2022年中国车载音乐市场规模(单位:十亿元),其中年份2018—2022对应的代码分别为1-5.年份代码 1 2 3 4 5车载音乐市场规模 2.8 3.9 7.3 12.0 17.0(1)由上表数据知,可用指数函数模型拟合与的关系,请建立关于的回归方程;(2)根据上述数据求得关于的回归方程后,预测2024年的中国车载音乐市场规模.参考数据:1.94 33.82 1.7 1.6 26.84其中,.参考公式:对于一组数据,,,其回归直线的斜率和截距的最小二乘法估计公式分别为,.【解析】(1)因为,所以两边同时取自然对数,得,设,所以,设,,则,因为,,所以,,所以,,所以,,所以(2)把2024年代码代入方程,得(十亿元)故预测2024年的中国车载音乐市场规模45.628(十亿元)【例3-11】当前移动网络已融入社会生活的方方面面,深刻改变了人们的沟通 交流乃至整个生活方式.4G网络虽然解决了人与人随时随地通信的问题,但随着移动互联网快速发展,其已难以满足未来移动数据流量暴涨的需求,而5G作为一种新型移动通信网络,不但可以解决人与人的通信问题,而且还可以为用户提供增强现实 虚拟现实 超高清(3D)视频等更加身临其境的极致业务体验,更重要的是还可以解决人与物 物与物的通信问题,从而满足移动医疗 车联网 智能家居 工业控制 环境监测等物联网应用需求,为更好的满足消费者对5G网络的需求,中国电信在某地区推出了六款不同价位的流量套餐,每款套餐的月资费x(单位:元)与购买人数y(单位:万人)的数据如下表:套餐 A B C D E F月资费x(元) 38 48 58 68 78 88购买人数y(万人) 16.8 18.8 20.7 22.4 24.0 25.5对数据作初步的处理,相关统计量的值如下表:75.3 24.6 18.3 101.4其中,且绘图发现,散点集中在一条直线附近.(1)根据所给数据,求出关于的回归方程;(2)已知流量套餐受关注度通过指标来测定,当时相应的流量套餐受大众的欢迎程度更高,被指定为“主打套餐”.现有一家四口从这六款套餐中,购买不同的四款各自使用.记四人中使用“主打套督”的人数为,求随机变量的分布列和期望.附:对于一组数据,其回归方程的斜率和截距的最小二乘估计值分别为.【解析】(1)因为散点集中在一条直线附近,设回归方程为,由,则,,故变量关于的回归方程为.又,故,综上,关于的回归方程为;(2)由,解得,而,所以即为“主打套餐”.则四人中使用“主打套餐”的人数服从超几何分布,又:一共只有6种套餐,一家4口选择不同的套餐,所以X的取值只能是,且,分布列为2 3 4期望.【解题方法总结】换元法变成一元线性回归模型题型四、列联表与独立性检验【例4-1】四川省将从2022年秋季入学的高一年级学生开始实行高考综合改革,高考采用“3+1+2”模式,其中“1”为首选科目,即物理与历史二选一.某校为了解学生的首选意愿,对部分高一学生进行了抽样调查,制作出如下两个等高条形图,根据条形图信息,下列结论正确的是( )A.样本中选择物理意愿的男生人数少于选择历史意愿的女生人数B.样本中女生选择历史意愿的人数多于男生选择历史意愿的人数C.样本中选择物理学科的人数较多D.样本中男生人数少于女生人数【答案】C【解析】根据等高条形图图1可知样本中选择物理学科的人数较多,故C正确;根据等高条形图图2可知样本中男生人数多于女生人数,故D错误;样本中选择物理学科的人数多于选择历史意愿的人数,而选择物理意愿的男生比例高,选择历史意愿的女生比例低,所以样本中选择物理意愿的男生人数多于选择历史意愿的女生人数,故A错误;样本中女生选择历史意愿的人数不一定多于男生选择历史意愿的人数,故B错误.【例4-2】在新高考改革中,浙江省新高考实行的是7选3的模式,即语数外三门为必考科目,然后从物理、化学、生物、政治、历史、地理、技术(含信息技术和通用技术)7门课中选考3门.某校高二学生选课情况如下列联表一和列联表二(单位:人)选物理 不选物理 总计男生 340 110 450女生 140 210 350总计 480 320 800表一选生物 不选生物 总计男生 150 300 450女生 150 200 350总计 300 500 800表二试根据小概率值的独立性检验,分析物理和生物选课与性别是否有关( )附:A.选物理与性别有关,选生物与性别有关B.选物理与性别无关,选生物与性别有关C.选物理与性别有关,选生物与性别无关D.选物理与性别无关,选生物与性别无关【答案】C【解析】由题意,先分析物理课是否与性别有关:根据表格数据,结合题干表格数据,,因此,有充分证据推断选择物理学科与性别有关再分析生物课是否与性别有关:根据表格数据,结合题干表格数据,,因此,没有充分证据推断选择生物学科与性别有关【例4-3】通过随机询问相同数量的不同性别大学生在购买食物时是否看营养说明,得知有的男大学生“不看”,有的女大学生“不看”,若有99%的把握认为性别与是否看营养说明之间有关,则调查的总人数可能为( )A.150 B.170 C.240 D.175【答案】C【解析】设男女大学生各有m人,根据题意画出2×2列联表,如下图:看 不看 合计男 m女 m合计 2m所以,因为有99%的把握认为性别与对产品是否满意有关,所以,解得,所以总人数2m可能为240.【例4-4】针对时下的“短视频热”,某高校团委对学生性别和喜欢短视频是否有关联进行了一次调查,其中被调查的男生 女生人数均为人,男生中喜欢短视频的人数占男生人数的,女生中喜欢短视频的人数占女生人数的.零假设为:喜欢短视频和性别相互独立.若依据的独立性检验认为喜欢短视频和性别不独立,则的最小值为( )附:,附表:0.05 0.013.841 6.635A.7 B.8 C.9 D.10【答案】C【解析】根据题意,不妨设,于是,由于依据的独立性检验认为喜欢短视频和性别不独立,根据表格可知,解得,于是最小值为.【例4-5】在一次联考后,某校对甲、乙两个文科班的数学考试成绩进行分析,规定:大于或等于120分为优秀,120分以下为非优秀,统计成绩后,得到如下2×2列联表:优秀 非优秀 合计甲班人数 50乙班人数 20合计 30 110附:,其中.根据独立性检验,可以认为数学考试成绩与班级有关系的把握为( )A. B. C. D.【答案】D【解析】 优秀 非优秀 合计甲班人数 50乙班人数 20合计 30 110由题表中的数据可得: ,因为,所以可以认为数学考试成绩与班级有失系的把握为.【例4-6】2020年2月,全国掀起了“停课不停学”的热潮,各地教师通过网络直播 微课推送等多种方式来指导学生线上学习.为了调查学生对网络课程的热爱程度,研究人员随机调查了相同数量的男 女学生,发现有80%的男生喜欢网络课程,有40%的女生不喜欢网络课程,且有99%的把握但没有99.9%的把握认为是否喜欢网络课程与性别有关,则被调查的男 女学生总数量可能为( )附:,其中.0.1 0.05 0.01 0.0012.706 3.841 6.635 10.828A.130 B.190 C.240 D.250【答案】B【解析】依题意,设男、女学生的人数都为,则男、女学生的总人数为,建立列联表如下,喜欢网络课程 不喜欢网络课程 总计男生女生总计故,由题意可得,所以,结合选项可知,只有B符合题意.【例4-7】观察下列各图,其中两个分类变量x,y之间关系最强的是( )A. B.C. D.【答案】D【解析】观察等高条形图发现与相差很大,就判断两个分类变量之量关系最强.【例4-8】2022年卡塔尔世界杯决赛圈共有32支球队参加,欧洲球队有13支:其中有5支欧洲球队闯入8强.比赛进入淘汰赛阶段后,必须要分出胜负.淘汰赛规则如下:在比赛常规时间90分钟内分出胜负;比赛结束,若比分相同.则进入30分钟的加时赛.在加时赛分出胜负,比赛结束,若加时赛比分依然相同,就要通过点球大战来分出最后的胜负.点球大战分为2个阶段,第一阶段:共5轮,双方每轮各派1名球员,依次踢点球,以5轮的总进球数作为标准,5轮合计踢进点球数更多的球队获得比赛的胜利.如果第一阶段的5轮还是平局,则进入第二阶段:在该阶段双方每轮各派1名球员,依次踢点球,如果在一轮里,双方都进球或者双方都不进球,则继续下一轮,直到某一轮里,一方罚进点球,另一方没罚进,比赛结束,罚进点球的一方获得最终的胜利.(1)根据题意填写下面的列联表,并根据小概率值的独立性检验,判断32支决赛圈球队“闯入8强”与“是欧洲球队”是否有关.欧洲球队 其他球队 合计闯入强未闯入强合计(2)甲、乙两队在淘汰赛相遇,经过120分钟比赛未分出胜负,双方进入点球大战.已知甲队球员每轮踢进点球的概率为,乙队球员每轮踢进点球的概率为,每轮每队是否进球相互独立,在点球大战中,两队前3轮比分为,试求出甲队在第二阶段第一轮结束后获得最终胜利的概率.参考公式:.【解析】(1)下面为列联表:欧洲球队 其他球队 合计进入强未进入强合计零假设支决赛圈球队闯入8强与是否为欧洲球队无关,,根据小概率值的独立性检验,没有充分证据推断不成立,因此可以认为成立,即认为“闯入8强”与“是欧洲球队”无关.(2)记“双方进入第二阶段比赛”为事件,“第二阶段第一轮甲队进球乙队未进球”为事件,则“甲队在第二阶段第一轮结束后获得最终胜利”为事件,有,要进入第二阶段比赛,即第一阶段五轮为平局,比分可能为,则,,故.【例4-9】在“双减”政策背景之下,某校就推进学校、家庭、社会体育教育的“一体化”,实现“教会、勤练、常赛”的核心任务.学校组织人员对在校学生“是否喜爱运动”做了一次随机调查.共随机调查了18名男生和12名女生,调查发现,男、女生中分别有12人和6人喜爱运动,其余不喜爱.喜欢运动 不喜欢运动 总计男女总计(1)根据以上数据完成以下列联表:0.40 0.25 0.10 0.0100.708 1.323 2.706 6.635根据小概率值的独立性检验,能否据此推断性别与喜爱运动有关?(2)从被调查的女生中抽取3人,若其中喜爱运动的人数为,求的分布列及数学期望.附参考公式及参考数据:,其中.【解析】(1)由已知数据完成列联表如图,喜爱运动 不喜爱运动 总计男 12 6 18女 6 6 12总计 18 12 30假设是否喜爱运动与性别无关,由已知数据可求得:, 因此,没有充分的把握判断喜爱运动与性别有关.(2)喜爱运动的人数为的取值分别为:0,1,2,3, 则有:;;;. 所以喜爱运动的人数为的分布列为:0 1 2 3故数学期望.【例4-10】为了研究学生每天整理数学错题情况,某课题组在某市中学生中随机抽取了100名学生调查了他们期中考试的数学成绩和平时整理数学错题情况,并绘制了下列两个统计图表,图1为学生期中考试数学成绩的频率分布直方图,图2为学生一个星期内整理数学错题天数的扇形图.若本次数学成绩在110分及以上视为优秀,将一个星期有4天及以上整理数学错题视为“经常整理”,少于4天视为“不经常整理”.已知数学成绩优秀的学生中,经常整理错题的学生占.数学成绩优秀 数学成绩不优秀 合计经常整理不经常整理合计(1)求图1中的值以及学生期中考试数学成绩的上四分位数;(2)根据图1、图2中的数据,补全上方列联表,并根据小概率值的独立性检验,分析数学成绩优秀与经常整理数学错题是否有关 (3)用频率估计概率,在全市中学生中按“经常整理错题”与“不经常整理错题”进行分层抽样,随机抽取5名学生,再从这5名学生中随机抽取2人进行座谈.求这2名同学中经常整理错题且数学成绩优秀的人数X的分布列和数学期望.附:【解析】(1)由题意可得,解得,学生期中考试数学成绩的上四分位数为:分;(2)数学成绩优秀的有人,不优秀的人人,经常整理错题的有人,不经常整理错题的是人,经常整理错题且成绩优秀的有人,则数学成绩优秀 数学成绩不优秀 合计经常整理 35 25 60不经常整理 15 25 40合计 50 50 100零假设为:数学成绩优秀与经常整理数学错题无关,根据列联表中的数据,经计算得到可得,根据小概率值的独立性检验,我们推断不成立,即认为数学成绩优秀与经常整理数学错题有关联,此推断犯错误的概率不大于;(3)由分层抽样知,随机抽取的5名学生中经常整理错题的有3人,不经常整理错题的有2人,则可能取为0,1,2,经常整理错题的3名学生中,恰抽到k人记为事件,则参与座谈的2名学生中经常整理错题且数学成绩优秀的恰好抽到人记为事件则,,,,,,,,,故X的分布列如下:X 0 1 2P则可得X的数学期望为【例4-11】2022年11月20日,卡塔尔足球世界杯正式开幕,世界杯上的中国元素随处可见.从体育场建设到电力保障,从赛场内的裁判到赛场外的吉祥物都是中国制造,为卡塔尔世界杯提供了强有力的支持.国内也再次掀起足球热潮.某地足球协会组建球队参加业余比赛,该足球队教练组为了考查球员甲对球队的贡献,作出如下数据统计(甲参加过的比赛均分出了输赢):球队输球 球队赢球 总计甲参加 2 30 32甲未参加 8 10 18总计 10 40 50(1)根据小概率值的独立性检验,能否认为该球队赢球与甲球员参赛有关联;(2)从该球队中任选一人,A表示事件“选中的球员参赛”,B表示事件“球队输球”.与的比值是选中的球员参赛对球队贡献程度的一项度量指标,记该指标为R.①证明:;②利用球员甲数据统计,给出,的估计值,并求出R的估计值.附:.参考数据:a 0.05 0.01 0.005 0.0013.841 6.635 7.879 10.828【解析】(1)零假设为:该球队胜利与甲球员参赛无关.,因为,所以依据的独立性检验,我们推断不成立,所以认为该球队胜利与甲球员参赛有关,此推断犯错误的概率不大于0.005.(2)①证明:②,,.【解题方法总结】独立性检验的一般步骤(1)根据样本数据制成2×2列联表.(2)根据公式计算.(3)比较与临界值的大小关系,作统计推断.题型五、误差分析【例5-1】某新能源汽车生产公司,为了研究某生产环节中两个变量之间的相关关系,统计样本数据得到如下表格:由表格中的数据可以得到与的经验回归方程为,据此计算,下列选项中残差的绝对值最小的样本数据是( )A. B.C. D.【答案】C【解析】由表格数据知:,,,经验回归方程为;对于A,残差的绝对值为;对于B,残差的绝对值为;对于C,残差的绝对值为;对于D,残差的绝对值为;残差绝对值最小的样本数据是.【例5-2】新冠肺炎疫情发生以来,中医药全面参与疫情防控救治,做出了重要贡献.某中医药企业根据市场调研与模拟,得到研发投入(亿元)与产品收益(亿元)的数据统计如下表:研发投入(亿元) 1 2 3 4 5产品收益(亿元) 3 7 9 10 11用最小二乘法求得关于的经验回归直线方程是,相关系数(若,则线性相关程度一般,若,则线性相关程度较高),下列说法不正确的有( )A.变量与正相关且相关性较强B.C.当时,的估计值为40.3D.相应于点的残差为0.8【答案】D【解析】对于A,由相关系数可知变量与正相关且相关性较强,故A正确;对于B,由表中数据可得,所以,解得,故B正确;对于C,关于的线性回归方程为,将代入线性回归方程可得,,故C正确;对于D,相应于点的残差为,故错误.【例5-3】小王经营了一家小型餐馆,自去年疫情管控宣布结束后的第1天开始,经营状况逐步有了好转,该店第一周的营业收入数据(单位:百元)统计如下:天数序号x 1 2 3 4 5 6 7营业收入y 11 13 18 ※ 28 ※ 35其中第4天和第6天的数据由于某种原因造成模糊,但知道7天的营业收入平均值是23,已知营业收入y与天数序号x可以用经验回归直线方程拟合,且第7天的残差是,则的值是( )A.10.4 B.6.2 C.4.2 D.2【答案】A【解析】由残差得,即,所以①,又,,因为回归直线经过中心点,所以②,联立①②解得,, 所以.【例5-4】某种产品的广告支出费用x(单位:万元)与销售量y(单位:万件)之间的对应数据如表所示:广告支出费用x 2.2 2.6 4.0 5.3 5.9销售量y 3.8 5.4 7.0 11.6 12.2根据表中的数据可得回归直线方程2.27x,R2≈0.96,则①第三个样本点对应的残差1 ②在该回归模型对应的残差图中,残差点比较均匀地分布在倾斜的带状区域中③销售量的多少有96%是由广告支出费用引起的 上述结论判断中有一个是错误的,其序号为 _____________【答案】②【解析】由表可知,4,8.∴样本中心点为(4,8),将其代入线性回归方程2.27x,有8=2.27×4,解得1.08,故线性回归方程为2.27x﹣1.08.当x=4时,2.27×4﹣1.08=8,所以残差y7﹣8=﹣1,即选项正确;当x=2.2时,3.914,3.8﹣3.914=﹣0.114,当x=2.6时,4.822,5.4﹣4.822=0.578,当x=5.3时,10.951,11.6﹣10.951=0.649,当x=5.9时,12.313,12.2﹣12.313=﹣0.113.可知在该回归模型对应的残差图中,残差点比较均匀地落在水平的带状区域中,故错误;∵R2≈0.96,∴销售量的多少有96%是由广告支出费用引起的,故正确.【例5-5】已知建筑地基沉降预测对于保证施工安全,实现信息化监控有着重要意义.某工程师建立了四个函数模型来模拟建筑地基沉降随时间的变化趋势,并用相关指数、误差平方和、均方根值三个指标来衡量拟合效果.相关指数越接近1表明模型的拟合效果越好,误差平方和越小表明误差越小,均方根值越小越好.依此判断下面指标对应的模型拟合效果最好的是( ).A.相关指数 误差平方和 均方根值0.949 5.491 0.499B.相关指数 误差平方和 均方根值0.933 4.179 0.436C.相关指数 误差平方和 均方根值0.997 1.701 0.141D.相关指数 误差平方和 均方根值0.997 2.899 0.326【答案】C【解析】相关指数越接近于1,拟合效果越好,比较相关指数知,可选C,D,误差平方和及均方根值都越小,拟合效果越好,观察误差平方和和均方根值,知C的拟合效果最好.【例5-6】【阅读材料】2022年4月16日9时56分,神舟十三号载人飞船返回舱在东风着陆场成功着陆,航天员翟志刚、王亚平、叶光富身体状态良好,神舟十三号载人飞行任务取得圆满成功,标志着空间站关键技术验证阶段任务圆满完成,中国空间站即将进入建造阶段.某公司负责生产的A型材料是神舟十三号的重要零件,该材料应用前景十分广泛,该公司为了将A型材料更好地投入商用,拟对A型材料进行应用改造,根据市场调研与模拟,得到应用改造投入x(亿元)与产品的直接收益y(亿元)的数据统计如下:序号 1 2 3 4 5 6 7 8 9 10 11 12x 2 3 4 6 8 10 13 21 22 23 24 25y 15 22 27 40 48 54 60 68.5 68 67.5 66 65当时,建立了y与x的两个回归模型:模型①:;模型②:;当时,确定y与x满足的线性回归直线方程为.根据以上阅读材料,解答以下问题:(1)根据下列表格中的数据,比较当时模型①,②的相关指数的大小,并选择拟合效果更好的模型.回归模型 模型① 模型②回归方程79.13 20.2附:相关指数的计算公式为:,(2)当应用改造的投入为20亿元时,以回归直线方程为预测依据,计算公司的收益约为多少.附:①若最小二乘法求得回归直线方程为,则;②③当时,,.【解析】(1)对于模型①,因为,故对应的,故对应的相关指数,对于模型②,同理对应的相关指数,故模型②拟合效果更好.(2)当时,后五组的,由最小二乘法可得,所以当时,确定y与x满足的线性回归直线方程为故当投入20亿元时,预测公司的收益约为:(亿元).21世纪教育网 www.21cnjy.com 精品试卷·第 2 页 (共 2 页)HYPERLINK "http://21世纪教育网(www.21cnjy.com)" 21世纪教育网(www.21cnjy.com)中小学教育资源及组卷应用平台专题四十三 成对数据的统计分析知识归纳一、变量间的相关关系1、变量之间的相关关系当自变量取值一定时,因变量的取值带有一定的随机性,则这两个变量之间的关系叫相关关系.由于相关关系的不确定性,在寻找变量之间相关关系的过程中,统计发挥着非常重要的作用.我们可以通过收集大量的数据,在对数据进行统计分析的基础上,发现其中的规律,对它们的关系作出判断.注意:相关关系与函数关系是不同的,相关关系是一种非确定的关系,函数关系是一种确定的关系,而且函数关系是一种因果关系,但相关关系不一定是因果关系,也可能是伴随关系.2、散点图将样本中的个数据点描在平面直角坐标系中,所得图形叫做散点图.根据散点图中点的分布可以直观地判断两个变量之间的关系.(1)如果散点图中的点散布在从左下角到右上角的区域内,对于两个变量的这种相关关系,我们将它称为正相关,如图(1)所示;(2)如果散点图中的点散布在从左上角到右下角的区域内,对于两个变量的这种相关关系,我们将它称为负相关,如图(2)所示.3、相关系数若相应于变量的取值,变量的观测值为,则变量与的相关系数,通常用来衡量与之间的线性关系的强弱,的范围为.(1)当时,表示两个变量正相关;当时,表示两个变量负相关.(2)越接近,表示两个变量的线性相关性越强;越接近,表示两个变量间几乎不存在线性相关关系.当时,所有数据点都在一条直线上.(3)通常当时,认为两个变量具有很强的线性相关关系.二、线性回归1、线性回归线性回归是研究不具备确定的函数关系的两个变量之间的关系(相关关系)的方法.对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn ),其回归方程的求法为其中,,,(,)称为样本点的中心.2、残差分析对于预报变量,通过观测得到的数据称为观测值,通过回归方程得到的称为预测值,观测值减去预测值等于残差,称为相应于点的残差,即有.残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.(1)残差图通过残差分析,残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,其中这样的带状区域的宽度越窄,说明模型拟合精确度越高;反之,不合适.(2)通过残差平方和分析,如果残差平方和越小,则说明选用的模型的拟合效果越好;反之,不合适.(3)相关指数用相关指数来刻画回归的效果,其计算公式是:.越接近于,说明残差的平方和越小,也表示回归的效果越好.三、非线性回归解答非线性拟合问题,要先根据散点图选择合适的函数类型,设出回归方程,通过换元将陌生的非线性回归方程化归转化为我们熟悉的线性回归方程.求出样本数据换元后的值,然后根据线性回归方程的计算方法计算变换后的线性回归方程系数,还原后即可求出非线性回归方程,再利用回归方程进行预报预测,注意计算要细心,避免计算错误.1、建立非线性回归模型的基本步骤:(1)确定研究对象,明确哪个是解释变量,哪个是预报变量;(2)画出确定好的解释变量和预报变量的散点图,观察它们之间的关系(是否存在非线性关系);(3)由经验确定非线性回归方程的类型(如我们观察到数据呈非线性关系,一般选用反比例函数、二次函数、指数函数、对数函数、幂函数模型等);(4)通过换元,将非线性回归方程模型转化为线性回归方程模型;(5)按照公式计算线性回归方程中的参数(如最小二乘法),得到线性回归方程;(6)消去新元,得到非线性回归方程;(7)得出结果后分析残差图是否有异常.若存在异常,则检查数据是否有误,或模型是否合适等.四、独立性检验1、分类变量和列联表(1)分类变量:变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.(2)列联表:①定义:列出的两个分类变量的频数表称为列联表.②2×2列联表.一般地,假设有两个分类变量X和Y,它们的取值分别为{,}和{,},其样本频数列联表(称为2×2列联表)为总计总计从列表中,依据与的值可直观得出结论:两个变量是否有关系.2、等高条形图(1)等高条形图和表格相比,更能直观地反映出两个分类变量间是否相互影响,常用等高条形图表示列联表数据的频率特征.(2)观察等高条形图发现与相差很大,就判断两个分类变量之间有关系.3、独立性检验计算随机变量利用的取值推断分类变量X和Y是否独立的方法称为χ2独立性检验.0.10 0.05 0.010 0.005 0.0012.706 3.841 6.635 7.879 10.828解题方法总结常见的非线性回归模型(1)指数函数型(且,)两边取自然对数,,即,令,原方程变为,然后按线性回归模型求出,.(2)对数函数型令,原方程变为,然后按线性回归模型求出,.(3)幂函数型两边取常用对数,,即,令,原方程变为,然后按线性回归模型求出,.(4)二次函数型令,原方程变为,然后按线性回归模型求出,.(5)反比例函数型型令,原方程变为,然后按线性回归模型求出,.典例分析题型一、变量间的相关关系【例1-1】对两个变量,进行线性相关检验,得线性相关系数,对两个变量,进行线性相关检验,得线性相关系数,则下列判断正确的是( )A.变量与正相关,变量与负相关,变量与的线性相关性较强B.变量与负相关,变量与正相关,变量与的线性相关性较强C.变量与正相关,变量与负相关,变量与的线性相关性较强D.变量与负相关,变量与正相关,变量与的线性相关性较强【例1-2】在如图所示的散点图中,若去掉点,则下列说法正确的是( ) A.样本相关系数变大B.变量与变量的相关程度变弱C.变量与变量呈正相关D.变量与变量的相关程度变强【例1-3】已知建筑地基沉降预测对于保证施工安全,实现信息化监控有着重要意义.某工程师建立了四个函数模型来模拟建筑地基沉降随时间的变化趋势,并用相关指数、误差平方和、均方根值三个指标来衡量拟合效果.相关指数越接近1表明模型的拟合效果越好,误差平方和越小表明误差越小,均方根值越小越好.依此判断下面指标对应的模型拟合效果最好的是( )A.相关指数 误差平方和 均方根值0.949 8.491 0.499B.相关指数 误差平方和 均方根值0.933 4.179 0.436C.相关指数 误差平方和 均方根值0.997 1.701 0.141D.相关指数 误差平方和 均方根值0.997 2.899 0.326【例1-4】甲、乙、丙、丁四位同学各自对,A,B两变量的线性相关性做试验,并用回归分析方法分别求得相关系数r与残差平方和m如下表:甲 乙 丙 丁r 0.82 0.78 0.69 0.85m 106 115 124 103则能体现A,B两变量有更强的线性相关性的是( )A.甲 B.乙 C.丙 D.丁【例1-5】某统计部门对四组数据进行统计分析后,获得如图所示的散点图.下面关于相关系数的比较,正确的是( )A. B. C. D.【例1-6】观察下列四幅残差图,满足一元线性回归模型中对随机误差的假定的是( )A. B.C. D.【例1-7】给出下列有关线性回归分析的四个命题:①线性回归直线未必过样本数据点的中心;②回归直线就是散点图中经过样本数据点最多的那条直线;③当相关系数时,两个变量正相关;④如果两个变量的相关性越强,则相关系数就越接近于.其中真命题的个数为( )A. B. C. D.【解题方法总结】判定两个变量相关性的方法(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.(2)样本相关系数:当r>0时,正相关;当r<0时,负相关;|r|越接近于1,相关性越强.(3)经验回归方程:当时,正相关;当时,负相关.题型二、一元线性回归模型【例2-1】为研究某种细菌在特定环境下,随时间变化的繁殖情况,得到如下实验数据:天数天 繁殖个数千个 由最小二乘法得与的线性回归方程为,则当时,繁殖个数的预测值为( )A. B. C. D.【例2-2】已知x,y的对应值如下表所示:x 0 2 4 6 8y 1 11若y与x线性相关,且回归直线方程为,则( )A.2 B.3 C.4 D.5【例2-3】某单位在当地定点帮扶某村种植一种草莓,并把这种原本露天种植的草莓搬到了大棚里,获得了很好的经济效益.根据资料显示,产出的草莓的箱数x(单位:箱)与成本y(单位:千元)的关系如下:x 10 20 30 40 60 80y(1)根据散点图可以认为x与y之间存在线性相关关系,请用最小二乘法求出线性回归方程(,用分数表示)(2)某农户种植的草莓主要以300元/箱的价格给当地大型商超供货,多余的草莓全部以200元/箱的价格销售给当地小商贩.据统计,往年1月份当地大型商超草莓的需求量为50箱、100箱、150箱、200箱的概率分别为,,,,根据回归方程以及往年商超草莓的需求情况进行预测,求今年1月份农户草莓的种植量为200箱时所获得的利润情况.(最后结果精确到个位)附:,,在线性回归直线方程中,.【例2-4】已知某绿豆新品种发芽的适宜温度在之间,一农学实验室研究人员为研究温度x()与绿豆新品种发芽数y(颗)之间的关系,每组选取了成熟种子50颗,分别在对应的的温度环境下进行实验,得到如下散点图: 其中,,.(1)运用相关系数进行分析说明,是否可以用线性回归模型拟合与的关系?(2)求出关于的线性回归方程,并预测在的温度下,种子的发芽的颗数.参考公式:相关系数,回归直线方程,其中,.参考数据:.【例2-5】为调查某地区植被覆盖面积x(单位:公顷)和野生动物数量y的关系,某研究小组将该地区等面积花分为400个区块,从中随机抽取40个区块,得到样本数据(),部分数据如下:x … 2.7 3.6 3.2 3.9 …y … 50.6 63.7 52.1 54.3 …经计算得:,,,.(1)利用最小二乘估计建立y关于x的线性回归方程;(2)该小组又利用这组数据建立了x关于y的线性回归方程,并把这两条拟合直线画在同一坐标系下,横坐标x,纵坐标y的意义与植被覆盖面积x和野生动物数量y一致.设前者与后者的斜率分别为,,比较,的大小关系,并证明.附:y关于x的回归方程中,斜率和截距的最小二乘估计公式分别为: ,, 【解题方法总结】求经验回归方程的步骤题型三、非线性回归【例3-1】若需要刻画预报变量和解释变量的相关关系,且从已知数据中知道预报变量随着解释变量的增大而减小,并且随着解释变量的增大,预报变量大致趋于一个确定的值,为拟合和之间的关系,应使用以下回归方程中的(,为自然对数的底数)( )A. B. C. D.【例3-2】云计算是信息技术发展的集中体现,近年来,我国云计算市场规模持续增长.已知某科技公司2018年至2022年云计算市场规模数据,且市场规模y与年份代码x的关系可以用模型(其中e为自然对数的底数)拟合,设,得到数据统计表如下:年份 2018年 2019年 2020年 2021年 2022年年份代码x 1 2 3 4 5云计算市场规模y/千万元 7.4 11 20 36.6 66.72 2.4 3 3.6 4由上表可得经验回归方程,则2025年该科技公司云计算市场规模y的估计值为( )A. B. C. D.【例3-3】(多选题)在对具有相关关系的两个变量进行回归分析时,若两个变量不呈线性相关关系,可以建立含两个待定参数的非线性模型,并引入中间变量将其转化为线性关系,再利用最小二乘法进行线性回归分析.下列选项为四个同学根据自己所得数据的散点图建立的非线性模型,且散点图的样本点均位于第一象限,则其中可以根据上述方法进行回归分析的模型有( )A. B.C. D.【例3-4】某校课外学习小组研究某作物种子的发芽率和温度(单位:)的关系,由实验数据得到如图所示的散点图.由此散点图判断,最适宜作为发芽率和温度的回归方程类型的是( )A. B.C. D.【例3-5】如图是一组实验数据构成的散点图,以下函数中适合作为与的回归方程的类型是( )A. B. C. D.【例3-6】兰溪杨梅从5月15日起开始陆续上市,据调查统计,得到杨梅销售价格(单位:Q元/千克)与上市时间t(单位:天)的数据如下表所示:时间t/(单位:天) 10 20 70销售价格Q(单位:元/千克) 100 50 100根据上表数据,从下列函数模型中选取一个描述杨梅销售价格Q与上市时间t的变化关系:.利用你选取的函数模型,在以下四个日期中,杨梅销售价格最低的日期为( )A.6月5日 B.6月15日 C.6月25日 D.7月5日【例3-7】在正常生产条件下,根据经验,可以认为化肥的有效利用率近似服从正态分布,而化肥施肥量因农作物的种类不同每亩也存在差异.(1)假设生产条件正常,记表示化肥的有效利用率,求;(2)课题组为研究每亩化肥施用量与某农作物亩产量之间的关系,收集了10组数据,并对这些数据作了初步处理,得到了如图所示的散点图及一些统计量的值.其中每亩化肥施用量为(单位:公斤),粮食亩产量为(单位:百公斤) 参考数据:650 91.5 52.5 1478.6 30.5 15 15 46.5,,2,,.(i)根据散点图判断,与,哪一个适宜作为该农作物亩产量关于每亩化肥施用量的回归方程(给出判断即可,不必说明理由);(ii)根据(i)的判断结果及表中数据,建立关于的回归方程;并预测每亩化肥施用量为27公斤时,粮食亩产量的值.附:①对于一组数据,2,3,,,其回归直线的斜率和截距的最小二乘估计分别为,;②若随机变量,则,.【例3-8】在国家大力发展新能源汽车产业的政策下,我国新能源汽车的产销量高速增长.已知某地区2014年底到2021年底新能源汽车保有量的数据统计表如下:年份(年) 2014 2015 2016 2017 2018 2019 2020 2021年份代码x 1 2 3 4 5 6 7 8保有量y/千辆 1.95 2.92 4.38 6.58 9.87 15.00 22.50 33.70(1)根据统计表中的数据判断,与哪一个更适合作为关于的经验回归方程(给出判断即可,不必说明理由),并根据你的判断结果建立关于的经验回归方程;(2)假设每年新能源汽车保有量按(1)中求得的函数模型增长,且传统能源汽车保有量每年下降的百分比相同.若2021年底该地区传统能源汽车保有量为500千辆,预计到2026年底传统能源汽车保有量将下降10%.试估计到哪一年底新能源汽车保有量将超过传统能源汽车保有量.参考数据:,,,其中,,,.参考公式:对于一组数据(,),(,),…,(,),其经验回归直线的斜率和截距的最小二乘估计公式分别为;【例3-9】经观测,长江中某鱼类的产卵数与温度有关,现将收集到的温度和产卵数的10组观测数据作了初步处理,得到如图的散点图及一些统计量表.360表中 (1)根据散点图判断,与哪一个适宜作为与之间的回归方程模型并求出关于回归方程;(给出判断即可,不必说明理由)(2)某兴趣小组抽取两批鱼卵,已知第一批中共有6个鱼卵,其中“死卵”有2个;第二批中共有8个鱼卵,其中“死卵”有3个.现随机挑选一批,然后从该批次中随机取出2个鱼卵,求取出“死卵”个数的分布列及数学期望.附:对于一组数据,其回归直线的斜率和截距的最小二乘估计分别为.【例3-10】数据显示中国车载音乐已步入快速发展期,随着车载音乐的商业化模式进一步完善,市场将持续扩大,下表为2018-2022年中国车载音乐市场规模(单位:十亿元),其中年份2018—2022对应的代码分别为1-5.年份代码 1 2 3 4 5车载音乐市场规模 2.8 3.9 7.3 12.0 17.0(1)由上表数据知,可用指数函数模型拟合与的关系,请建立关于的回归方程;(2)根据上述数据求得关于的回归方程后,预测2024年的中国车载音乐市场规模.参考数据:1.94 33.82 1.7 1.6 26.84其中,.参考公式:对于一组数据,,,其回归直线的斜率和截距的最小二乘法估计公式分别为,.【例3-11】当前移动网络已融入社会生活的方方面面,深刻改变了人们的沟通 交流乃至整个生活方式.4G网络虽然解决了人与人随时随地通信的问题,但随着移动互联网快速发展,其已难以满足未来移动数据流量暴涨的需求,而5G作为一种新型移动通信网络,不但可以解决人与人的通信问题,而且还可以为用户提供增强现实 虚拟现实 超高清(3D)视频等更加身临其境的极致业务体验,更重要的是还可以解决人与物 物与物的通信问题,从而满足移动医疗 车联网 智能家居 工业控制 环境监测等物联网应用需求,为更好的满足消费者对5G网络的需求,中国电信在某地区推出了六款不同价位的流量套餐,每款套餐的月资费x(单位:元)与购买人数y(单位:万人)的数据如下表:套餐 A B C D E F月资费x(元) 38 48 58 68 78 88购买人数y(万人) 16.8 18.8 20.7 22.4 24.0 25.5对数据作初步的处理,相关统计量的值如下表:75.3 24.6 18.3 101.4其中,且绘图发现,散点集中在一条直线附近.(1)根据所给数据,求出关于的回归方程;(2)已知流量套餐受关注度通过指标来测定,当时相应的流量套餐受大众的欢迎程度更高,被指定为“主打套餐”.现有一家四口从这六款套餐中,购买不同的四款各自使用.记四人中使用“主打套督”的人数为,求随机变量的分布列和期望.附:对于一组数据,其回归方程的斜率和截距的最小二乘估计值分别为.【解题方法总结】换元法变成一元线性回归模型题型四、列联表与独立性检验【例4-1】四川省将从2022年秋季入学的高一年级学生开始实行高考综合改革,高考采用“3+1+2”模式,其中“1”为首选科目,即物理与历史二选一.某校为了解学生的首选意愿,对部分高一学生进行了抽样调查,制作出如下两个等高条形图,根据条形图信息,下列结论正确的是( )A.样本中选择物理意愿的男生人数少于选择历史意愿的女生人数B.样本中女生选择历史意愿的人数多于男生选择历史意愿的人数C.样本中选择物理学科的人数较多D.样本中男生人数少于女生人数【例4-2】在新高考改革中,浙江省新高考实行的是7选3的模式,即语数外三门为必考科目,然后从物理、化学、生物、政治、历史、地理、技术(含信息技术和通用技术)7门课中选考3门.某校高二学生选课情况如下列联表一和列联表二(单位:人)选物理 不选物理 总计男生 340 110 450女生 140 210 350总计 480 320 800表一选生物 不选生物 总计男生 150 300 450女生 150 200 350总计 300 500 800表二试根据小概率值的独立性检验,分析物理和生物选课与性别是否有关( )附:A.选物理与性别有关,选生物与性别有关B.选物理与性别无关,选生物与性别有关C.选物理与性别有关,选生物与性别无关D.选物理与性别无关,选生物与性别无关【例4-3】通过随机询问相同数量的不同性别大学生在购买食物时是否看营养说明,得知有的男大学生“不看”,有的女大学生“不看”,若有99%的把握认为性别与是否看营养说明之间有关,则调查的总人数可能为( )A.150 B.170 C.240 D.175【例4-4】针对时下的“短视频热”,某高校团委对学生性别和喜欢短视频是否有关联进行了一次调查,其中被调查的男生 女生人数均为人,男生中喜欢短视频的人数占男生人数的,女生中喜欢短视频的人数占女生人数的.零假设为:喜欢短视频和性别相互独立.若依据的独立性检验认为喜欢短视频和性别不独立,则的最小值为( )附:,附表:0.05 0.013.841 6.635A.7 B.8 C.9 D.10【例4-5】在一次联考后,某校对甲、乙两个文科班的数学考试成绩进行分析,规定:大于或等于120分为优秀,120分以下为非优秀,统计成绩后,得到如下2×2列联表:优秀 非优秀 合计甲班人数 50乙班人数 20合计 30 110附:,其中.根据独立性检验,可以认为数学考试成绩与班级有关系的把握为( )A. B. C. D.【例4-6】2020年2月,全国掀起了“停课不停学”的热潮,各地教师通过网络直播 微课推送等多种方式来指导学生线上学习.为了调查学生对网络课程的热爱程度,研究人员随机调查了相同数量的男 女学生,发现有80%的男生喜欢网络课程,有40%的女生不喜欢网络课程,且有99%的把握但没有99.9%的把握认为是否喜欢网络课程与性别有关,则被调查的男 女学生总数量可能为( )附:,其中.0.1 0.05 0.01 0.0012.706 3.841 6.635 10.828A.130 B.190 C.240 D.250【例4-7】观察下列各图,其中两个分类变量x,y之间关系最强的是( )A. B. C. D.【例4-8】2022年卡塔尔世界杯决赛圈共有32支球队参加,欧洲球队有13支:其中有5支欧洲球队闯入8强.比赛进入淘汰赛阶段后,必须要分出胜负.淘汰赛规则如下:在比赛常规时间90分钟内分出胜负;比赛结束,若比分相同.则进入30分钟的加时赛.在加时赛分出胜负,比赛结束,若加时赛比分依然相同,就要通过点球大战来分出最后的胜负.点球大战分为2个阶段,第一阶段:共5轮,双方每轮各派1名球员,依次踢点球,以5轮的总进球数作为标准,5轮合计踢进点球数更多的球队获得比赛的胜利.如果第一阶段的5轮还是平局,则进入第二阶段:在该阶段双方每轮各派1名球员,依次踢点球,如果在一轮里,双方都进球或者双方都不进球,则继续下一轮,直到某一轮里,一方罚进点球,另一方没罚进,比赛结束,罚进点球的一方获得最终的胜利.(1)根据题意填写下面的列联表,并根据小概率值的独立性检验,判断32支决赛圈球队“闯入8强”与“是欧洲球队”是否有关.欧洲球队 其他球队 合计闯入强未闯入强合计(2)甲、乙两队在淘汰赛相遇,经过120分钟比赛未分出胜负,双方进入点球大战.已知甲队球员每轮踢进点球的概率为,乙队球员每轮踢进点球的概率为,每轮每队是否进球相互独立,在点球大战中,两队前3轮比分为,试求出甲队在第二阶段第一轮结束后获得最终胜利的概率.参考公式:.【例4-9】在“双减”政策背景之下,某校就推进学校、家庭、社会体育教育的“一体化”,实现“教会、勤练、常赛”的核心任务.学校组织人员对在校学生“是否喜爱运动”做了一次随机调查.共随机调查了18名男生和12名女生,调查发现,男、女生中分别有12人和6人喜爱运动,其余不喜爱.喜欢运动 不喜欢运动 总计男女总计(1)根据以上数据完成以下列联表:0.40 0.25 0.10 0.0100.708 1.323 2.706 6.635根据小概率值的独立性检验,能否据此推断性别与喜爱运动有关?(2)从被调查的女生中抽取3人,若其中喜爱运动的人数为,求的分布列及数学期望.附参考公式及参考数据:,其中.【例4-10】为了研究学生每天整理数学错题情况,某课题组在某市中学生中随机抽取了100名学生调查了他们期中考试的数学成绩和平时整理数学错题情况,并绘制了下列两个统计图表,图1为学生期中考试数学成绩的频率分布直方图,图2为学生一个星期内整理数学错题天数的扇形图.若本次数学成绩在110分及以上视为优秀,将一个星期有4天及以上整理数学错题视为“经常整理”,少于4天视为“不经常整理”.已知数学成绩优秀的学生中,经常整理错题的学生占.数学成绩优秀 数学成绩不优秀 合计经常整理不经常整理合计(1)求图1中的值以及学生期中考试数学成绩的上四分位数;(2)根据图1、图2中的数据,补全上方列联表,并根据小概率值的独立性检验,分析数学成绩优秀与经常整理数学错题是否有关 (3)用频率估计概率,在全市中学生中按“经常整理错题”与“不经常整理错题”进行分层抽样,随机抽取5名学生,再从这5名学生中随机抽取2人进行座谈.求这2名同学中经常整理错题且数学成绩优秀的人数X的分布列和数学期望.附:【例4-11】2022年11月20日,卡塔尔足球世界杯正式开幕,世界杯上的中国元素随处可见.从体育场建设到电力保障,从赛场内的裁判到赛场外的吉祥物都是中国制造,为卡塔尔世界杯提供了强有力的支持.国内也再次掀起足球热潮.某地足球协会组建球队参加业余比赛,该足球队教练组为了考查球员甲对球队的贡献,作出如下数据统计(甲参加过的比赛均分出了输赢):球队输球 球队赢球 总计甲参加 2 30 32甲未参加 8 10 18总计 10 40 50(1)根据小概率值的独立性检验,能否认为该球队赢球与甲球员参赛有关联;(2)从该球队中任选一人,A表示事件“选中的球员参赛”,B表示事件“球队输球”.与的比值是选中的球员参赛对球队贡献程度的一项度量指标,记该指标为R.①证明:;②利用球员甲数据统计,给出,的估计值,并求出R的估计值.附:.参考数据:a 0.05 0.01 0.005 0.0013.841 6.635 7.879 10.828【解题方法总结】独立性检验的一般步骤(1)根据样本数据制成2×2列联表.(2)根据公式计算.(3)比较与临界值的大小关系,作统计推断.题型五、误差分析【例5-1】某新能源汽车生产公司,为了研究某生产环节中两个变量之间的相关关系,统计样本数据得到如下表格:由表格中的数据可以得到与的经验回归方程为,据此计算,下列选项中残差的绝对值最小的样本数据是( )A. B.C. D.【例5-2】新冠肺炎疫情发生以来,中医药全面参与疫情防控救治,做出了重要贡献.某中医药企业根据市场调研与模拟,得到研发投入(亿元)与产品收益(亿元)的数据统计如下表:研发投入(亿元) 1 2 3 4 5产品收益(亿元) 3 7 9 10 11用最小二乘法求得关于的经验回归直线方程是,相关系数(若,则线性相关程度一般,若,则线性相关程度较高),下列说法不正确的有( )A.变量与正相关且相关性较强B.C.当时,的估计值为40.3D.相应于点的残差为0.8【例5-3】小王经营了一家小型餐馆,自去年疫情管控宣布结束后的第1天开始,经营状况逐步有了好转,该店第一周的营业收入数据(单位:百元)统计如下:天数序号x 1 2 3 4 5 6 7营业收入y 11 13 18 ※ 28 ※ 35其中第4天和第6天的数据由于某种原因造成模糊,但知道7天的营业收入平均值是23,已知营业收入y与天数序号x可以用经验回归直线方程拟合,且第7天的残差是,则的值是( )A.10.4 B.6.2 C.4.2 D.2【例5-4】某种产品的广告支出费用x(单位:万元)与销售量y(单位:万件)之间的对应数据如表所示:广告支出费用x 2.2 2.6 4.0 5.3 5.9销售量y 3.8 5.4 7.0 11.6 12.2根据表中的数据可得回归直线方程2.27x,R2≈0.96,则①第三个样本点对应的残差1 ②在该回归模型对应的残差图中,残差点比较均匀地分布在倾斜的带状区域中③销售量的多少有96%是由广告支出费用引起的 上述结论判断中有一个是错误的,其序号为 _____________【例5-5】已知建筑地基沉降预测对于保证施工安全,实现信息化监控有着重要意义.某工程师建立了四个函数模型来模拟建筑地基沉降随时间的变化趋势,并用相关指数、误差平方和、均方根值三个指标来衡量拟合效果.相关指数越接近1表明模型的拟合效果越好,误差平方和越小表明误差越小,均方根值越小越好.依此判断下面指标对应的模型拟合效果最好的是( ).A.相关指数 误差平方和 均方根值0.949 5.491 0.499B.相关指数 误差平方和 均方根值0.933 4.179 0.436C.相关指数 误差平方和 均方根值0.997 1.701 0.141D.相关指数 误差平方和 均方根值0.997 2.899 0.326【例5-6】【阅读材料】2022年4月16日9时56分,神舟十三号载人飞船返回舱在东风着陆场成功着陆,航天员翟志刚、王亚平、叶光富身体状态良好,神舟十三号载人飞行任务取得圆满成功,标志着空间站关键技术验证阶段任务圆满完成,中国空间站即将进入建造阶段.某公司负责生产的A型材料是神舟十三号的重要零件,该材料应用前景十分广泛,该公司为了将A型材料更好地投入商用,拟对A型材料进行应用改造,根据市场调研与模拟,得到应用改造投入x(亿元)与产品的直接收益y(亿元)的数据统计如下:序号 1 2 3 4 5 6 7 8 9 10 11 12x 2 3 4 6 8 10 13 21 22 23 24 25y 15 22 27 40 48 54 60 68.5 68 67.5 66 65当时,建立了y与x的两个回归模型:模型①:;模型②:;当时,确定y与x满足的线性回归直线方程为.根据以上阅读材料,解答以下问题:(1)根据下列表格中的数据,比较当时模型①,②的相关指数的大小,并选择拟合效果更好的模型.回归模型 模型① 模型②回归方程79.13 20.2附:相关指数的计算公式为:,(2)当应用改造的投入为20亿元时,以回归直线方程为预测依据,计算公司的收益约为多少.附:①若最小二乘法求得回归直线方程为,则;②③当时,,.21世纪教育网 www.21cnjy.com 精品试卷·第 2 页 (共 2 页)HYPERLINK "http://21世纪教育网(www.21cnjy.com)" 21世纪教育网(www.21cnjy.com) 展开更多...... 收起↑ 资源列表 专题43 成对数据的统计分析(原卷版) .doc 专题43 成对数据的统计分析(解析版) .doc