资源简介 中小学教育资源及组卷应用平台第02讲 成对数据的统计分析目录0102体系构建·思维可视 303核心突破·靶向攻坚 3知能解码 3知识点1 变量间的相关关系 3知识点2 相关系数 4知识点3 线性回归 5知识点4 列联表与独立性检验 7题型破译 8题型1 变量间的相关关系 8【方法技巧】相关关系判断方法题型2 一元线性回归模型 11【方法技巧】一元线性回归模型步骤题型3 非线性回归模型 15【方法技巧】非线性回归模型步骤题型4 相关系数 21题型5 残差 27题型6 列联表与独立性检验 29【方法技巧】独立性检验步骤04真题溯源·考向感知 3705课本典例·高考素材 41考点要求 考察形式 2025年 2024年 2023年(1)变量的相关关系 (2)样本相关系数 (3)一元线性回归模型 (4)列联表与独立性检验 单选题 多选题 填空题 解答题 2025年上海卷第17题(3),5分 2025年天津卷第5题,5分 2025年全国一卷第15题(2),8分 2024年天津卷第3题,5分 2024年上海卷第19题(3),5分 2024年上海卷第13题,4分 2024年甲卷第17题,12分 2023年上海卷第14题,4分 2023年天津卷第7题,5分 2023年甲卷(文)第17题(2),8分 2023年甲卷(理)第19题(2),6分考情分析:从近三年的高考卷的考查情况来看,本节是高考的热点,主要以解答题形式出现,经常与概率综合出题,一般难度为中等.也可能以选择题、填空题形式出现,难度不大.主要以应用题的方式出现,多与经济、生活实际相联系,需要在复杂的题目描述中找出数量关系,建立数学模型,并且运用数学模型解决实际问题.复习目标: (1)了解样本相关系数的统计含义. (2)理解一元线性回归模型和2×2列联表,会运用这些方法解决简单的实际问题. (3)会利用统计软件进行数据分析.知识点1 变量间的相关关系(1)两个变量有关系,但又没有确切到可由其中一个去精确地决定另一个的程度,这种关系称为相关关系.(2)正相关、负相关从整体上看,当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势,我们就称这两个变量正相关;如果当一个变量的值增加时,另一个变量的相应值呈现减小的趋势,则称这两个变量负相关. (3)线性相关、非线性相关一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,我们就称这两个变量线性相关. 一般地,如果两个变量具有相关性,但不是线性相关,那么我们就称这两个变量非线性相关或曲线相关.自主检测在以下4幅散点图中,对于图中的y和x之间的关系判断不正确的是( )A.图(2)(3)(4)中的y和x之间存在相关关系B.图(2)(4)中的y和x之间呈现正相关关系C.图(2)(3)中的y和x之间呈现线性相关关系且(2)的相关性一定比(3)强D.图(4)中的y和x之间呈现非线性相关关系【答案】C【分析】根据散点图中点集的分布变化趋势判断正负相关性、是否为线性关系,但从点的分布密度无法判断(2)(3)的相关性强弱,即可得答案.【详解】由题图,(1)中点没有明显的变化趋势,(2)中点有从左下向右上的线性变化趋势,y和x之间呈现正相关且为线性关系,(3)中点有从左上向右下的线性变化趋势,y和x之间呈现负相关且为线性关系,(4)中点有从左下向右上的非线性变化趋势,y和x之间呈现正相关且为非线性关系,但(2)(3)相关性强弱不能从图中点的分布密度直接分析得出,故(2)的相关性不一定比(3)强,综上,A、B、D对,C错.故选:C知识点2 相关系数(1)相关系数的计算变量与变量的样本相关系数的计算公式如下:(2)相关系数的性质①当时,称成对样本数据正相关;当时,称成对样本数据负相关.当时,成对样本数据间没有线性相关关系.②样本相关系数的取值范围为,当越接近1时,成对样本数据的线性相关程度越强;当越接近0时,成对样本数据的线性相关程度越弱.自主检测已知样本相关系数,则成对样本数据,,,,的相关系数为 .【答案】/【分析】根据相关系数的计算公式分别计算数据即可.【详解】因为,,则,,所以.故答案为:.知识点3 线性回归(1)数学表述式:如果两个变量之间的关系可以表示为我们称该式为关于的一元线性回归模型.其中,称为因变量或响应变量,称为自变量或解释变量;和为模型的未知参数,称为截距参数,称为斜率参数;是与之间的随机误差.(2)经验回归方程我们将称为关于的经验回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线,其中(3)利用刻画回归效果的计算公式为,其意义是越大,残差平方和越小,即模型的拟合效果越好;越小,残差平方和越大,即模型的拟合效果越差.自主检测某种产品每吨成本6万元,其销售价格(万元/吨)和销售量(吨)的变化情况如下表:7 7.5 8 8.5 910 9 8.5 7.5 5(1)若与线性相关,求关于的经验回归方程;(2)根据(1)的结论,预测要使该产品销售利润最大,销售价格是多少?(结果精确到0.1)附:(参考公式,)【答案】(1)(2)预测销售价格是8.7万元/吨时,该产品销售利润最大【分析】(1)根据给定条件,利用最小二乘法公式求出经验回归方程.(2)由(1)的结论,求出销售利润函数式,再借助二次函数最值求解.【详解】(1)依题意,,...因此,.所以关于的经验回归方程为.(2)销售利润为.当时,取得最大值,所以预测销售价格是8.7万元/吨时,该产品销售利润最大.知识点4 列联表与独立性检验(1)2×2列联表如图,给出成对分类变量数据的交叉分类频数的数据统计表称为2×2列联表.合计合计(2)独立性检验依据上述列联表构造统计量利用的取值推断分类变量和是否独立的方法称为独立性检验,读作“卡方独立性检验”,简称独立性检验.常用的小概率值和临界值表0.1 0.05 0.01 0.005 0.0012.706 3.841 6.635 7.879 10.828自主检测某高校为了了解大学生对篮球运动的喜好是否与性别有关联,随机在该校调查了100名大学生,得到的数据如表所示:性别 篮球运动 合计喜欢 不喜欢男 40 10 50女 25 25 50合计 65 35 100(1)求该校喜欢篮球运动的大学生中性别为男的频率;(2)根据小概率值的独立性检验,能否认为该校大学生是否喜欢篮球运动与性别有关联?附:,.0.1 0.05 0.01 0.005 0.0012.706 3.841 6.635 7.879 10.828【答案】(1);(2)答案见解析.【分析】(1)由古典概型概率公式计算;(2)计算出,与临界值比较可得.【详解】(1)由题意所求概率为(2),根据小概率值的独立性检验,有的把握认为该校大学生是否喜欢篮球运动与性别有关联.题型1 变量间的相关关系例1-1下列四幅散点图中,所对应的成对样本数据呈现负相关的是( )A. B.C. D.【答案】D【分析】根据数据点的分布情况直观判断是否有线性相关关系及正负相关即可.【详解】A,B,C中各点有非线性拟合趋势,D中具有线性相关且为负相关.故选:D例1-2根据如下两组数据,下列说法正确的是( )5 6 7 8 9 10Y 5 4.8 3.5 4 3 22 4 6 7 93 4 9 7 11A.和呈正相关,和呈正相关B.和呈负相关,和呈负相关C.和呈正相关,和呈负相关D.和呈负相关,和呈正相关【答案】D【分析】由正、负相关的概念得解.【详解】由所给数据可知,当增大时减小,和呈负相关;当增大时和增大,和呈正相关.故选:D方法技巧 相关关系判断方法判定两个变量相关性的方法(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.(2)样本相关系数:当r>0时,正相关;当r<0时,负相关;|r|越接近于1,相关性越强.(3)经验回归方程:当时,正相关;当时,负相关.【变式训练1-1】通过计算样本相关系数可以反映两个随机变量之间的线性相关程度,以下四个选项中分别计算出四个样本的相关系数,则反映样本数据成正相关,并且线性相关程度最强的是( )A. B. C. D.【答案】A【分析】根据样本相关系数性质,可得结论.【详解】根据样本相关系数性质,当时,样本数据正相关,故排除D,当越接近1时,成对样本数据的线性相关程度越强,对比A、B、C选项,A最大.故选:A.【变式训练1-2】(多选)观察下列散点图,则( )A. B. C. D.【答案】BD【分析】根据散点图及相关系数的概念判断即可.【详解】散点图①,②中y与x呈负相关,,散点图②中y与x的线性相关性更强,即,因此;散点图③,④中y与x呈正相关,,散点图④中y与x的线性相关性更强,即,因此,所以.故选:BD【变式训练1-3】(多选)对两组数据进行统计后得到的散点图如图,关于其线性相关系数的结论正确的是( )A. B. C. D.【答案】AC【分析】根据y与x成正相关或负相关可判断相关系数的正负,根据点的密集程度可比较相关性的大小,从而比较相关系数绝对值的大小.【详解】由散点图可知,线性相关系数的图象表示y与x成负相关,故,故A正确;线性相关系数的图象表示y与x正相关,故,故B错误;∵线性相关系数的点较线性相关系数的点密集,故,故,故C正确,D错误.故选:AC.题型2 一元线性回归模型例2-1若关于某设备的使用年限(年)和所支出的维修费(万元)有如下统计资料:若由资料知,对呈线性相关关系.(参考数据:(1)请根据上表提供的数据,用最小二乘法求出关于的线性回归方程;(2)估计使用年限为年时,试求维修费用约是多少?(精确到两位小数)【答案】(1)(2)万元【分析】(1)根据所给的数据代入公式即可求得出线性回归方程;(2)把代入求解即可得到结果.【详解】(1)由题中所给数据可知,,所以线性回归方程为:.(2)当时,(万元),故使用年限为年时估计维修费用约是万元.例2-2某兴趣小组研究发现昼夜温差变化的大小与患感冒人数之间具有较强的线性相关关系,该兴趣小组在惠民医院抄录了2025年2~5月份每月5日的昼夜温差情况以及附近的居民因患感冒到惠民医院就诊的人数,得到如下数据:日期 2月5日 3月5日 4月5日 5月5日昼夜温差 11 13 12 8因患感冒就诊人数(人) 25 29 26 16(1)求因患感冒到惠民医院就诊的人数关于昼夜温差的线性回归方程;(2)如果8月5日昼夜温差是时,试预测因患感冒到惠民医院就诊的人数(精确到整数).附:线性回归直线中,;【答案】(1)(2)19.【分析】(1)利用公式求出,从而可求得回归方程;(2)将代入回归方程中求解估计即可.【详解】(1),,,所以,,所以所求线性回归方程为.(2)时,,因此如果8月5日昼夜温差是时,预测因患感冒到惠民医院就诊的人数大约为19.方法技巧 一元线性回归模型步骤【变式训练2-1】PM2.5是指空气中直径小于或等于2.5微米的颗粒物(也称可入肺颗粒物).为了探究车流量与PM2.5的浓度是否相关,现采集到某城市周一至周五某一时间段车流量与PM2.5的数据如下表:时间 周一 周二 周三 周四 周五车流量x(万辆) 50 51 54 57 58PM2.5的浓度y(微克/立方米) 69 70 74 78 79(1)根据上表数据,请在坐标系中画出散点图;(2)根据上表数据,用最小二乘法求出y关于x的线性回归方程;若周六同一时间段车流量是25万辆,预测此时PM2.5的浓度为多少(保留整数) 参考公式:,.【答案】(1)作图见解析(2)37【分析】(1)将表中数据描出即可(2)求出y关于x的线性回归方程,带入,求解即可.【详解】(1)散点图如图所示;(2)∵,,∴,,∴,∴,∴y关于x的线性回归方程是:;当时,,所以可以预测此时PM2.5的浓度约为37.【变式训练2-2】某商店为调查某种商品销售单价对销售量的影响,统计了5天的销售单价(元/千克)和销售量(千克)之间的一组数据如下表所示:第天 1 2 3 4 5销售单价 18 19 20 21 22销售量 22 18 16 14 10(1)试根据这5天的销售数据,建立关于的回归直线方程;(2)若该商品进货单价为15元/千克,试确定销售单价,使每天销售该商品的利润最大.(精确到0.1元/千克)参考公式:经验回归直线方程,其中.【答案】(1)(2)当销售单价为20.4元/千克时,销售该商品有最大利润【分析】(1)应用最小二乘法求回归直线方程;(2)由(1)所得回归直线求出利润的表达式,即可利用二次函数的性质求出最大利润时的销售单价.【详解】(1)由,代入公式,.则,故回归直线方程为.(2)由(1)知,利润,由二次函数的性质知,当时最大,所以当销售单价为20.4元/千克时,销售该商品有最大利润.【变式训练2-3】某饮品店统计了一天营业时间(单位:小时)与饮品销量(单位:杯)的数据如下表:营业时间 1 2 3 4 5饮品销量 17 36 56 77 99已知与线性相关.(1)根据以上数据求饮品销量关于营业时间的回归直线方程;(2)若平均一杯饮品的纯利润为5元,某日该饮品店计划早上9点开始营业,晚上9点结束营业,中间不休息,试预测当日饮品的总利润能否超过1000元?参考公式:回归直线方程中,.【答案】(1);(2)能.【分析】(1)根据已知数据及最小二乘法求回归方程即可;(2)将代入方程估计销量,进而确定利润,即可得结论.【详解】(1)由题设,,,,,所以,则,所以回归直线方程为;(2)由题意,当营业时间时,杯,所以利润为,故当日饮品的总利润能超过1000元.题型3 非线性回归模型例3-1为了适应市场需求,同时兼顾企业盈利的预期,某科技公司决定增加一定数量的研发人员,经过调研,得到年收益增量(单位:亿元)与研发人员增量(人)的10组数据.现用模型①,②分别进行拟合,由此得到相应的经验回归方程,并进行残差分析,得到如图所示的残差图.根据收集到的数据,计算得到下表数据,其中.7.5 2.25 82.50 4.50 12.14 2.88(1)根据残差图,判断应选择哪个模型;(无需说明理由)(2)根据(1)中所选模型,求出关于的经验回归方程;并用该模型预测,要使年收益增量超过8亿元,研发人员增量至少多少人?(精确到1)【答案】(1)选择模型②(2);10人【分析】(1)根据残差图即可求解;(2)根据最小二乘法求解线性回归方程,即可换元得非线性回归方程,代入即可求解预测值.【详解】(1)选择模型②,理由如下:由于模型②残差点比较均匀地落在水平的带状区域中,且带状区域的宽度比模型②带状宽度窄,所以模型②的拟合精度更高,回归方程的预报精度相应就会越高,所以选模型②比较合适;(2)根据模型②,令与可用线性回归来拟合,有,则,所以,则关于的经验回归方程为.所以关于的经验回归方程为,由题意,,解得,又为整数,所以,所以,要使年收益增量超过8亿元,研发人员增量至少为10人.例3-2某电视厂家准备在元旦举行促销活动,现根据近七年的广告费与销售量的数据确定此次广告费支出.广告费支出x(单位:万元)和销售量y(单位:万台)的数据如下:年份 2014 2015 2016 2017 2018 2019 2020广告费支出x 1 2 4 6 11 13 19销售量y 1.9 3.2 4.0 4.4 5.2 5.3 5.4(1)若用线性回归模型拟合y与x的关系,求出y关于x的线性回归方程;(2)若用模型拟合y与x的关系,可得回归方程,经计算线性回归模型和该模型的分别约为0.75和0.88,请用说明选择哪个回归模型更好.附:【答案】(1)(2)更好【分析】(1)根据线性回归方程相关基本量直接计算即可;(2)根据反映的残差平方和与拟合效果关系进行判断.【详解】(1)由题意得,,,,,所以,所以,所以y关于x的线性回归方程为(2)因为,且越大,反映残差平方和越小,模型的拟合效果越好,所以选用更好.方法技巧 非线性回归模型步骤1、建立非线性回归模型的基本步骤:(1)确定研究对象,明确哪个是解释变量,哪个是预报变量;(2)画出确定好的解释变量和预报变量的散点图,观察它们之间的关系(是否存在非线性关系);(3)由经验确定非线性回归方程的类型(如我们观察到数据呈非线性关系,一般选用反比例函数、二次函数、指数函数、对数函数、幂函数模型等);(4)通过换元,将非线性回归方程模型转化为线性回归方程模型;(5)按照公式计算线性回归方程中的参数(如最小二乘法),得到线性回归方程;(6)消去新元,得到非线性回归方程;(7)得出结果后分析残差图是否有异常.若存在异常,则检查数据是否有误,或模型是否合适等.【变式训练3-1】秋天的第一杯奶茶是一个网络词汇,最早出自四川达州一位当地民警之口,民警用“秋天的第一杯奶茶”顺利救下一名女孩,由此而火爆全网.后来很多人开始在秋天里买一杯奶茶送给自己在意的人.某奶茶店主记录了入秋后前7天每天售出的奶茶数量(单位:杯)如下:日期 第一天 第二天 第三天 第四天 第五天 第六天 第七天日期代码 1 2 3 4 5 6 7杯数 4 15 22 26 29 31 32(1)请根据以上数据,绘制散点图,并根据散点图判断,与哪一个更适宜作为y关于x的回归方程模型(给出判断即可,不必说明理由);(2)建立y关于x的回归方程(结果保留1位小数),并根据建立的回归方程,试预测要到哪一天售出的奶茶才能超过35杯?参考公式和数据:其中回归直线方程中,22.7 1.2 759 235.1 13.2 8.2【答案】(1)图见解析,更适宜作为关于的回归方程模型;(2),到第9天才能超过35杯;(3)分布列见解析.【分析】(1)根据散点图趋势即可判断;(2)利用非线性回归方程转化为线性回归方程的方法求解;(3)根据超几何分布求分布列.【详解】(1)根据散点图,知更适宜作为关于的回归方程模型;(2)令,则,由已知数据得,,所以,故关于的回归方程为,进而由题意知,令,整理得,即,故当时,即到第9天才能超过35杯;【变式训练3-2】某电商平台统计了近七年小家电的年度广告费支出(万元)与年度销售量(万台)的数据,如表所示:年份 2016 2017 2018 2019 2020 2021 2022广告费支出 1 2 4 6 11 13 19销售量 1.9 3.2 4.0 4.4 5.2 5.3 5.4其中,(1)若用线性回归模型拟合与的关系,求出关于的线性回归方程;(2)若用模型拟合得到的回归方程为,经计算线性回归模型及该模型的分别为0.75和0.88,请根据的数值选择更好的回归模型拟合与的关系,进而计算出年度广告费为何值时,利润的预报值最大?参考公式:,;【答案】(1)(2)选用回归方程更好,时,利润的预报值最大【分析】(1)根据数据,利用公式即可求出线性回归方程;(2)越大拟合效果越好,选用回归方程更好,从而计算出结果.【详解】(1)由题意可得:所以,,关于的线性回归方程:.(2)因为,越大拟合效果越好,选用回归方程更好,,即当时,时,利润的预报值.【变式训练3-3】某公司为了解年营销费用x(单位:万元)对年销售量y(单位:万件)的影响,统计了近5年的年营销费用和年销售量,得到的散点图如图所示,对数据进行初步处理后,得到一些统计量的值如下表所示.表中,,,.已知可以作为年销售量y关于年营销费用x的回归方程.(1)求y关于x的回归方程;(2)若公司每件产品的销售利润为4元,固定成本为每年120万元,用所求的回归方程估计该公司每年投入多少营销费用,才能使得该产品一年的收益达到最大?(收益销售利润营销费用固定成本)参考数据:,.参考公式:对于一组数据,其回归直线的斜率和截距的最小二乘估计分别为,.【答案】(1)(2)该公司每年投入351万元营销费用时,该产品一年的收益达到最大【分析】(1)根据题目要求可知,y关于x的回归方程为非线性的,设,可得,代入已知条件所给的数据,计算即可.(2)列出年收益与营销费用的关系式,通过求导来求得最值.【详解】(1)由得,,令,,,则.由表中数据可得,,则,所以.即,因为,所以,故所求的回归方程为.(2)设年收益为W万元,则,对求导,得,令,解得,当时,,单调递增,当时,,单调递减,因此,当时W有最大值,即该公司每年投入351万元营销费用时,该产品一年的收益达到最大.题型4 相关系数例4-1一般来说,市场上产品的广告费用与产品的销量存在一定的关系.已知某产品1月~4月的月广告费用(万元)与月销量(万件)的统计数据如下:月份 1月 2月 3月 4月月广告费用(万元) 3 4 5 6月销量(万件) 5 6 8 9已知与线性相关.(1)求关于的经验回归方程;(2)求与的相关系数(精确到0.01).参考公式:回归直线方程为,其中,.相关系数.【答案】(1)(2)【分析】(1)根据线性相关系数公式求解相关系数,再利用最小二乘估计求解回归方程即可;(2)结合(1)及相关系数的公式求解即可.【详解】(1)依题意有,,列表可得:可得,,可得,,故y关于x的经验回归方程为.(2)由,所以y与x的相关系数为.例4-2某课外实验小组通过实验统计了某种子的发芽率与土壤的湿度的相关数据如下表:x 40 45 50 55 60y 50 56 64 72 83(1)求y关于x的相关系数r(精确到0.001),并判断它们是否具有较强的线性相关关系?(如果,则认为y与x的线性相关性很强)(2)求y关于x的经验回归方程,并预测当土壤的湿度为时,种子的发芽率的值.参考公式及数据:对于一组数据,,…,,经验回归方程的斜率和截距的最小二乘估计公式分别为,,相关系数,,,,.【答案】(1),与具有较强的线性相关关系(2)关于的回归直线方程为,种子的发芽率的预测值为【分析】(1)由题意,计算,由相关系数得公式运算判断即可;(2)根据题意,求出,得到回归直线方程,代入值可求得预测值.【详解】(1)由题,所以关于的相关系数,所以与具有较强的线性相关关系.(2),则,所以关于的回归直线方程为,当时,,所以当土壤的湿度为时,种子的发芽率的预测值为.【变式训练4-1】新能源汽车发展非常迅速,某地区2017年至2024年(年份代码分别记为:1,2,3,4,5,6,7,8)某品牌新能源汽车的科研经费投入和销售量统计如下:年份代码i 1 2 3 4 5 6 7 8科研经费(单位:百亿元) 2 3 6 10 13 15 18 21销售量(单位:百万辆) 1 1 2 2.5 3.5 3.5 4.5 6参考数据:,,,.参考公式:相关系数.,(1)根据样本数据,计算科研经费x与销售量y之间的样本相关系数,并推断它们的线性相关程度(结果精确到0.01);(2)根据样本数据,求销售量y关于科研经费x的线性回归方程(,用分数表达).【答案】(1)0.98,两个变量线性相关且线性相关程度很强;(2)【分析】(1)计算出,并对相关系数的公式变形,代入求值,得到,得到结论;(2)代入公式计算出,,得到线性回归方程.【详解】(1),,其中,将,,代入可得:.,将,代入可得:,,将,代入可得:.故,由于接近,所以两个变量线性相关且线性相关程度很强;(2),由,代入可得:,所以关于的回归直线方程为【变式训练4-2】浙江省教育厅等五部门印发《浙江省山区26县和海岛县“县中崛起”行动计划》,从招生管理、县中对口帮扶、教科研指导等九方面提升共同富裕背景下教育公共服务的质量和水平.某校为增强实力,大力招揽名师、建设校园设施,近5年该校招生人数的数据如下表:年份序号 1 2 3 4 5招生人数/千人 1.3 1.7 2.2 2.8 3.5(1)由表中数据可看出,可用线性回归模型拟合与的关系,请用相关系数加以证明;(2)求关于的回归直线方程,并预测当年份序号为7时该校的招生人数.参考数据:.参考公式:相关系数,【答案】(1)证明见解析(2),4.5千人.【分析】(1)求出,结合公式求出r,即可下结论;(2)利用最小二乘法求出回归直线方程,令计算,即可求解.【详解】(1)由,,,所以,因为与1非常接近,故可用线性回归模型拟合与的关系.(2),所以关于的回归直线方程为.当时,,由此预测当年份序号为7时该校的招生人数为4.5千人.【变式训练4-3】某地区因其独特的地理位置和生态环境,对气候变化较为敏感.地理研究小组为了研究该地区生态情况,对该地区年平均气温x(单位:℃)与年降水量y(单位:mm)之间的关系进行了探究.小组收集了过去10年该地区的相关数据,如下表所示:平均气温 12.1 12.5 11.3 12.4 13.1 11.5 11.0 11.3 12.6 12.2年降水量 850 880 820 860 895 840 800 830 865 860附:,,,,相关系数经验回归方程:,其中.(1)求样本的相关系数(精确到0.01);(2)建立y关于x的经验回归方程(a,b的计算结果均精确到1),预测年平均气温为13.5℃时的年降水量.【答案】(1)(2),【分析】(1)根据相关系数公式,代入参考数据,即可求解;(2)根据参考数据,求,再代入求,最后根据回归方程求预测值.【详解】(1)样本的相关系数为,其中,.(2)易得,,,,关于的经验回归方程为,将13.5摄氏度代入方程,得故预测年平均气温为13.5℃时的年降水量为.题型5 残差例5-1我区物价部门对某商品在各商场的售价(元)及其一天的销售量(件)进行调查,得到了若干对数据,经过分析,计算,得到关于的经验回归方程为,则样本点的残差为 .【答案】【分析】根据题意,令时,求得,结合残差的概念,即可求得样本点的残差,得到答案.【详解】由关于的回归方程为,且样本点,当时,可得,所以残差为.故答案为:.例5-2色差和色度是衡量毛绒玩具质量优劣的重要指标,现抽检一批产品测得的数据列于表中.已知该产品的色度y和色差x之间满足线性相关关系,且,现有一对测量数据为,若该数据的残差为0.6,则 .色差x 21 23 25 27色度y 15 18 19 20【答案】21.6【分析】先根据题目数据求出样本中心点,代入回归直线方程得,然后求出的预报值,根据残差列式求解即可.【详解】由题意可知,,,将代入,即,解得,所以,当时,,则.故答案为:21.6.【变式训练5-1】已知变量和的经验回归直线方程为,则时的观测值为6.5,此时残差为 (注:观测值减去预测值称为残差).【答案】【分析】求出预测值,再利用残差的定义求出残差.【详解】当时,,所以时的残差为.故答案为:【变式训练5-2】某无人机的研发费用x(单位:万元)与销售量y(单位:万件)之间的对应数据如表所示:研发费用x 3.4 4.7 5 5.6 6.3销售量y 15 16.9 19.2 18 20.9根据表中数据可得经验回归方程为,则第三个样本点对应的残差为 .【答案】1.2【分析】由表格中的数据,根据平均数求得样本中心,代入回归方程可得参数的值,代入第三个样本点的值,集合残差的定义,可得答案.【详解】由已知,得,,所以,于是,当时,,因此,第三个样本点对应的残差为.故答案为:.【变式训练5-3】由样本数据,求得回归直线方程为,且,若去除偏离点(4,10)后,得到新的回归直线方程为,则去除偏离点后,相应于样本点的残差值为 .【答案】【分析】首先求剩余数据的中心点,再代入回归直线方程求,再代入求,即可求残差值.【详解】由于回归直线过样本中心点,当时,,去除偏离点后,剩余数据的中心点为,则,,将点的坐标代入回归直线方程,可得,解得,所以,新的回归直线方程为,当时,,所以,去除偏离点后,相应于样本点的残差值为.故答案为:.题型6 列联表与独立性检验例6-1在某次考试中,某学校要对某年级的学习总评成绩(满分100分)和体育成绩(满分100分)进行统计分析,为研究方便,现抽取出了其中各100名学生的成绩(分为优秀和一般)进行统计.优秀 一般 合计学习总评成绩体育成绩合计(1)若统计的数据中学习总评成绩在前十名的成绩分别为99,98,98,97,96,96,96,94,94,93,求这十个成绩的平均数和第70百分位数;(2)统计可得,学习总评成绩优秀60人,体育成绩一般30人,填写如下列联表,依据的独立性检验,能否认为学习总评成绩优秀与体育成绩优秀有关?参考公式:,.0.05 0.01 0.0013.841 6.635 10.828【答案】(1)平均数为96.1,第70百分位数为97.5(2)表格见解析,认为学习总评成绩优秀与体育成绩优秀无关.【分析】(1)把成绩按照小到大排列,可算出第70百分位数和平均数;(2)梳理成表格,找到的对应值,带入公式,找到对应判定区间,得到答案【详解】(1)把学习总评成绩在前十名的成绩从小到大排列为93,94,94,96,96,96,97,98,98,99,所以平均数为,因为%=7,所以第70百分位数为.(2)根据题意,填表可得,优秀 一般 合计学习总评成绩 60 40 100体育成绩 70 30 100合计 130 70 200零假设为:学习总评成绩优秀与体育成绩优秀无关,由表中数据可知,,依据小概率值的独立性检验,没有充分证据推断不成立,因此可以认为成立,即认为学习总评成绩优秀与体育成绩优秀无关.例6-2某工厂进行生产线智能化升级改造,对甲、乙两个车间升级改造后.(1)从该工厂甲、乙两个车间的产品中各随机抽取50件进行检验,其中甲车间优等品占,乙车间优等品占,请填写下面的列联表,并依据小概率值的独立性检验,分析车间是否与优等品有关联?(结果精确到0.001)优等品 非优等品 总计甲车间乙车间总计(附,其中,)(2)调查了工厂近10个月的产量(单位:万个)和月销售额(单位:万元),得到以下数据:,,,.并根据散点图认为关于的经验回归方程为,其中,.①求证:.②求关于的经验回归方程.【答案】(1)列联表见解析,能(2)①证明见解析;②【分析】(1)根据的计算公式即可求解;(2)①展开后逐步化简可以得到;②,带入求解得,再得,得到答案.【详解】(1)优等品 非优等品 总计甲车间 40 10 50乙车间 30 20 50总计 70 30 100设:车间与优等品无关.,根据小概率值的独立性检验,能在犯错误的概率不超过0.05的情况下,认为车间与优等品有关联.(2)①;②,,,,则由①知:,,经验回归方程.方法技巧 独立性检验步骤独立性检验的一般步骤(1)根据样本数据制成2×2列联表.(2)根据公式计算.(3)比较与临界值的大小关系,作统计推断.【变式训练6-1】2025年春节档一部国产动画电影《哪吒之魔童闹海》横空出世,迅速斩获各项票房冠军,截至3月20日,该电影已进入全球票房榜前五.经权威电影机构调查,得到其前5周的票房数据如下表:周次 第1周 第2周 第3周 第4周 第5周周次代码 l 2 3 4 5票房总额/亿元 40 35 25 37 7(1)求关于的线性回归方程;(2)该电影机构为了解民众观影的喜欢程度,随机采访了90名观影人员,得到下表:是否成年 是否喜欢 合计不喜欢 喜欢未成年人 40 50成年人 10 40合计 90依据小概率值的独立性检验,能否认为喜欢电影《哪吒之魔童闹海》和是否成年有关?附:①,,在利用最小二乘法求得的线性回归方程中,,;②,其中.α 0.1 0.05 0.012.706 3.841 6.635【答案】(1)(2)表格见解析,不能【分析】(1)由前5周的票房数据,分别求得,利用回归系数的公式和样本点的坐标,求得,即可得到所求的线性回归方程;(2)根据题意,得出列联表,利用公式求得,结合附表,即可得到结论.【详解】(1)由前5周的票房,可得,,又,,所以,则,故所求的线性回归方程为.(2)由题意,未成年人总数为50,喜欢的有40人,则不喜欢的有10人;成年人总数为40,不喜欢的有10人,则喜欢的有30人,可得列联表如下:是否成年 是否喜欢 合计不喜欢 喜欢未成年人 10 40 50成年人 10 30 40合计 20 70 90所以故依据小概率值的独立性检验,不能认为喜欢电影《哪吒之魔童闹海》和是否成年有关.【变式训练6-2】为调查某市高中生选科时选择物理方向和历史方向的情况,用简单随机抽样方法从该市调查了500位学生,结果如下:男 女物理方向 270 160历史方向 30 40(1)估计该市高中生中,选历史方向的学生的比例;(2)能否有的把握认为该市的高中生选科情况与性别有关?(3)根据现有资料,为了提高样本的代表性以获得该市高中生选择物理方向和历史方向的学生比例更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由.附:0.05 0.01 0.0013.841 6.635 10.828【答案】(1)选历史方向的学生的比例(2)有99%的把握认为该市的高中生选科情况与性别有关(3)分层抽样更好,理由见解析【分析】(1)根据500名高中生中愿意选历史方向的学生的人数计算可得答案;(2)计算出卡方,与比较后可得到结论;(3)按照男、女人数比,采用分层抽样的方法比采用简单随机抽样方法更好.【详解】(1)调查了500名高中生中,愿意选历史方向的学生的人数为,则估计该市高中生中,选历史方向的学生的比例;(2)零假设:该市高中生选科情况与性别无关;,故有99%的把握认为该市的高中生选科情况与性别有关;(3)因为选历史方向与性别有关,故采用分层抽样能使样本有代表性,所以调查时,先确定该市高中生中男、女生的比例,再把高中生分成男、女两层并采用分层抽样的方法比采用简单随机抽样方法更好.【变式训练6-3】为了了解高中学生课后自主学习数学时间(x分钟/每天)和他们的数学成绩(y分)的关系,某实验小组做了调查,得到一些数据如下表:编号 1 2 3 4 5x 10 20 30 40 50y 70 80 100 120 130(1)若该组数据中y与x之间的关系可用线性回归模型进行拟合,求y关于x的回归直线方程.(参考数据:)(2)基于上述调查,某校提倡学生课后自主学习.经过一学期的实施后,抽样调查了160位学生.按照参与课后自主学习与成绩进步情况得到如下2×2列联表:成绩没有进步 成绩有进步 合计参与课后自主学习 5 135 140未参与课后自主学习 5 15 20合计 10 150 160依据的独立性检验,分析“课后自主学习与成绩进步”是否有关.附:回归方程中斜率和截距的最小二乘估计公式分别为:,,其中.0.1 0.05 0.01 0.005 0.0012.706 3.841 6.635 7.879 10.828【答案】(1)(2)在犯错概率不超过的前提下,认为“课后自主学习与成绩进步”有关.【分析】(1)先计算,进而得即可求解;(2)计算卡方,利用独立性检验思想即可求解.【详解】(1)由题意有,,,所以,,所以;(2)由题意有,所以在犯错概率不超过的前提下,认为“课后自主学习与成绩进步”有关.1.(2025·天津·高考真题)下列说法中错误的是( )A.若,则B.若,,则C.越接近1,相关性越强D.越接近0,相关性越弱【答案】B【分析】根据正态分布以及相关系数的概念直接判断即可.【详解】对于A,根据正态分布对称性可知,,A说法正确;对于B,根据正态分布对称性可知,,B说法错误;对于C和D,相关系数越接近0,相关性越弱,越接近1,相关性越强,故C和D说法正确.故选:B2.(2024·天津·高考真题)下列图中,线性相关性系数最大的是( )A. B.C. D.【答案】A【分析】由点的分布特征可直接判断【详解】观察4幅图可知,A图散点分布比较集中,且大体接近某一条直线,线性回归模型拟合效果比较好,呈现明显的正相关,值相比于其他3图更接近1.故选:A3.(2025·全国一卷·高考真题)为研究某疾病与超声波检查结果的关系,从做过超声波检查的人群中随机调查了1000人,得到如下列联表:超声波检查结果组别 正常 不正常 合计患该疾病 20 180 200未患该疾病 780 20 800合计 800 200 1000(1)记超声波检查结果不正常者患该疾病的概率为P,求P的估计值;(2)根据小概率值的独立性检验,分析超声波检查结果是否与患该疾病有关.附,0.050 0.010 0.0013.841 6.635 10.828【答案】(1)(2)有关【分析】(1)根据古典概型的概率公式即可求出;(2)根据独立性检验的基本思想,求出,然后与小概率值对应的临界值比较,即可判断.【详解】(1)根据表格可知,检查结果不正常的人中有人患病,所以的估计值为;(2)零假设为:超声波检查结果与患病无关,根据表中数据可得,,根据小概率值的独立性检验,我们推断不成立,即认为超声波检查结果与患该病有关,该推断犯错误的概率不超过.4.(2024·全国甲卷·高考真题)某工厂进行生产线智能化升级改造,升级改造后,从该工厂甲、乙两个车间的产品中随机抽取150件进行检验,数据如下:优级品 合格品 不合格品 总计甲车间 26 24 0 50乙车间 70 28 2 100总计 96 52 2 150(1)填写如下列联表:优级品 非优级品甲车间乙车间能否有的把握认为甲、乙两车间产品的优级品率存在差异?能否有的把握认为甲,乙两车间产品的优级品率存在差异?(2)已知升级改造前该工厂产品的优级品率,设为升级改造后抽取的n件产品的优级品率.如果,则认为该工厂产品的优级品率提高了,根据抽取的150件产品的数据,能否认为生产线智能化升级改造后,该工厂产品的优级品率提高了?()附:0.050 0.010 0.001k 3.841 6.635 10.828【答案】(1)答案见详解(2)答案见详解【分析】(1)根据题中数据完善列联表,计算,并与临界值对比分析;(2)用频率估计概率可得,根据题意计算,结合题意分析判断.【详解】(1)根据题意可得列联表:优级品 非优级品甲车间 26 24乙车间 70 30可得,因为,所以有的把握认为甲、乙两车间产品的优级品率存在差异,没有的把握认为甲,乙两车间产品的优级品率存在差异.(2)由题意可知:生产线智能化升级改造后,该工厂产品的优级品的频率为,用频率估计概率可得,又因为升级改造前该工厂产品的优级品率,则,可知,所以可以认为生产线智能化升级改造后,该工厂产品的优级品率提高了.5.(2023·全国甲卷·高考真题)一项试验旨在研究臭氧效应,试验方案如下:选40只小白鼠,随机地将其中20只分配到试验组,另外20只分配到对照组,试验组的小白鼠饲养在高浓度臭氧环境,对照组的小白鼠饲养在正常环境,一段时间后统计每只小白鼠体重的增加量(单位:g).试验结果如下:对照组的小白鼠体重的增加量从小到大排序为15.2 18.8 20.2 21.3 22.5 23.2 25.8 26.5 27.5 30.132.6 34.3 34.8 35.6 35.6 35.8 36.2 37.3 40.5 43.2试验组的小白鼠体重的增加量从小到大排序为7.8 9.2 11.4 12.4 13.2 15.5 16.5 18.0 18.8 19.219.8 20.2 21.6 22.8 23.6 23.9 25.1 28.2 32.3 36.5(1)计算试验组的样本平均数;(2)(ⅰ)求40只小白鼠体重的增加量的中位数m,再分别统计两样本中小于m与不小于m的数据的个数,完成如下列联表对照组试验组(ⅱ)根据(i)中的列联表,能否有95%的把握认为小白鼠在高浓度臭氧环境中与在正常环境中体重的增加量有差异?附:,0.100 0.050 0.0102.706 3.841 6.635【答案】(1)(2)(i);列联表见解析,(ii)能【分析】(1)直接根据均值定义求解;(2)(i)根据中位数的定义即可求得,从而求得列联表;(ii)利用独立性检验的卡方计算进行检验,即可得解.【详解】(1)试验组样本平均数为:(2)(i)依题意,可知这40只小鼠体重的中位数是将两组数据合在一起,从小到大排后第20位与第21位数据的平均数,由原数据可得第11位数据为,后续依次为,故第20位为,第21位数据为,所以,故列联表为:合计对照组 6 14 20试验组 14 6 20合计 20 20 40(ii)由(i)可得,,所以能有的把握认为小白鼠在高浓度臭氧环境中与在正常环境中体重的增加量有差异.1.变量x与y的观测数据的散点图如图所示,据此可以判断变量x与y之间( )A.很可能存在负相关 B.一定存在正相关C.很可能存在正相关 D.一定不存在负相关【答案】C【分析】根据正负相关性来判断散点图即可.【详解】由散点图知,以后的函数值,随着x的变大而变大,所以呈正相关性;而的函数值增加缓慢,或者数据不足以说明一定是增加的,故x与y的关系是很可能存在正相关.故选:C2.根据变量和的成对样本数据,由一元线性回归模型得到线性回归模型,对应的残差如图所示,模型误差( )A.满足一元线性回归模型的所有假设B.满足回归模型的假设C.满足回归模型的假设D.不满足回归模型和的假设【答案】D【分析】利用一元线性回归模型的含义分析即可.【详解】解:由散点图可以看出,图中的散点不能拟合成一条直线,不满足,且不满足(e).故选:D.3.为考查某种药物预防疾病的效果,进行动物试验,得到如下列联表:单位:只药物 疾病 合计未患病 患病未服用 75 66 141服用 112 47 159合计 187 113 300依据的独立性检验,能否认为药物有效呢?如何解释得到的结论?【答案】在犯错误的概率不超过的前提下认为药物有效【分析】根据列联表计算出观测值,再由独立性检验的基本思想即可求解.【详解】由列联表可得,,在犯错误的概率不超过的前提下认为药物有效.解释:由于,所以表示有小于的可能性证明这两个事件无关,也就是在犯错误的概率不超过的前提下认为药物有效4.在某地区的一段时间内观测到的不小于某震级x的地震数N的数据如下表:震级x 3.0 3.2 3.4 3.6 3.8 4.0 4.2 4.4 4.6 4.8 5.0地震数N 28381 20380 14795 10695 7641 5502 3842 2698 1919 1356 973震级x 5.2 5.4 5.6 5.8 6.0 6.2 6.4 6.6 6.8 7.0地震数N 746 604 435 274 206 148 98 57 41 25试建立经验回归方程表示二者之间的关系,该模型对预测地震有帮助吗?(、精确到整数,相关系数精确到0.001)【答案】,该模型对预测地震有帮助.【分析】根据回归直线方程计算公式,计算出回归直线方程,并作出判断.【详解】,,,所以.该模型对预测地震是有帮助:①回归直线方程显示,当增大时,减小,与表格提供的实际数据的变化趋势相同,所以该模型对预测地震有帮助.②,,这表明与有很强的线性相关关系,从而也表明建立的回归模型是有意义的、有帮助的.5.为了研究高三年级学生的性别和身高是否大于的关联性,同学甲调查丁某中学高三年级所有学生,整理得到列联表1,同学乙从该校高三学生中获取容量为40的有放回简单随机样本,由样本数据整理得到列联表2.表1单位:人性别 身高 合计女 81 16 97男 28 75 103合计 109 91 200表2单位:人性别 身高 合计女 15 6 21男 9 10 19合计 24 16 40(1)利用表1,通过比较不低于的学生在女生和男生中的比率,判断该中学高三年级学生的性别和身高是否有关联,如果有关联,请解释它们之间如何相互影响;(2)利用表2,依据的独立性检验,推断该中学高三年级学生的性别和身高是否有关联,并解释所得结论的实际含义:(3)以上两种方法得出的结论是否一致?如果不一致,你认为哪种方法得出的结论准确,原因是什么?(,)【答案】(1)有关联,女生身高更容易低于;(2)没有关联,即没有95%的把握认为该中学高三年级学生的性别和身高有关联;(3)不一致,第一种准确,第二种样本容量太少,随机性太大.【分析】(1)计算频率即可比较;(2)计算与3.841比较即可;(3)从样本容量分析【详解】女学生身高低于,不低于的频率分别为男学生身高低于,不低于的频率分别为通过比较发现,如果从女生、男生中各随机选取一名学生,女生中身高低于的概率大于男生中身高低于的概率,故高三年级学生的性别和身高有关联.又,故女生中身高低于的频率是男生中身高低于的频率的3倍以上女生身高更容易低于.(2),所以没有关联,即没有95%的把握认为该中学高三年级学生的性别和身高有关联.(3)不一致,第一种准确,第二种样本容量太少,随机性太大.中小学教育资源及组卷应用平台第02讲 成对数据的统计分析目录0102体系构建·思维可视 303核心突破·靶向攻坚 3知能解码 3知识点1 变量间的相关关系 3知识点2 相关系数 4知识点3 线性回归 5知识点4 列联表与独立性检验 6题型破译 7题型1 变量间的相关关系 7【方法技巧】相关关系判断方法题型2 一元线性回归模型 8【方法技巧】一元线性回归模型步骤题型3 非线性回归模型 12【方法技巧】非线性回归模型步骤题型4 相关系数 17题型5 残差 20题型6 列联表与独立性检验 21【方法技巧】独立性检验步骤04真题溯源·考向感知 2605课本典例·高考素材 28考点要求 考察形式 2025年 2024年 2023年(1)变量的相关关系 (2)样本相关系数 (3)一元线性回归模型 (4)列联表与独立性检验 单选题 多选题 填空题 解答题 2025年上海卷第17题(3),5分 2025年天津卷第5题,5分 2025年全国一卷第15题(2),8分 2024年天津卷第3题,5分 2024年上海卷第19题(3),5分 2024年上海卷第13题,4分 2024年甲卷第17题,12分 2023年上海卷第14题,4分 2023年天津卷第7题,5分 2023年甲卷(文)第17题(2),8分 2023年甲卷(理)第19题(2),6分考情分析:从近三年的高考卷的考查情况来看,本节是高考的热点,主要以解答题形式出现,经常与概率综合出题,一般难度为中等.也可能以选择题、填空题形式出现,难度不大.主要以应用题的方式出现,多与经济、生活实际相联系,需要在复杂的题目描述中找出数量关系,建立数学模型,并且运用数学模型解决实际问题.复习目标: (1)了解样本相关系数的统计含义. (2)理解一元线性回归模型和2×2列联表,会运用这些方法解决简单的实际问题. (3)会利用统计软件进行数据分析.知识点1 变量间的相关关系(1)两个变量有关系,但又没有确切到可由其中一个去精确地决定另一个的程度,这种关系称为相关关系.(2)正相关、负相关从整体上看,当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势,我们就称这两个变量正相关;如果当一个变量的值增加时,另一个变量的相应值呈现减小的趋势,则称这两个变量负相关. (3)线性相关、非线性相关一般地,如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,我们就称这两个变量线性相关. 一般地,如果两个变量具有相关性,但不是线性相关,那么我们就称这两个变量非线性相关或曲线相关.自主检测在以下4幅散点图中,对于图中的y和x之间的关系判断不正确的是( )A.图(2)(3)(4)中的y和x之间存在相关关系B.图(2)(4)中的y和x之间呈现正相关关系C.图(2)(3)中的y和x之间呈现线性相关关系且(2)的相关性一定比(3)强D.图(4)中的y和x之间呈现非线性相关关系知识点2 相关系数(1)相关系数的计算变量与变量的样本相关系数的计算公式如下:(2)相关系数的性质①当时,称成对样本数据正相关;当时,称成对样本数据负相关.当时,成对样本数据间没有线性相关关系.②样本相关系数的取值范围为,当越接近1时,成对样本数据的线性相关程度越强;当越接近0时,成对样本数据的线性相关程度越弱.自主检测已知样本相关系数,则成对样本数据,,,,的相关系数为 .知识点3 线性回归(1)数学表述式:如果两个变量之间的关系可以表示为我们称该式为关于的一元线性回归模型.其中,称为因变量或响应变量,称为自变量或解释变量;和为模型的未知参数,称为截距参数,称为斜率参数;是与之间的随机误差.(2)经验回归方程我们将称为关于的经验回归方程,也称经验回归函数或经验回归公式,其图形称为经验回归直线,其中(3)利用刻画回归效果的计算公式为,其意义是越大,残差平方和越小,即模型的拟合效果越好;越小,残差平方和越大,即模型的拟合效果越差.自主检测某种产品每吨成本6万元,其销售价格(万元/吨)和销售量(吨)的变化情况如下表:7 7.5 8 8.5 910 9 8.5 7.5 5(1)若与线性相关,求关于的经验回归方程;(2)根据(1)的结论,预测要使该产品销售利润最大,销售价格是多少?(结果精确到0.1)附:(参考公式,)知识点4 列联表与独立性检验(1)2×2列联表如图,给出成对分类变量数据的交叉分类频数的数据统计表称为2×2列联表.合计合计(2)独立性检验依据上述列联表构造统计量利用的取值推断分类变量和是否独立的方法称为独立性检验,读作“卡方独立性检验”,简称独立性检验.常用的小概率值和临界值表0.1 0.05 0.01 0.005 0.0012.706 3.841 6.635 7.879 10.828自主检测某高校为了了解大学生对篮球运动的喜好是否与性别有关联,随机在该校调查了100名大学生,得到的数据如表所示:性别 篮球运动 合计喜欢 不喜欢男 40 10 50女 25 25 50合计 65 35 100(1)求该校喜欢篮球运动的大学生中性别为男的频率;(2)根据小概率值的独立性检验,能否认为该校大学生是否喜欢篮球运动与性别有关联?附:,.0.1 0.05 0.01 0.005 0.0012.706 3.841 6.635 7.879 10.828题型1 变量间的相关关系例1-1下列四幅散点图中,所对应的成对样本数据呈现负相关的是( )A. B.C. D.例1-2根据如下两组数据,下列说法正确的是( )5 6 7 8 9 10Y 5 4.8 3.5 4 3 22 4 6 7 93 4 9 7 11A.和呈正相关,和呈正相关B.和呈负相关,和呈负相关C.和呈正相关,和呈负相关D.和呈负相关,和呈正相关方法技巧 相关关系判断方法判定两个变量相关性的方法(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.(2)样本相关系数:当r>0时,正相关;当r<0时,负相关;|r|越接近于1,相关性越强.(3)经验回归方程:当时,正相关;当时,负相关.【变式训练1-1】通过计算样本相关系数可以反映两个随机变量之间的线性相关程度,以下四个选项中分别计算出四个样本的相关系数,则反映样本数据成正相关,并且线性相关程度最强的是( )A. B. C. D.【变式训练1-2】(多选)观察下列散点图,则( )A. B. C. D.【变式训练1-3】(多选)对两组数据进行统计后得到的散点图如图,关于其线性相关系数的结论正确的是( )A. B. C. D.题型2 一元线性回归模型例2-1若关于某设备的使用年限(年)和所支出的维修费(万元)有如下统计资料:若由资料知,对呈线性相关关系.(参考数据:(1)请根据上表提供的数据,用最小二乘法求出关于的线性回归方程;(2)估计使用年限为年时,试求维修费用约是多少?(精确到两位小数)例2-2某兴趣小组研究发现昼夜温差变化的大小与患感冒人数之间具有较强的线性相关关系,该兴趣小组在惠民医院抄录了2025年2~5月份每月5日的昼夜温差情况以及附近的居民因患感冒到惠民医院就诊的人数,得到如下数据:日期 2月5日 3月5日 4月5日 5月5日昼夜温差 11 13 12 8因患感冒就诊人数(人) 25 29 26 16(1)求因患感冒到惠民医院就诊的人数关于昼夜温差的线性回归方程;(2)如果8月5日昼夜温差是时,试预测因患感冒到惠民医院就诊的人数(精确到整数).附:线性回归直线中,;方法技巧 一元线性回归模型步骤【变式训练2-1】PM2.5是指空气中直径小于或等于2.5微米的颗粒物(也称可入肺颗粒物).为了探究车流量与PM2.5的浓度是否相关,现采集到某城市周一至周五某一时间段车流量与PM2.5的数据如下表:时间 周一 周二 周三 周四 周五车流量x(万辆) 50 51 54 57 58PM2.5的浓度y(微克/立方米) 69 70 74 78 79(1)根据上表数据,请在坐标系中画出散点图;(2)根据上表数据,用最小二乘法求出y关于x的线性回归方程;若周六同一时间段车流量是25万辆,预测此时PM2.5的浓度为多少(保留整数) 参考公式:,.【变式训练2-2】某商店为调查某种商品销售单价对销售量的影响,统计了5天的销售单价(元/千克)和销售量(千克)之间的一组数据如下表所示:第天 1 2 3 4 5销售单价 18 19 20 21 22销售量 22 18 16 14 10(1)试根据这5天的销售数据,建立关于的回归直线方程;(2)若该商品进货单价为15元/千克,试确定销售单价,使每天销售该商品的利润最大.(精确到0.1元/千克)参考公式:经验回归直线方程,其中.【变式训练2-3】某饮品店统计了一天营业时间(单位:小时)与饮品销量(单位:杯)的数据如下表:营业时间 1 2 3 4 5饮品销量 17 36 56 77 99已知与线性相关.(1)根据以上数据求饮品销量关于营业时间的回归直线方程;(2)若平均一杯饮品的纯利润为5元,某日该饮品店计划早上9点开始营业,晚上9点结束营业,中间不休息,试预测当日饮品的总利润能否超过1000元?参考公式:回归直线方程中,.题型3 非线性回归模型例3-1为了适应市场需求,同时兼顾企业盈利的预期,某科技公司决定增加一定数量的研发人员,经过调研,得到年收益增量(单位:亿元)与研发人员增量(人)的10组数据.现用模型①,②分别进行拟合,由此得到相应的经验回归方程,并进行残差分析,得到如图所示的残差图.根据收集到的数据,计算得到下表数据,其中.7.5 2.25 82.50 4.50 12.14 2.88(1)根据残差图,判断应选择哪个模型;(无需说明理由)(2)根据(1)中所选模型,求出关于的经验回归方程;并用该模型预测,要使年收益增量超过8亿元,研发人员增量至少多少人?(精确到1)例3-2某电视厂家准备在元旦举行促销活动,现根据近七年的广告费与销售量的数据确定此次广告费支出.广告费支出x(单位:万元)和销售量y(单位:万台)的数据如下:年份 2014 2015 2016 2017 2018 2019 2020广告费支出x 1 2 4 6 11 13 19销售量y 1.9 3.2 4.0 4.4 5.2 5.3 5.4(1)若用线性回归模型拟合y与x的关系,求出y关于x的线性回归方程;(2)若用模型拟合y与x的关系,可得回归方程,经计算线性回归模型和该模型的分别约为0.75和0.88,请用说明选择哪个回归模型更好.附:方法技巧 非线性回归模型步骤1、建立非线性回归模型的基本步骤:(1)确定研究对象,明确哪个是解释变量,哪个是预报变量;(2)画出确定好的解释变量和预报变量的散点图,观察它们之间的关系(是否存在非线性关系);(3)由经验确定非线性回归方程的类型(如我们观察到数据呈非线性关系,一般选用反比例函数、二次函数、指数函数、对数函数、幂函数模型等);(4)通过换元,将非线性回归方程模型转化为线性回归方程模型;(5)按照公式计算线性回归方程中的参数(如最小二乘法),得到线性回归方程;(6)消去新元,得到非线性回归方程;(7)得出结果后分析残差图是否有异常.若存在异常,则检查数据是否有误,或模型是否合适等.【变式训练3-1】秋天的第一杯奶茶是一个网络词汇,最早出自四川达州一位当地民警之口,民警用“秋天的第一杯奶茶”顺利救下一名女孩,由此而火爆全网.后来很多人开始在秋天里买一杯奶茶送给自己在意的人.某奶茶店主记录了入秋后前7天每天售出的奶茶数量(单位:杯)如下:日期 第一天 第二天 第三天 第四天 第五天 第六天 第七天日期代码 1 2 3 4 5 6 7杯数 4 15 22 26 29 31 32(1)请根据以上数据,绘制散点图,并根据散点图判断,与哪一个更适宜作为y关于x的回归方程模型(给出判断即可,不必说明理由);(2)建立y关于x的回归方程(结果保留1位小数),并根据建立的回归方程,试预测要到哪一天售出的奶茶才能超过35杯?参考公式和数据:其中回归直线方程中,22.7 1.2 759 235.1 13.2 8.2【变式训练3-2】某电商平台统计了近七年小家电的年度广告费支出(万元)与年度销售量(万台)的数据,如表所示:年份 2016 2017 2018 2019 2020 2021 2022广告费支出 1 2 4 6 11 13 19销售量 1.9 3.2 4.0 4.4 5.2 5.3 5.4其中,(1)若用线性回归模型拟合与的关系,求出关于的线性回归方程;(2)若用模型拟合得到的回归方程为,经计算线性回归模型及该模型的分别为0.75和0.88,请根据的数值选择更好的回归模型拟合与的关系,进而计算出年度广告费为何值时,利润的预报值最大?参考公式:,;【变式训练3-3】某公司为了解年营销费用x(单位:万元)对年销售量y(单位:万件)的影响,统计了近5年的年营销费用和年销售量,得到的散点图如图所示,对数据进行初步处理后,得到一些统计量的值如下表所示.表中,,,.已知可以作为年销售量y关于年营销费用x的回归方程.(1)求y关于x的回归方程;(2)若公司每件产品的销售利润为4元,固定成本为每年120万元,用所求的回归方程估计该公司每年投入多少营销费用,才能使得该产品一年的收益达到最大?(收益销售利润营销费用固定成本)参考数据:,.参考公式:对于一组数据,其回归直线的斜率和截距的最小二乘估计分别为,.题型4 相关系数例4-1一般来说,市场上产品的广告费用与产品的销量存在一定的关系.已知某产品1月~4月的月广告费用(万元)与月销量(万件)的统计数据如下:月份 1月 2月 3月 4月月广告费用(万元) 3 4 5 6月销量(万件) 5 6 8 9已知与线性相关.(1)求关于的经验回归方程;(2)求与的相关系数(精确到0.01).参考公式:回归直线方程为,其中,.相关系数.例4-2某课外实验小组通过实验统计了某种子的发芽率与土壤的湿度的相关数据如下表:x 40 45 50 55 60y 50 56 64 72 83(1)求y关于x的相关系数r(精确到0.001),并判断它们是否具有较强的线性相关关系?(如果,则认为y与x的线性相关性很强)(2)求y关于x的经验回归方程,并预测当土壤的湿度为时,种子的发芽率的值.参考公式及数据:对于一组数据,,…,,经验回归方程的斜率和截距的最小二乘估计公式分别为,,相关系数,,,,.【变式训练4-1】新能源汽车发展非常迅速,某地区2017年至2024年(年份代码分别记为:1,2,3,4,5,6,7,8)某品牌新能源汽车的科研经费投入和销售量统计如下:年份代码i 1 2 3 4 5 6 7 8科研经费(单位:百亿元) 2 3 6 10 13 15 18 21销售量(单位:百万辆) 1 1 2 2.5 3.5 3.5 4.5 6参考数据:,,,.参考公式:相关系数.,(1)根据样本数据,计算科研经费x与销售量y之间的样本相关系数,并推断它们的线性相关程度(结果精确到0.01);(2)根据样本数据,求销售量y关于科研经费x的线性回归方程(,用分数表达).【变式训练4-2】浙江省教育厅等五部门印发《浙江省山区26县和海岛县“县中崛起”行动计划》,从招生管理、县中对口帮扶、教科研指导等九方面提升共同富裕背景下教育公共服务的质量和水平.某校为增强实力,大力招揽名师、建设校园设施,近5年该校招生人数的数据如下表:年份序号 1 2 3 4 5招生人数/千人 1.3 1.7 2.2 2.8 3.5(1)由表中数据可看出,可用线性回归模型拟合与的关系,请用相关系数加以证明;(2)求关于的回归直线方程,并预测当年份序号为7时该校的招生人数.参考数据:.参考公式:相关系数,【变式训练4-3】某地区因其独特的地理位置和生态环境,对气候变化较为敏感.地理研究小组为了研究该地区生态情况,对该地区年平均气温x(单位:℃)与年降水量y(单位:mm)之间的关系进行了探究.小组收集了过去10年该地区的相关数据,如下表所示:平均气温 12.1 12.5 11.3 12.4 13.1 11.5 11.0 11.3 12.6 12.2年降水量 850 880 820 860 895 840 800 830 865 860附:,,,,相关系数经验回归方程:,其中.(1)求样本的相关系数(精确到0.01);(2)建立y关于x的经验回归方程(a,b的计算结果均精确到1),预测年平均气温为13.5℃时的年降水量.题型5 残差例5-1我区物价部门对某商品在各商场的售价(元)及其一天的销售量(件)进行调查,得到了若干对数据,经过分析,计算,得到关于的经验回归方程为,则样本点的残差为 .例5-2色差和色度是衡量毛绒玩具质量优劣的重要指标,现抽检一批产品测得的数据列于表中.已知该产品的色度y和色差x之间满足线性相关关系,且,现有一对测量数据为,若该数据的残差为0.6,则 .色差x 21 23 25 27色度y 15 18 19 20【变式训练5-1】已知变量和的经验回归直线方程为,则时的观测值为6.5,此时残差为 (注:观测值减去预测值称为残差).【变式训练5-2】某无人机的研发费用x(单位:万元)与销售量y(单位:万件)之间的对应数据如表所示:研发费用x 3.4 4.7 5 5.6 6.3销售量y 15 16.9 19.2 18 20.9根据表中数据可得经验回归方程为,则第三个样本点对应的残差为 .【变式训练5-3】由样本数据,求得回归直线方程为,且,若去除偏离点(4,10)后,得到新的回归直线方程为,则去除偏离点后,相应于样本点的残差值为 .题型6 列联表与独立性检验例6-1在某次考试中,某学校要对某年级的学习总评成绩(满分100分)和体育成绩(满分100分)进行统计分析,为研究方便,现抽取出了其中各100名学生的成绩(分为优秀和一般)进行统计.优秀 一般 合计学习总评成绩体育成绩合计(1)若统计的数据中学习总评成绩在前十名的成绩分别为99,98,98,97,96,96,96,94,94,93,求这十个成绩的平均数和第70百分位数;(2)统计可得,学习总评成绩优秀60人,体育成绩一般30人,填写如下列联表,依据的独立性检验,能否认为学习总评成绩优秀与体育成绩优秀有关?参考公式:,.0.05 0.01 0.0013.841 6.635 10.828例6-2某工厂进行生产线智能化升级改造,对甲、乙两个车间升级改造后.(1)从该工厂甲、乙两个车间的产品中各随机抽取50件进行检验,其中甲车间优等品占,乙车间优等品占,请填写下面的列联表,并依据小概率值的独立性检验,分析车间是否与优等品有关联?(结果精确到0.001)优等品 非优等品 总计甲车间乙车间总计(附,其中,)(2)调查了工厂近10个月的产量(单位:万个)和月销售额(单位:万元),得到以下数据:,,,.并根据散点图认为关于的经验回归方程为,其中,.①求证:.②求关于的经验回归方程.方法技巧 独立性检验步骤独立性检验的一般步骤(1)根据样本数据制成2×2列联表.(2)根据公式计算.(3)比较与临界值的大小关系,作统计推断.【变式训练6-1】2025年春节档一部国产动画电影《哪吒之魔童闹海》横空出世,迅速斩获各项票房冠军,截至3月20日,该电影已进入全球票房榜前五.经权威电影机构调查,得到其前5周的票房数据如下表:周次 第1周 第2周 第3周 第4周 第5周周次代码 l 2 3 4 5票房总额/亿元 40 35 25 37 7(1)求关于的线性回归方程;(2)该电影机构为了解民众观影的喜欢程度,随机采访了90名观影人员,得到下表:是否成年 是否喜欢 合计不喜欢 喜欢未成年人 40 50成年人 10 40合计 90依据小概率值的独立性检验,能否认为喜欢电影《哪吒之魔童闹海》和是否成年有关?附:①,,在利用最小二乘法求得的线性回归方程中,,;②,其中.α 0.1 0.05 0.012.706 3.841 6.635【变式训练6-2】为调查某市高中生选科时选择物理方向和历史方向的情况,用简单随机抽样方法从该市调查了500位学生,结果如下:男 女物理方向 270 160历史方向 30 40(1)估计该市高中生中,选历史方向的学生的比例;(2)能否有的把握认为该市的高中生选科情况与性别有关?(3)根据现有资料,为了提高样本的代表性以获得该市高中生选择物理方向和历史方向的学生比例更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由.附:0.05 0.01 0.0013.841 6.635 10.828【变式训练6-3】为了了解高中学生课后自主学习数学时间(x分钟/每天)和他们的数学成绩(y分)的关系,某实验小组做了调查,得到一些数据如下表:编号 1 2 3 4 5x 10 20 30 40 50y 70 80 100 120 130(1)若该组数据中y与x之间的关系可用线性回归模型进行拟合,求y关于x的回归直线方程.(参考数据:)(2)基于上述调查,某校提倡学生课后自主学习.经过一学期的实施后,抽样调查了160位学生.按照参与课后自主学习与成绩进步情况得到如下2×2列联表:成绩没有进步 成绩有进步 合计参与课后自主学习 5 135 140未参与课后自主学习 5 15 20合计 10 150 160依据的独立性检验,分析“课后自主学习与成绩进步”是否有关.附:回归方程中斜率和截距的最小二乘估计公式分别为:,,其中.0.1 0.05 0.01 0.005 0.0012.706 3.841 6.635 7.879 10.8281.(2025·天津·高考真题)下列说法中错误的是( )A.若,则B.若,,则C.越接近1,相关性越强D.越接近0,相关性越弱2.(2024·天津·高考真题)下列图中,线性相关性系数最大的是( )A. B.C. D.3.(2025·全国一卷·高考真题)为研究某疾病与超声波检查结果的关系,从做过超声波检查的人群中随机调查了1000人,得到如下列联表:超声波检查结果组别 正常 不正常 合计患该疾病 20 180 200未患该疾病 780 20 800合计 800 200 1000(1)记超声波检查结果不正常者患该疾病的概率为P,求P的估计值;(2)根据小概率值的独立性检验,分析超声波检查结果是否与患该疾病有关.附,0.050 0.010 0.0013.841 6.635 10.8284.(2024·全国甲卷·高考真题)某工厂进行生产线智能化升级改造,升级改造后,从该工厂甲、乙两个车间的产品中随机抽取150件进行检验,数据如下:优级品 合格品 不合格品 总计甲车间 26 24 0 50乙车间 70 28 2 100总计 96 52 2 150(1)填写如下列联表:优级品 非优级品甲车间乙车间能否有的把握认为甲、乙两车间产品的优级品率存在差异?能否有的把握认为甲,乙两车间产品的优级品率存在差异?(2)已知升级改造前该工厂产品的优级品率,设为升级改造后抽取的n件产品的优级品率.如果,则认为该工厂产品的优级品率提高了,根据抽取的150件产品的数据,能否认为生产线智能化升级改造后,该工厂产品的优级品率提高了?()附:0.050 0.010 0.001k 3.841 6.635 10.8285.(2023·全国甲卷·高考真题)一项试验旨在研究臭氧效应,试验方案如下:选40只小白鼠,随机地将其中20只分配到试验组,另外20只分配到对照组,试验组的小白鼠饲养在高浓度臭氧环境,对照组的小白鼠饲养在正常环境,一段时间后统计每只小白鼠体重的增加量(单位:g).试验结果如下:对照组的小白鼠体重的增加量从小到大排序为15.2 18.8 20.2 21.3 22.5 23.2 25.8 26.5 27.5 30.132.6 34.3 34.8 35.6 35.6 35.8 36.2 37.3 40.5 43.2试验组的小白鼠体重的增加量从小到大排序为7.8 9.2 11.4 12.4 13.2 15.5 16.5 18.0 18.8 19.219.8 20.2 21.6 22.8 23.6 23.9 25.1 28.2 32.3 36.5(1)计算试验组的样本平均数;(2)(ⅰ)求40只小白鼠体重的增加量的中位数m,再分别统计两样本中小于m与不小于m的数据的个数,完成如下列联表对照组试验组(ⅱ)根据(i)中的列联表,能否有95%的把握认为小白鼠在高浓度臭氧环境中与在正常环境中体重的增加量有差异?附:,0.100 0.050 0.0102.706 3.841 6.6351.变量x与y的观测数据的散点图如图所示,据此可以判断变量x与y之间( )A.很可能存在负相关 B.一定存在正相关C.很可能存在正相关 D.一定不存在负相关2.根据变量和的成对样本数据,由一元线性回归模型得到线性回归模型,对应的残差如图所示,模型误差( )A.满足一元线性回归模型的所有假设B.满足回归模型的假设C.满足回归模型的假设D.不满足回归模型和的假设3.为考查某种药物预防疾病的效果,进行动物试验,得到如下列联表:单位:只药物 疾病 合计未患病 患病未服用 75 66 141服用 112 47 159合计 187 113 300依据的独立性检验,能否认为药物有效呢?如何解释得到的结论?4.在某地区的一段时间内观测到的不小于某震级x的地震数N的数据如下表:震级x 3.0 3.2 3.4 3.6 3.8 4.0 4.2 4.4 4.6 4.8 5.0地震数N 28381 20380 14795 10695 7641 5502 3842 2698 1919 1356 973震级x 5.2 5.4 5.6 5.8 6.0 6.2 6.4 6.6 6.8 7.0地震数N 746 604 435 274 206 148 98 57 41 25试建立经验回归方程表示二者之间的关系,该模型对预测地震有帮助吗?(、精确到整数,相关系数精确到0.001)5.为了研究高三年级学生的性别和身高是否大于的关联性,同学甲调查丁某中学高三年级所有学生,整理得到列联表1,同学乙从该校高三学生中获取容量为40的有放回简单随机样本,由样本数据整理得到列联表2.表1单位:人性别 身高 合计女 81 16 97男 28 75 103合计 109 91 200表2单位:人性别 身高 合计女 15 6 21男 9 10 19合计 24 16 40(1)利用表1,通过比较不低于的学生在女生和男生中的比率,判断该中学高三年级学生的性别和身高是否有关联,如果有关联,请解释它们之间如何相互影响;(2)利用表2,依据的独立性检验,推断该中学高三年级学生的性别和身高是否有关联,并解释所得结论的实际含义:(3)以上两种方法得出的结论是否一致?如果不一致,你认为哪种方法得出的结论准确,原因是什么?(,) 展开更多...... 收起↑ 资源列表 第02讲 成对数据的统计分析(复习讲义)(原卷版)2026年高考数学一轮复习讲练测.docx 第02讲 成对数据的统计分析(复习讲义)(解析版)2026年高考数学一轮复习讲练测.docx