资源简介 (共72张PPT)微专题12 统计与成对数据的统计分析2025 高考第二轮专题 数学微点1 众数、中位数、平均数、百分位数例1(1)(多选题)[2024·长沙一中模拟] 为分析甲班学生某次数学测试的情况,采用男生、女生比例分配的分层随机抽样的方法抽取样本,该样本中男生的成绩为,,,, ,女生的成绩为,,,, ,下列说法正确的是( )A.若样本中男、女生两组成绩的平均数都为,则样本的平均数等于B.若样本中男、女生两组成绩的中位数都为,则样本的中位数等于C.若样本中男、女生两组成绩的第40百分位数都为 ,则样本的第40百分位数可能大于D.若样本中男、女生两组成绩的方差都为 ,则样本的方差一定不小于√√√[解析] 设, ,所有样本数据按照从小到大排列为,, , .对于A,因为 ,所以A正确.对于B,因为,所以,所以样本的中位数为 ,所以B正确.对于C,,若,则 ,所以,分别为和;若,则,所以,分别为 和.两种情况下,样本的第40百分位数均等于 ,所以C错误.对于D,方法一:根据比例分配的分层随机抽样的方差公式,设样本方差为,平均数为 ,则 ,所以样本的方差一定不小于 ,所以D正确.方法二:因为,所以 ,,,所以样本的方差为 ,因为 ,所以样本的方差一定不小于,所以D正确.故选 .(2)[2024· 新课标Ⅱ卷]某农业研究部门在面积相等的100块稻田上种植一种新型水稻,得到各块稻田的亩产量(单位: )都在内,并整理得到下表:亩产量频数 6 12 18 30 24 10根据表中数据,下列结论正确的是( )A.100块稻田亩产量的中位数小于B.100块稻田中亩产量低于的稻田所占比例超过C.100块稻田亩产量的极差介于到 之间D.100块稻田亩产量的平均值介于到 之间√[解析] 对于A,根据频数分布表可知, ,所以亩产量的中位数不小于 ,故A错误;对于B,亩产量低于的稻田所占比例为 ,故B错误;对于C,设稻田亩产量的极差为,则由题意知 ,且,即 ,故C正确;对于D,100块稻田亩产量的平均值为 ,故D错误.故选C.自测题1.(多选题)[2024·武汉调研] 如图所示,下列频率分布直方图显示了三种不同的分布形态.图①形成对称形态,图②形成“右拖尾”形态,图③形成“左拖尾”形态,下列判断正确的是( )A.图①的平均数中位数 众数 B.图②的平均数 众数 中位数C.图②的众数 中位数 平均数 D.图③的平均数 中位数 众数√√√[解析] 图①的频率分布直方图是对称的,所以平均数中位数 众数,故A正确;图②的众数最小,且“右拖尾”时平均数大于中位数,故B错误,C正确;图③的众数最大,且“左拖尾”时平均数小于中位数,故D正确.故选 .2.(多选题)[2024·辽宁抚顺六校联考]2023年7月31日国家统计局发布了制造业采购经理指数 ,如图所示:下列说法正确的是( )A.从2023年1月到2023年7月,这7个月的制造业采购经理指数 的第75百分位数为B.从2023年1月到2023年7月,这7个月的制造业采购经理指数 的极差为C.从2022年7月到2023年7月,制造业采购经理指数 呈下降趋势D.若大于 表示经济处于扩张活跃的状态,小于 表示经济处于低迷萎缩的状态,则2023年1月到2023年3月,经济处于扩张活跃的状态√√√[解析] 由图知,从2023年1月到2023年7月,这7个月的制造业采购经理指数 从小到大的顺序为,, , ,,, ,因为 ,所以第75百分位数为第 6个数,即为 ,故A正确;从2023年1月到2023年7月,这7个月的制造业采购经理指数的最大值为,最小值为 ,所以极差为 ,故B正确;由图易知,从2022年7月到2023年7月,制造业采购经理指数 有升有降,故C错误;由图知2023年1月到2023年3月的均大于 ,所以经济处于扩张活跃的状态, 故D正确.故选 .微点2 回归模型例2 [2024·泉州模拟] 某公司为了解年研发资金 (单位:亿元)对年产值(单位:亿元)的影响,对公司近8年的年研发资金 和年产值 的数据进行分析,选用了两个回归模型,并利用最小二乘法求得相应的关于 的经验回归方程:; .参考数据:,, ,.(1)求 的值;解:根据题意,令,则 ,, ,将点的坐标代入方程 ,得,解得 ,所以的值为 .(2)已知①中的残差平方和 ,②中的残差平方和,请根据决定系数选择拟合效果更好的经验回归方程,并利用该经验回归方程预测年研发资金为20亿元时的年产值.参考公式:刻画回归模型拟合效果的决定系数 .解:设经验回归方程①的决定系数为,由 ,得 .设经验回归方程②的决定系数为 ,由,得 .因为 ,所以经验回归方程②的拟合效果更好.当时, ,所以预测年研发资金为20亿元时的年产值为295.02亿元.【规律提炼】1.(1)正确理解计算,的公式和准确地计算是求经验回归方程的关键;(2)经验回归直线必过点.2.(1)在分析两个变量的相关关系时,可根据样本数据作出散点图来判断两个变量之间是否具有线性相关关系,若具有线性相关关系,则可通过经验回归方程来估计和预测;(2)对于非线性回归分析问题,应先进行变量代换,求出代换后的经验回归方程,再求非线性经验回归方程.自测题[2024·郑州三模] 按照《中华人民共和国环境保护法》的规定,每年生态环境部都会会同国家发展改革委等部门共同编制《中国生态环境状况公报》,并向社会公开发布.下表是 年五年《中国生态环境状况公报》中酸雨区面积约占国土面积的百分比 :年份 2017年 2018年 2019年 2020年 2021年年份代码 1 2 3 4 56.4 5.5 5.0 4.8 3.8(1)求与的样本相关系数(精确到 );附:, ,样本相关系数, .解:由题意可得,, ,由题可列下表:0 1 21.3 0.4可得, ,,故样本相关系数.(2)请用样本相关系数说明该组数据中与 之间的关系可用一元线性回归模型进行拟合,并求出关于 的经验回归方程;经验回归直线的斜率和截距的最小二乘估计公式分别为, .附:, ,样本相关系数, .解:由(1)知,与的样本相关系数,接近1,所以 与 之间具有较强的线性相关关系,可用一元线性回归模型进行拟合.由(1)知, ,,所以关于 的经验回归方程为 .(3)预测2025年的酸雨区面积占国土面积的百分比.解:当时, ,故预测2025年的酸雨区面积占国土面积的百分比为 .微点3 独立性检验例3 [2024·齐鲁名校联盟联考] 某汽车文化自媒体公司主打对越野车越野能力的测评,为调查车友们对越野车的了解程度,随机抽取了200名车友进行调查,得到如下表的数据:单位:人对越野车的了解程度 性别 合计女 男 比较了解 78不太了解 38合计 140 200(1)完成上面的列联表,根据小概率值 的独立性检验,能否认为车友对越野车的了解程度与性别有关联?附: .0.05 0.01 0.0053.841 6.635 7.879解:补充完整的 列联表如下:单位:人对越野车的了解程度 性别 合计女 男 比较了解 22 78 100不太了解 38 62 100合计 60 140 200零假设为 车友对越野车的了解程度与性别无关联.根据列联表中的数据,经计算得,所以根据小概率值的独立性检验,推断 不成立,即认为车友对越野车的了解程度与性别有关联.(2)该公司组织5名驾驶水平相当的员工在户外场地进行汽车越野活动,他们需要合作闯关,一共有两关,每次由一名员工上场,闯过第一关才能继续闯第二关,若闯某一关失败,则换下一名员工从失败的这一关开始闯,同一员工不重复上场,当有人闯过第二关时或者5名员工都闯关失败时活动结束.若无论前面的闯关结果如何,每名员工闯过第一关的概率都为,闯过第二关的概率都为 ,求第三名员工闯关后活动恰好结束的概率.解:第三名员工闯关后活动恰好结束分以下几种情况:①前两名员工未过第一关,第三名员工闯过第一、二关,其概率 ;②第一名员工未过第一关,第二名员工过第一关未过第二关,第三名员工过第二关,其概率 ;③第一名员工过第一关未过第二关,第二名员工未过第二关,第三名员工过第二关,其概率 .所以第三名员工闯关后活动恰好结束的概率.自测题(多选题)某校为了解高一新生对数学是否感兴趣,从400名女生和600名男生中采用比例分配的分层随机抽样的方式抽取100名学生进行问卷调查,根据调查的结果得到如下等高堆积条形图和列联表,则( )单位:人性别 是否对数学感兴趣 合计感兴趣 不感兴趣 女男合计 100附:, .0.1 0.05 0.01 0.005 0.0012.706 3.841 6.635 7.879 10.828A.表中,B.可以估计该校高一新生中对数学不感兴趣的女生人数比男生多C.根据小概率值 的独立性检验,可以认为是否对数学感兴趣与性别有关联D.根据小概率值 的独立性检验,可以认为是否对数学感兴趣与性别没有关联√√√[解析] 由题可知,抽取男生的人数为 ,抽取女生的人数为 ,由等高堆积条形图知,抽取的男生中对数学感兴趣的人数为 ,抽取的男生中对数学不感兴趣的人数为 ,抽取的女生中对数学感兴趣的人数为 ,抽取的女生中对数学不感兴趣的人数为,列联表如下.性别 是否对数学感兴趣 合计感兴趣 不感兴趣 女 12 28 40男 30 30 60合计 42 58 100由此表可知,, ,故A正确;估计该校高一新生中女生对数学不感兴趣的人数为 ,男生对数学不感兴趣的人数为 ,所以估计该校高一新生中对数学不感兴趣的女生人数比男生少,故B错误;单位:人零假设为 是否对数学感兴趣 与性别无关联,根据列联表中的数据,经计算得到 ,根据小概率值的独立性检验,有充分证据推断 不成立,即认为是否对数学感兴趣与性别有关联,故C正确;,根据小概率值的独立性检验,没有充分证据推断 不成立,因此可以认为 成立,即认为是否对数学感兴趣与性别没有关联,故D正确.故选 .1.[2020·全国卷Ⅰ]某校一个课外学习小组为研究某作物种子的发芽率和温度(单位: )的关系,在20个不同的温度条件下进行种子发芽实验,由实验数据 得到如图所示的散点图:A. B.C. D.[解析] 由散点图可知回归方程的类型为对数型,故选D.√由此散点图,在至 之间,下面四个回归方程类型中最适宜作为发芽率和温度 的回归方程类型的是( )2.[2022·天津卷]为研究某药品的疗效,选取若干名志愿者进行临床试验,所有志愿者的舒张压数据(单位: )的分组区间为,, ,A.8 B.12 C.16 D.18将其按从左到右的顺序分别编号为第一组、第二组、第三组、第四组、第五组,如图是根据试验数据制成的频率分布直方图.已知第一组与第二组共有20人,第三组中没有疗效的有6人,则第三组中有疗效的人数为( )√[解析] 志愿者的总人数为, 第三组的人数为,故第三组中有疗效的人数为 .故选B.3.(多选题)[2023· 新课标Ⅰ卷] 有一组样本数据,, , ,其中是最小值, 是最大值,则( )A.,,,的平均数等于,, , 的平均数B.,,,的中位数等于,, , 的中位数C.,,,的标准差不小于,, , 的标准差D.,,,的极差不大于,, , 的极差√√[解析] 对于A,这一组样本数据可取1,2,2,2,2,4,则2,2,2,2的平均数不等于1,2,2,2,2,4的平均数,故A错误;对于B,不妨设,则,,,的中位数为 ,而,,,,,的中位数也为 ,故B正确;对于C,根据题意可知,,,,,,的数据波动性大于,,, 的数据波动性,故,,,的标准差小于,,,,, 的标准差,故C错误;对于D,不妨设,则 ,故,故D正确.故选 .4.[2020·全国新高考Ⅰ卷] 为加强环境保护,治理空气污染,环境监测部门对某市空气质量进行调研,随机抽查了100天空气中的 和浓度(单位: ),得下表:32 18 46 8 123 7 10(1)估计事件“该市一天空气中浓度不超过75,且 浓度不超过150”的概率;解:根据抽查数据,该市100天的空气中浓度不超过75,且 浓度不超过150的天数为 ,因此,该市一天空气中浓度不超过75,且 浓度不超过150的概率的估计值为 .(2)根据所给数据,完成下面的 列联表:根据抽查数据,可得列联表:64 1610 10(3)根据(2)中的列联表,判断是否有 的把握认为该市一天空气中浓度与 浓度有关?附: ,0.050 0.010 0.0013.841 6.635 10.828解:根据(2)的列联表得 .由于,故有的把握认为该市一天空气中 浓度与 浓度有关.[备选理由]例1考查平均数、方差的计算;例2考查最小二乘估计和回归分析;例3考查模型拟合与正态分布等知识的应用;例4考查独立性检验与二项分布知识的应用.例1 [配例1使用] [2024·广东江门一模] 已知9名女生的身高平均值为162(单位:),方差为26,若增加一名身高172(单位: )的女生,则这10名女生身高的方差为( )A.32.4 B.32.8 C.31.4 D.31.8√[解析] 设9名女生的身高为 ,依题意得, ,因此增加一名女生后身高的平均值为 ,所以这10名女生身高的方差为 .故选A.例2 [配例2使用][2024·华师大一附中模拟](1)假设变量与变量的对观测数据为,, ,,两个变量满足一元线性回归模型请写出参数 的最小二乘估计.解: ,要使取得最小值,当且仅当的取值为,所以参数 的最小二乘估计为 .(2)为推动新能源汽车产业高质量发展,国家出台了一系列政策,给新能源汽车产业发展带来了巨大的推动效果.如表是某新能源汽车品牌从2019年到2023年新能源汽车的年销量(万辆)与年份代码之间的对应数据(2019年的年份代码为1,2020年的年份代码为2,以此类推).已知根据散点图和样本相关系数判断,与 之间具有较强的线性相关关系,可以用线性回归模型拟合.年份代码 1 2 3 4 5年销量 (万) 4 9 14 18 25令变量,,则变量与变量 满足一元线性回归模型利用(1)中结论求关于 的经验回归方程,并预测2025年该品牌新能源汽车的年销量.解:由题知, ,所以,,所以,所以 ,所以,即 ,所以 .当时, ,故关于的经验回归方程为 ,预测2025年该品牌新能源汽车的年销量为34.4万辆.例3 [配例2使用] [2024·河北沧州模拟] 南澳牡蛎是我国国家地理标志产品,产量高、肉质肥、营养好,素有“海洋牛奶精品”的美誉.某南澳牡蛎养殖基地考虑增加人工投入,现有以往的人工投入增量(人)与年收益增量 (万元)的数据如下:人工投入增量 (人) 2 3 4 6 8 10 13年收益增量 (万元) 13 22 31 42 50 56 58该基地为了预测人工投入增量为16人时的年收益增量,建立了与的两个回归模型:模型①:由最小二乘法可求得关于 的经验回归方程为;模型②:由散点图的样本点分布,如图所示,可以认为样本点集中在曲线的附近,令 ,则,且, ,,.(1)(ⅰ)根据所给的统计量,求模型②中关于 的经验回归方程(系数精确到 );附: 经验回归直线 的斜率和截距的最小二乘估计公式分别为, .解:由,,,,得 ,且 ,所以模型②中关于的经验回归方程为 .(ⅱ)根据下列表格中的数据,比较两种模型的决定系数 ,并选择拟合效果更好的模型,预测人工投入增量为16人时的年收益增量.回归模型 模型① 模型②经验回归方程182.4 79.2附: 决定系数 .解:由表格中的数据,得,故 ,设模型①与模型②的决定系数分别为,,则 ,说明模型②的拟合效果更好.当 时,由模型②知年收益增量的预测值为,所以预测人工投入增量为16人时的年收益增量为70.8万元.(2)根据养殖规模与以往的养殖经验,产自该养殖基地的单个南澳牡蛎的质量(单位: )在正常环境下服从正态分布 .购买10只该基地的南澳牡蛎,会买到质量小于 的牡蛎的可能性有多大 附:若随机变量 ,则 ,.解:由题意知,单个南澳牡蛎的质量,则, ,由正态分布的对称性可知, .设购买10只该基地的南澳牡蛎,其中质量小于的牡蛎有 只,故 ,所以 ,所以购买10只该基地的南澳牡蛎,会买到质量小于 的牡蛎的可能性约为 .例4 [配例3使用] [2024·山东德州一中三模] 向“新”而行,向“新”而进,新质生产力能够更好地推动高质量发展.以人工智能的应用为例,人工智能中的文生视频模型(以下简称 ),能够根据用户的文本提示创建最长60秒的逼真视频.为调查 的应用是否会对视频从业人员产生影响,某学校研究小组随机抽取了120名视频从业人员进行调查,结果如表所示.的应用情况 视频从业人员 合计影响 没有影响 应用 70 75没有应用 15合计 100 120单位:人(1)根据所给数据完成上表,依据小概率值 的独立性检验,能否认为 的应用对视频从业人员有影响?附:,其中 .0.010 0.005 0.0016.635 7.879 10.828解:依题意, 列联表如下:单位:人的应用情况 视频从业人员 合计影响 没有影响 应用 70 5 75没有应用 30 15 45合计 100 20 120零假设为 的应用对视频从业人员没有影响,由列联表中的数据得,,根据小概率值的独立性检验,推断不成立,即认为 的应用对视频从业人员有影响,此推断犯错误的概率不超过0.001.(2)某公司视频部现有员工100人,公司拟开展 培训,分三轮进行,每位员工第一轮至第三轮培训达到“优秀”的概率分别为,, ,每轮相互独立,有二轮及以上获得“优秀”的员工才能应用 .(ⅰ)求一名员工经过培训能应用 的概率.解:设“员工第轮获得‘优秀’”,则,, 相互独立.设“一名员工经过培训能应用 ”,则,故一名员工经过培训能应用的概率是 .(ⅱ)已知开展 培训前,员工每人每年平均为公司创造利润6万元;开展培训后,能应用 的员工每人每年平均为公司创造利润10万元. 培训平均每人每年成本为1万元.根据公司发展需要,计划先将视频部的部分员工随机调至其他部门,然后对剩余员工开展 培训,现要求培训后视频部的年利润不低于员工调整前的年利润,则视频部最多可以调多少人到其他部门?解:设视频部调人至其他部门,,,为培训后视频部能应用 的人数,则 ,所以 .调整后视频部的年利润为(万元),令,解得,又 ,所以 ,所以视频部最多可以调14人到其他部门. 展开更多...... 收起↑ 资源预览