资源简介 (共65张PPT)微专题15 统计与成对数据的统计分析2025届高考数学二轮复习【考情分析】独立性检验与回归分析问题是高考的必考内容,试题常常与概率问题综合考查,试题难度中等,以解答题的形式为主.高考备考建议熟练掌握独立性检验和回归分析的相关公式,注重计算能力和分析能力的训练.微点1 统计图表及数字特征的应用例1(1)(多选题)[2024·广州一模] 现有十个点的坐标为 ,, ,,它们分别与,, , 关于点对称,已知,, ,的平均数为,中位数为,方差为 ,极差为,则,, , 这组数满足( )A.平均数为 B.中位数为C.方差为 D.极差为√√√[解析] 因为,, ,分别与,, ,关于点对称,所以 ,即.由平均数的性质可得,, , 这组数的平均数为,结合中位数性质可知,, , 这组数的中位数为,结合方差性质可得,, , 这组数的方差为,极差为.故选 .(2)(多选题)[2024·济南模拟] 某次数学考试后,为分析学生的学习情况,某校从某年级中随机抽取了100名学生的成绩,整理得到如图所示的频率分布直方图.为进一步分析高分学生的成绩分布情况,A.B.估计该年级学生成绩的中位数约为77.14C.估计该年级成绩在80分及以上的学生成绩的平均数为87.5D.估计该年级成绩在80分及以上的学生成绩的方差为30.25计算得到这100名学生中,成绩位于 内的学生成绩的方差为12,成绩位于 内的学生成绩的方差为10,则( )√√√[解析] 对于A,在频率分布直方图中,所有直方图的面积之和为1,则,解得 ,故A错误;对于B,前两个矩形的面积之和为, 前三个矩形的面积之和为 ,设该年级学生成绩的中位数为,则 ,根据中位数的定义可得,解得 ,故B正确;对于C,估计成绩在80分以上的学生成绩的平均数为 ,故C正确;对于D,估计该年级成绩在80分及以上的学生成绩的方差为,故D正确. 故选 .【规律提炼】利用频率分布直方图估计样本数字特征的方法:(1)中位数:在频率分布直方图中,中位数左边和右边的直方图面积相等,由此可以估计中位数.(2)平均数:平均数的估计值等于每个小矩形的面积乘矩形底边中点横坐标之和.【巩固训练】[2024·贵阳二模] 某工厂生产某电子产品配件,关键接线环节需要焊接,焊接是否成功将直接导致产品“合格”与“不合格”,工厂经过大量后期出厂检测发现“不合格”产品和“合格”产品的某性能指标有明显差异,统计得到如图所示的“不合格”产品和“合格”产品该指标的频率分布直方图.利用该指标制定一个检测标准,需要确定临界值 ,将该指标大于的产品判定为“不合格”,小于或等于 的产品判定为“合格”.此检测标准的漏检率是将“不合格”产品判定为“合格”产品的概率,记为 ;错检率是将“合格”产品判定为“不合格”产品的概率,记为 .假设数据在组内均匀分布,以事件发生的频率作为相应事件发生的概率.(1)当漏检率时,求临界值和错检率 ;解:因为 ,所以 ,所以,解得 ,所以 .(2)设函数,当时,求 的解析式.解:当时, ,,此.当 时, , ,此时 .综上,微点2 独立性检验例2 [2024·宁夏石嘴山三模] 某市电信公司为了解当地市民对“亚运会”相关知识的认知程度,举办了一次“亚运会”网络知识竞赛,满分100分.现从参加了竞赛的男、女市民中各随机抽取100名市民的竞赛成绩作为样本进行数据分析,对这100名男市民的竞赛成绩进行统计后,得到如图所示的频率分布直方图.现规定成绩不低于80分的市民获得优秀奖,则女市民样本中获得优秀奖的人数占比为 .(1)根据题中信息完成如下列联表,依据小概率值 的独立性检验,是否可以认为该市市民在这次知识竞赛中是否获得优秀奖与性别有关联?性别 是否获得优秀奖 合计优秀奖 非优秀奖 男女合计单位:人解:因为,, ,所以抽取的男市民中获得优秀奖的人数为25,抽取的女市民中获得优秀奖的人数为5,可得如下 列联表:附:,其中 .0.1 0.05 0.01 0.005 0.0012.706 3.841 6.635 7.879 10.828零假设为 是否获得优秀奖与性别无关联.根据列联表中的数据,经计算得到,根据小概率值的独立性检验,我们推断 不成立,即认为该市市民在这次知识竞赛中是否获得优秀奖与性别有关联.性别 是否获得优秀奖 合计优秀奖 非优秀奖 男 25 75 100女 5 95 100合计 30 170 200单位:人(2)将样本分布的频率视为总体分布的概率,电信公司对在这次竞赛中获得优秀奖的市民每人将发放50元手机话费充值卡作为奖励.从该市所有参赛的市民中随机抽取10人,记电信公司发放的手机话费充值卡的总金额为元,求 的数学期望.解:由(1)可知,获奖的概率 ,设 为抽取的10人中获得优秀奖的市民人数,则 ,所以 ,因为,所以 .【规律提炼】独立性检验的求解策略:(1)理解独立性检验的意义.零假设为与无关联,求得的值,根据小概率值,比较与临界值的大小关系,从而判断是否成立.的值越大,与的相关程度越强.(2)有关结论的说法:比如若 ,根据小概率值的独立性检验,我们推断不成立,即认为与 有关联,此推断犯错误的概率不大于0.05;若 ,根据小概率值的独立性检验,没有充分证据推断 不成立,因此可以认为成立,即认为与 无关联.【巩固训练】为了解某地初中学生体育锻炼的时长与学业成绩的关系,从该地区29 000名初中学生中抽取580人,得到日均体育锻炼时长与学业成绩的数据如下表所示:日均体育锻炼时长/小时学业成绩优秀/人 5 44 42 3 1学业成绩不优秀/人 134 147 137 40 27(1)估计该地区29 000名初中学生中体育锻炼时长不少于1小时的人数;解:由表可知锻炼时长不少于1小时的人数占总人数的,则估计该地区29 000名学生中体育锻炼时长不少于1小时的人数为.(2)估计该地区初中学生日均体育锻炼时长的平均数(精确到 );(同一组数据用该组区间的中点值作代表)解:估计该地区初中学生的日均体育锻炼时长的平均数为.(3)依据小概率值 的独立性检验,是否可以认为学业成绩优秀与日均体育锻炼时长不小于1小时且小于2小时有关联?解:由题得列联表如下:单位:人学业成绩 日均体育锻炼时长 合计其他 优秀 45 50 95不优秀 177 308 485合计 222 358 580零假设为 该地区成绩优秀与日均体育锻炼时长不小于1小时且小于2小时无关联.根据列联表中数据,经计算得到,根据小概率值的独立性检验,我们推断 不成立,即认为学业成绩优秀与日均体育锻炼时长不小于1小时且小于2小时有关联.微点3 线性回归问题例3 [2024·陕西商洛模拟] 现阶段我国生活垃圾有填埋、焚烧、堆肥等三种处理方式,随着我国生态文明建设的不断深入,焚烧处理已逐渐成为主要方式,根据国家统计局公布的数据,对 年全国生活垃圾焚烧无害化处理厂的个数 进行统计,得到如下表格:年份 2013 2014 2015 2016 2017 2018 2019 20201 2 3 4 5 6 7 8166 188 220 249 286 331 389 463参考公式:样本相关系数 ;经验回归直线 的斜率和截距的最小二乘估计分别为, .参考数据:,, ,,,, .(1)根据表格中的数据,是否可用线性回归模型拟合与 的关系?请用样本相关系数加以说明(精确到 );解:由题知 , ,则样本相关系数,因为与的样本相关系数 ,接近于1,所以与 的线性相关程度很高,所以可用线性回归模型拟合与 的关系.(2)求出关于的经验回归方程(系数精确到 ),并预测2024年全国生活垃圾焚烧无害化处理厂的个数;解:由题可知 ,则 ,所以 .当时, ,所以预测2024年全国生活垃圾焚烧无害化处理厂的个数为595.(3)对于2035年全国生活垃圾焚烧无害化处理厂的个数,还能用(2)中所求的经验回归方程预测吗?请简要说明理由.解:对于2035年全国生活垃圾焚烧无害化处理厂的个数,不能由(2)所求的经验回归方程预测,理由如下(说出一点即可)①经验回归方程具有时效性,不能预测较远的情况;②全国生活垃圾焚烧无害化处理厂的个数有可能达到上限,一段时间内不再新建;③受政策的影响,可能产生新的生活垃圾无害化处理方式.【规律提炼】线性回归分析的求解策略:(1)理解线性回归分析的含义及相关概念.残差是观测值减去预测值所得的差;经验回归直线是应用最小二乘法确定的,能够最佳拟合已知数据规律的直线,可以依据经验回归直线进行预测相关数据;经验回归直线恒过点,问题的难点是公式的应用.(2)经验回归方程及相关系数的关系:任何一组数据都可以确定经验回归方程,但是两组数据是否满足线性相关关系,散点图很难准确判断,所以引入样本相关系数,, 越接近于1,线性相关程度越强,反之越弱;,则,正相关,反之 ,负相关, ,则两个数据满足线性函数关系.要注意样本相关系数公式与 公式有很大关联,求解过程中注意计算的灵活性.【巩固训练】为了促进地方经济的快速发展,国家鼓励地方政府实行积极灵活的人才引进政策,被引进的人才,可享受地方的福利待遇,发放高标准的安家补贴费和生活津贴.某市政府从本年度的1月份开始进行人才招聘工作,参加报名的人员通过笔试和面试两个环节的审查后,符合一定标准的人员才能被录用.现对该市 月份的报名人员人数和录用人才人数(单位:千人)进行统计,得到如下表格.月份 1月份 2月份 3月份 4月份3.5 5 6.5 70.2 0.33 0.4 0.47(1)建立关于 的经验回归方程;解:由题意得, ,所以 ,,所以关于的经验回归方程为 .附:经验回归直线 的斜率和截距的最小二乘估计分别为,;, .(2)假设该市对被录用的人才每人发放2万元的生活津贴,若该市5月份有8000名人员报名,试估计该市对5月份招聘的人才需要发放的生活津贴的总金额.解:将代入 ,得, (万元),故估计该市对5月份招聘的人才需要发放的生活津贴的总金额为1060万元.微点4 概率与统计的综合应用例4 [2024·辽宁抚顺模拟] 某兴趣小组调查并统计了某班学生期末考试中的数学成绩和建立个性化错题本的情况,用来研究这两者是否有关联.若从该班中随机抽取1名学生,设事件 “抽取的学生期末考试中的数学成绩不及格”,事件 “抽取的学生建立了个性化错题本”,则,, .(1)求和 ;解:因为,, ,所以,, .由,即,解得 ,所以 .由,即 ,解得 .(2)若该班级共有36名学生,请补充如下 列联表,依据小概率值 的独立性检验,是否可以认为学生期末考试中的数学成绩与是否建立个性化错题本有关联?单位:人个性化错题本 期末考试中的数学成绩 合计及格 不及格 建立未建立合计解: 列联表如下:单位:人个性化错题本 期末考试中的数学成绩 合计及格 不及格 建立 20 4 24未建立 4 8 12合计 24 12 36附:,其中 .0.01 0.005 0.0016.635 7.879 10.828根据列联表中的数据,经计算得到,根据小概率值的独立性检验,我们推断 不成立,即认为学生期末考试中的数学成绩与是否建立个性化错题本有关联.零假设为 期末考试中的数学成绩与是否建立个性化错题本无关联.(3)为进一步验证(2)中的判断,该兴趣小组准备在其他班中抽取一个容量为 的样本(假设根据新样本数据建立的列联表中,所有的数据都扩大为(2)中列联表中数据的 倍,且新列联表中的数据都为整数),若要使得在犯错误的概率不超过0.001的前提下可以肯定(2)中的判断,试确定 的最小值.附:,其中 .0.01 0.005 0.0016.635 7.879 10.828解:由题知,解得 .要使新列联表中的数据都为整数,则需,又因为,所以 的最小值为5,所以的最小值是 .【规律提炼】概率与统计的综合应用的求解策略:此类试题主要有三类:一是独立性检验与概率的综合应用;二是回归分析与概率的综合应用;三是独立性检验与回归分析的综合应用.一般来说两类知识内容的交叉点不是很多,因此求解此类试题的关键是能够准确求解相应知识模块的问题.【巩固训练】[2024·陕西安康模拟] 某乒乓球训练机构以培训青少年为主,其中有一项打定点训练,就是把乒乓球打到对方球台的指定位置(称为“准点球”),每周记录每个接受训练的学员在训练时打的所有球中“准点球”的百分比,学员已经训练了1年,下表记录了学员最近七周“准点球”的百分比.1 2 3 4 5 6 752 52.8 53.5 54 54.5 54.9 55.3参考公式和数据:对于一组数据,, , ,样本相关系数,在经验回归直线 中,,. ,,, ,, .(1)若,根据上表数据,计算与的样本相关系数 ,并说明与的线性相关性的强弱;(若,则认为与 线性相关性很强;若,则认为与 线性相关性一般;若,则认为与线性相关性较弱)(精确到 )解:由题可知 ,故与 的线性相关性很强.(2)求关于 的经验回归方程,并预测第9周“准点球”的百分比(精确到 );解:由题可知 ,,所以关于的经验回归方程为 .将代入得 ,当时, ,故预测第9周“准点球”的百分比为 .(3)若现在认为学员“准点球”的百分比为 ,并以此为概率,现让学员打3个球,以表示“准点球”的个数,求 的分布列及数学期望.解:现在学员任打1个球是“准点球”的概率 ,由题意得 ,则 ,, ,.所以 的分布列为0 1 2 3故 .1.统计与概率的综合问题,常常涉及较多的是独立性检验与条件概率、二项分布、超几何分布等,一般统计与概率的内容联系不大,因此具体问题中主要就应用概率的知识解决概率问题,应用统计的知识解决统计问题.例1 [2024·长沙一模] 某厂为了考察设备更新后的产品优质率,质检部门根据有放回简单随机抽样得到的样本测试数据制作了下表.优质品 非优质品更新前 24 16更新后 48 12(1)依据小概率值 的独立性检验,分析设备更新后能否提高产品优质率?附:,其中 .0.05 0.01 0.0013.841 6.635 10.828解:零假设为 设备更新与提高产品的优质率无关联,即设备更新前与更新后的产品优质率没有差异.由列联表中数据,经计算得到,根据小概率值 的独立性检验,我们可以推断 不成立,因此可以认为设备更新后能够提高产品优质率.(2)如果以这次测试中设备更新后的优质品频率作为更新后产品的优质率.质检部门再次从设备更新后的生产线中抽出5件产品进行核查,核查方案为:若这5件产品中至少有3件是优质品,则认为设备更新成功,提高了优质率;否则认为设备更新失败.①求经核查认定设备更新失败的概率 ;解:根据题意,设备更新后的优质率为0.8.可以认为从生产线中抽出的5件产品是否优质是相互独立的.设表示这5件产品中优质品的件数,则 ,可得.②根据 的大小解释核查方案是否合理.解:实际上设备更新后提高了优质率.当这5件产品中的优质品件数不超过2时,认为更新失败,此时作出了错误的判断,由于作出错误判断的概率很小,因此核查方案是合理的.例2 [2024·太原模拟] 贵州省“美丽乡村”篮球联赛在比赛间隙进行芦笙舞、侗族大歌等非物质文化遗产表演,这项活动将体育运动与当地民族民俗文化相融合,创造出独特的文体公共产品.为了打造更具吸引力的赛事,某平台发起了群众观赛意见反馈调查,共收回了200份调查问卷.性别 关注赛事 不关注赛事男 84 36女 40 40(1)通过进一步分析关注赛事群众的调查问卷得知,关注表演的女性用户有24名,现从关注赛事的群众中抽取1人,设“抽取的1人为男性”为事件,“抽取的1人关注表演”为事件 ,若 ,则以此次调查的数据为依据,从平台用户中任意抽取1名用户,则该用户关注表演的概率估计为多少 解:由题意可知,关注赛事的总人数为 ,其中男性有84人,女性有40人,女性中关注表演的有24人,则不关注表演的女性有16人.设在关注赛事的84名男性中,关注表演的有 人,则不关注表演的男性有 人,所以不关注表演的共有 人., ,由,得 ,解得 ,所以关注表演的男性有20人,即在样本中关注表演的共有44人,在样本中的比例为 .故从平台的所有用户中任意抽取一名用户,该用户关注表演的概率估计为0.22.(2)依据小概率值 的独立性检验,是否可以认为是否关注赛事与性别有关联?附:,其中 .0.05 0.01 0.005 0.0013.841 6.635 7.879 10.828解:由题意得 列联表如下:单位:人性别 是否关注赛事 合计关注赛事 不关注赛事 男 84 36 120女 40 40 80合计 124 76 200零假设为 是否关注赛事与性别无关联.根据列联表中的数据,经计算得到,根据小概率值的独立性检验,我们推断 不成立,即认为是否关注赛事与性别有关联.2.解决非线性回归分析问题主要就是换元,因此求解过程中要能够根据条件提醒,进行取对数或者直接换元求解.例3 [2024·重庆万州区模拟] 某公司为了解年研发资金 (单位:亿元)对年产值 (单位:亿元)的影响,对公司近8年的年研发资金和年产值 的数据对比分析中,选用了两个回归模型,并利用最小二乘法求得相应的关于 的经验回归方程分别为, .(1)求 的值;解:因为, ,所以,解得 .(2)已知①中的残差平方和 ,②中的残差平方和,请根据决定系数选择拟合效果更好的经验回归方程,并利用该经验回归方程预测年研发资金为20亿元时的年产值.参考数据:,, ,.参考公式:决定系数 .解:设经验回归方程①的决定系数为,由 ,得 ;设经验回归方程②的决定系数为,由 ,得 .因为 ,所以经验回归方程②的拟合效果更好.当时, ,所以估计年研发资金为20亿元时的年产值为295.02亿元.例4 红蜘蛛是柚子的主要害虫之一,能对柚子树造成严重伤害,每只红蜘蛛的平均产卵数(个)和平均温度 有关,现收集了以往某地的7组数据,得到下面的散点图及一些统计量的值.5215 17 713 714 27 81.3 3.6(1)根据散点图判断, 与(其中,,,均为常数, 为自然对数的底数)哪一个更适合作为平均产卵数关于平均温度 的回归模型?(给出判断即可,不必说明理由)解:由散点图可以判断,随着温度升高,产卵数增长速度变快,符合指数函数模型的增长,所以更适宜作为平均产卵数关于平均温度 的回归模型.(2)由(1)的判断结果及表中数据,求出 关于的经验回归方程.(计算结果精确到 )附:在经验回归方程中 ,, .解:将 两边同时取自然对数,得,则 .由题中的数据可得, ,,所以 ,则,所以关于的经验回归方程为,所以关于 的经验回归方程为 . 展开更多...... 收起↑ 资源预览