资源简介 微专题24 统计与成对数据的统计分析【考法探析·明规律】例1 (1)BD (2)C [解析] (1)对于A,这一组样本数据可取1,2,2,2,2,4,则2,2,2,2的平均数不等于1,2,2,2,2,4的平均数,故A错误;对于B,不妨设x2≤x3≤x4≤x5,则x2,x3,x4,x5的中位数为,而x1,x2,x3,x4,x5,x6的中位数也为,故B正确;对于C,根据题意可知,x1,x2,x3,x4,x5,x6的数据波动性大于x2,x3,x4,x5的数据波动性,故x2,x3,x4,x5的标准差小于x1,x2,x3,x4,x5,x6的标准差,故C错误;对于D,不妨设x2≤x3≤x4≤x5,则x1≤x2≤x3≤x4≤x5≤x6,故x5-x2≤x6-x1,故D正确.故选BD.(2)对于A,根据频数分布表可知,6+12+18=36<50,所以亩产量的中位数不小于1050 kg,故A错误;对于B,亩产量低于1100 kg的稻田所占比例为=66%,故B错误;对于C,设稻田亩产量的极差为t,则由题意知t<1200-900=300,且t>1150-950=200,即200自测题1.BD [解析] 由题意知(0.010+a+0.022+0.025+0.020+0.005)×10=1,解得a=0.018,故A错误;估计观众年龄的众数为=35,故B正确;估计观众年龄的平均数为5×0.1+15×0.18+25×0.22+35×0.25+45×0.2+55×0.05=29.2,故C错误;前3组的频率之和为(0.010+0.018+0.022)×10=0.50,前4组的频率之和为0.50+0.025×10=0.75,故第70百分位数位于第4组,设其为t,则(t-30)×0.025+0.50=0.70,解得t=38,即估计观众年龄的第70百分位数为38,故D正确.故选BD.2.C [解析] 甲同学的5个数据的中位数为22,众数为20,则数据中必有20,20,22,余下两个数据都大于22,且不相等,则所有数据一定都不小于20;当乙同学的5个数据为17,18,25,25,25时,满足5个数据的中位数为25,平均数为22,此时有小于20的数,不满足所有数据一定都不小于20;丙同学的5个数据的第40百分位数为22,极差为2,则5个数据由小到大排列后第二个数和第三个数只可能是22,22或21,23,由极差为2知,所有数据一定都不小于20;丁同学的5个数据中有一个数据为30,平均数为24,设其余4个数据依次为x1,x2,x3,x4,则方差s2=[36+(x1-24)2+(x2-24)2+(x3-24)2+(x4-24)2]=7.2+[(x1-24)2+(x2-24)2+(x3-24)2+(x4-24)2],假设x1,x2,x3,x4中有小于20的数,则s2≥7.2+5=12.2>10.8,与方差为10.8矛盾,因此x1,x2,x3,x4均不小于20,数据21,21,24,24,30可满足条件.综上可得,可以判断出所有数据一定都不小于20的同学为甲、丙、丁,共3位同学.故选C.例2 解:(1)由题得==30,==50,则r====≈≈-0.96.(2)由题得===≈-0.84,=-≈75.2,则y关于x的经验回归方程为=-0.84x+75.2.由-0.84x+75.2≤20,解得x≥,又≈65.7,所以满足条件的最低绿化覆盖率约为66%.自测题解:(1)作出散点图,如图所示.根据散点图判断,y=c·dx更适宜作为该团队月收入y与月份编号x之间的回归模型.由y=c·dx两边同时取常用对数得lg y=lg(c·dx)=lg c+x·lg d,设lg y=v,所以v=lg c+x·lg d.由题得=4,=vi=lg yi=×10.79≈1.54,=12+22+32+42+52+62+72=140,所以lg =≈==0.25,又1.54=lg +0.25×4,所以lg =0.54,则=0.54+0.25x,即lg =0.54+0.25x,所以y关于x的经验回归方程为=100.54+0.25x=3.47×100.25x.(2)当x=8时,=3.47×100.25×8=347,所以预测该团队下一个月的收入为347百万元.(3)不合理,经验回归方程一般具有时效性,解释变量接近样本数据,预测值比较可信,否则会有显著误差.例3 解:(1)超声波检查结果不正常者有200人,这200人中患该疾病的有180人,则P==.(2)零假设为H0:超声波检查结果与是否患该疾病无关联.经计算得到χ2==765.625>10.828=x0.001,根据小概率值α=0.001的独立性检验,我们推断H0不成立,即认为超声波检查结果与是否患该疾病有关联.自测题解:(1)补全2×2列联表如下.单位:人性别 “剪纸”课程 合计参加 不参加男 10 40 50女 20 30 50合计 30 70 100零假设为H0:是否参加“剪纸”课程与性别无关联,则χ2==≈4.762>3.841=x0.050,依据小概率值α=0.050的独立性检验,我们推断H0不成立,即认为是否参加“剪纸”课程与性别有关联,此推断犯错误的概率不大于0.050.(2)由题知,从该校女生中随机抽取1人,其参加“剪纸”课程的概率为P==, 则X~B, 所以E(X)=3×=.限时集训(二十四)1.C [解析] 根据题意,将8个数据从小到大排列,从8个原始评分中去掉1个最高分、1个最低分,得到6个有效评分,6个有效评分与8个原始评分相比,最中间的两个分数不变,而极差、平均数、标准差都有可能发生变化,因此一定不变的数字特征是中位数.故选C.2.C [解析] 由题得该校的一名学生在食堂一天的平均花费约为×20+×15=(元),所以该校的一名学生在食堂一个月(按30天)的平均花费约为×30=535(元).故选C.3.C [解析] 对于A,当x=30时,=28,与实际值相差较大,不符合题意,故A错误;对于B,当x=30时,=39,与实际值相差较大,不符合题意,故B错误;对于C,分别代入x=10,15,20,25,30,可得的估计值分别为54,46,40,36,32,估计值与实际值相等,符合题意,故C正确;对于D,当x=30时,=60-3(ln 2+ln 3+ln 5)≈49.8,与实际值相差较大,不符合题意,故D错误.故选C.4.C [解析] 图①的频率分布直方图是对称形态,所以平均数=中位数=众数,故A中结论正确;图②中众数最小,“右拖尾”形态的平均数大于中位数,则众数<中位数<平均数,故B中结论正确,C中结论错误;图③的众数最大,“左拖尾”形态的平均数小于中位数,则平均数<中位数<众数,故D中结论正确.故选C.5.C [解析] 由已知得数据x1,x2,x3,x4,x5,x6,t的平均数为=t,所以x1+x2+x3+x4+x5+x6=6t,=[(x1-t)2+(x2-t)2+(x3-t)2+(x4-t)2+(x5-t)2+(x6-t)2+(t-t)2]=[(x1-t)2+(x2-t)2+(x3-t)2+(x4-t)2+(x5-t)2+(x6-t)2],数据x1,x2,x3,x4,x5,x6的平均数为===t,=[(x1-t)2+(x2-t)2+(x3-t)2+(x4-t)2+(x5-t)2+(x6-t)2],因为(x1-t)2+(x2-t)2+(x3-t)2+(x4-t)2+(x5-t)2+(x6-t)2>0,所以<.故选C.6.ACD [解析] 由频率分布直方图得,成绩在[70,80)内的频率最高,∴估计学生成绩的众数为=75,故A正确;估计学生成绩的平均数为45×10×0.010+55×10×0.015+65×10×0.020+75×10×0.030+85×10×0.015+95×10×0.010=70.5,∵10×0.010+10×0.015+10×0.020=0.45,10×0.010+10×0.015+10×0.020+10×0.030=0.75,∴学生成绩的中位数在[70,80)内,设中位数为x,由0.45+0.030×(x-70)=0.5,解得x=≈71.7,∵70.5<71.7,∴估计学生成绩的平均数小于中位数,故B错误;由题得学生成绩不低于80分的频率为10×0.015+10×0.010=0.25,又成绩不低于80分的有300人,∴学生共有=1200(人),∵成绩在[90,100]内的频率为10×0.010=0.1,∴此次成绩在[90,100]内的学生有1200×0.1=120(人),故C正确;∵10×0.010+10×0.015+10×0.020=0.45,∴估计学生成绩的第45百分位数为70,故D正确.故选ACD.7.12 [解析] 由点(1,y1)在经验回归直线=x+上,且y1=2,可得2=×1+,解得=,所以经验回归方程为=x+.由点(,)在经验回归直线上,可得=+=×3+=,所以yi=5×=5×=12.8.[3,4] [解析] 因为5×0.75=3.75,且数据1,2,3,4,x的上四分位数是x,所以数据由小到大依次为1,2,3,x,4,故3≤x≤4,即实数x的取值范围是[3,4].9.解:(1)由频率分布直方图可知,(0.01+0.01+0.025+a+0.015+0.005)×10=1,解得a=0.035.因为第一小组[90,100)的频数为10,所以样本容量为=100.(2)由题意,估计所有参赛学生成绩的平均数为95×0.1+105×0.1+115×0.25+125×0.35+135×0.15+145×0.05=120.(3)因为样本容量为100,男生比女生多20人,所以女生人数为=40,男生人数为100-40=60.因为女生的获奖率为12.5%,所以女生中获奖人数为40×12.5%=5,则女生中未获奖人数为40-5=35.因为对考试成绩不小于130分的学生进行了奖励,成绩不小于130分的频率为0.15+0.05=0.2,所以样本中获奖总人数为0.2×100=20,所以男生中获奖人数为20-5=15,则男生中未获奖人数为60-15=45.填写2×2列联表如下:单位:人性别 奖励 合计获奖 未获奖男 15 45 60女 5 35 40合计 20 80 100零假设为H0:男生与女生的获奖情况不存在差异,则χ2=≈2.344<6.635=x0.01,依据小概率值α=0.01的独立性检验,我们推断H0成立,即认为男生与女生的获奖情况不存在差异.10.解:(1)因为ln xi=ui,所以=≈=18.6.由题得,==3.56,=≈=1.94.由=+得,3.56=18.6×1.94+,解得=-32.524,所以经验回归方程为=18.6ln x-32.524.(2)当x=9时,=18.6×ln 9-32.524≈18.6×2.2-32.524=8.396,故当汽油价格上涨至9元/升时,新能源汽车的销量约为8.396万辆.(3)由题知,X~B(5,0.6),所以E(X)=5×0.6=3,即X的数学期望为3.微专题24 统计与成对数据的统计分析微点1 众数、中位数、平均数、百分位数例1 (1)(多选题)[2023·新课标Ⅰ卷] 有一组样本数据x1,x2,…,x6,其中x1是最小值,x6是最大值,则 ( )A.x2,x3,x4,x5的平均数等于x1,x2,…,x6的平均数B.x2,x3,x4,x5的中位数等于x1,x2,…,x6的中位数C.x2,x3,x4,x5的标准差不小于x1,x2,…,x6的标准差D.x2,x3,x4,x5的极差不大于x1,x2,…,x6的极差(2)[2024·新课标Ⅱ卷] 某农业研究部门在面积相等的100块稻田上种植一种新型水稻,得到各块稻田的亩产量(单位:kg)都在[900,1200)内,并整理得到下表:亩产量 [900,950) [950,1000) [1000,1050) [1050,1100) [1100,1150) [1150,1200)频数 6 12 18 30 24 10根据表中数据,下列结论正确的是 ( )A.100块稻田亩产量的中位数小于1050 kgB.100块稻田中亩产量低于1100 kg的稻田所占比例超过80%C.100块稻田亩产量的极差介于200 kg到300 kg之间D.100块稻田亩产量的平均值介于900 kg到1000 kg之间[听课笔记] 自测题1.(多选题)[2025·山东滨州二模] 一团队从观看某电影的所有观众中随机抽取1000人作为样本,统计他们的年龄,并绘制如图所示的频率分布直方图,则 ( )A.a=0.019B.估计观众年龄的众数为35C.估计观众年龄的平均数为30.2D.估计观众年龄的第70百分位数为382.[2025·江西新八校联考] 甲、乙、丙、丁四位同学分别记录了5个正整数数据,根据下面四名同学的统计结果,可以判断出所有数据一定都不小于20的同学人数是 ( )甲同学:中位数为22,众数为20;乙同学:中位数为25,平均数为22;丙同学:第40百分位数为22,极差为2;丁同学:有一个数据为30,平均数为24,方差为10.8. A.1 B.2C.3 D.4微点2 回归模型例2 某环保机构研究城市绿化覆盖率(%)和PM2.5年平均浓度(μg/m3)的关系,随机抽取了10个城市的数据如下:编号i 1 2 3 4 5 6 7 8 9 10 总和绿化覆盖率xi 4 13 16 21 26 31 36 45 52 56 300PM2.5年平均浓度yi 80 66 58 54 50 46 42 38 34 32 500可得=11 680,=27 040,xiyi=12 748.(1)求绿化覆盖率与PM2.5年平均浓度的样本相关系数(精确到0.01);(2)求y关于x的经验回归方程(精确到0.01,精确到0.1),并估计使得PM2.5年平均浓度不超过20 μg/m3需要的最低绿化覆盖率(精确到整数).附:≈2338;样本相关系数r=;经验回归方程=x+中,=,=-.【规律提炼】1.(1)正确理解计算,的公式和准确地计算是求经验回归方程的关键;(2)经验回归直线=x+必过点(,).2.(1)在分析两个变量的相关关系时,可根据样本数据作出散点图来判断两个变量之间是否具有线性相关关系,若具有线性相关关系,则可通过经验回归方程来估计和预测;(2)对于非线性回归分析问题,应先进行变量代换,求出代换后的经验回归方程,再求非线性经验回归方程.自测题[2025·泉州模拟] 某团队从2024年10月份以来,通过深度整合AI算法、大数据分析和自动化技术,不断优化产品与服务,显著提升了运营效率和市场竞争力,推动团队收入持续攀升.该团队在近7个月的月收入(单位:百万元)的数据如下表.月份编号x 1 2 3 4 5 6 7月收入y(百万元) 6 11 21 34 66 101 196(1)根据以上数据在如图所示的坐标系中绘制散点图,并根据散点图判断y=ax+b与y=c·dx(a,b,c,d均为大于零的常数,d≠1)哪一个更适宜作为该团队月收入y与月份编号x之间的回归模型(给出判断即可,不必说明理由) 并根据你的判断结果及表中的数据,求出y关于x的经验回归方程.(2)请你根据所求的经验回归方程,预测该团队下一个月的收入.(3)试从统计学角度分析,如果用所求的经验回归方程预测该团队接下来2年的经济收入情况是否合理 参考数据:yi vi xiyi xivi 100.45 100.54435 10.79 2535 50.12 2.82 3.47其中v=lg y,vi=lg yi.参考公式:经验回归方程=x+中,=,=-.微点3 独立性检验例3 [2025·全国一卷] 为研究某疾病与超声波检查结果的关系,从做过超声波检查的人群中随机调查了1000人,得到如下列联表:单位:人是否患病 超声波检查结果 合计正常 不正常患该疾病 20 180 200未患该疾病 780 20 800合计 800 200 1000(1)记超声波检查结果不正常者患该疾病的概率为P,求P的估计值;(2)根据小概率值α=0.001的独立性检验,分析样本数据中超声波检查结果与是否患该疾病是否有关联.附:χ2=,n=a+b+c+d.α 0.050 0.010 0.001xα 3.841 6.635 10.828【规律提炼】1.变量相关性的判断:在2×2列联表中,若两个变量没有关系,则应满足ad-bc≈0.|ad-bc|越小,说明两个变量之间关系越弱;|ad-bc|越大,说明两个变量之间关系越强.2.独立性检验的应用问题的解题策略解决独立性检验的应用问题,一定要按照独立性检验的步骤得出结论.独立性检验的一般步骤:(1)根据样本数据制成2×2列联表;(2)根据公式χ2=,n=a+b+c+d计算χ2;(3)通过比较χ2与临界值的大小关系得出统计推断.自测题[2025·河南九师联盟二模] 某校开设校本课程“剪纸”,为了解学生是否参加该课程与性别的关联性,用简单随机抽样的方法分别从男生和女生中各抽取了50名学生进行调查,得到如下2×2列联表:单位:人性别 “剪纸”课程 合计参加 不参加男 10女 30 50合计(1)补全2×2列联表,并依据小概率值α=0.050的独立性检验,分析是否参加“剪纸”课程与性别是否有关联;(2)以样本估计总体,且以频率估计概率,若从该校女生中随机抽取3人,记其中参加“剪纸”课程的人数为X,求X的期望.附:χ2=,其中n=a+b+c+d.α 0.050 0.010 0.005xα 3.841 6.635 7.879限时集训(二十四) 微专题24 统计与成对数据的统计分析1.[2025·苏锡常镇四市调研] 诗歌朗诵比赛共有8位评委分别给出某选手的原始评分,评定该选手的成绩时,从8个原始评分中去掉1个最高分和1个最低分,得到6个有效评分,6个有效评分与8个原始评分相比,一定不变的数字特征是 ( ) A.极差 B.平均数C.中位数 D.标准差2.学校有男生850人,女生650人,为调查学生在食堂的平均花费,按男生、女生进行分层,通过比例分配的分层随机抽样的方法得到样本中男生一天花费在20元左右,女生一天花费在15元左右,则该校的一名学生在食堂一个月(按30天)的平均花费约为 ( )A.600元 B.450元C.535元 D.480元3.[2025·河北张家口二模] 商品价格与销量之间往往存在某种关系,以下是某商品的价格x(单位:元/件)与销量y(单位:万件)的调研数据.价格x(元/件) 10 15 20 25 30销量y(万件) 54 46 40 36 32则下面四个经验回归方程中最适宜作为销量y与价格x的经验回归方程的是(参考数据:ln 2≈0.7,ln 3≈1.1,ln 5≈1.6) ( )A.=-1.4x+70 B.=-0.7x+60C.=100-20ln x D.=60-3ln x4.如图所示的频率分布直方图显示了三种不同的形态.图①形成对称形态,图②形成“右拖尾”形态,图③形成“左拖尾”形态,给出以下结论,其中不正确的是 ( )A.图①的平均数=中位数=众数B.图②的众数<中位数<平均数C.图②的平均数<众数<中位数D.图③的平均数<中位数<众数5.[2025·湖南永州二模] 已知互不相等的数据x1,x2,x3,x4,x5,x6,t的平均数为t,方差为,数据x1,x2,x3,x4,x5,x6的方差为,则 ( )A.>B. =C.<D. 与的大小关系无法判断6.(多选题)[2025·山东德州三模] 某学校对一次高二联考物理成绩进行统计分析,记录了学生的分数,将分数按[40,50),[50,60),[60,70),[70,80),[80,90),[90,100]分为六组,画出如图所示的频率分布直方图,已知成绩不低于80分的有300人,则下列结论正确的是 ( )A.估计学生成绩的众数为75B.估计学生成绩的平均数大于中位数C.此次成绩在[90,100]内的学生有120人D.估计学生成绩的第45百分位数为707.已知变量y与x线性相关,由样本点(1,y1),(2,y2),(3,y3),(4,y4),(5,y5)求得的经验回归方程为=x+,若点(1,y1)在经验回归直线上,且y1=2,=3,则yi= . 8.已知一组数据1,2,3,4,x的上四分位数是x,则x的取值范围为 . 9.[2025·聊城一模] 某学校为了调动学生学习数学的积极性,在高二年级举行了一次数学有奖竞赛,对考试成绩优秀(即考试成绩不小于130分)的学生进行了奖励.学校为了掌握考试情况,随机抽取了部分学生的考试成绩,并以此为样本,将成绩按[90,100),[100,110),…,[140,150]分成六组,制作了如图所示的频率分布直方图.已知第一小组[90,100)的频数为10.(1)求a的值和样本容量;(2)估计所有参赛学生成绩的平均数;(3)假设在抽取的样本中,男生比女生多20人,女生的获奖率为12.5%,填写下列2×2列联表,并依据小概率值α=0.01的独立性检验,判断男生与女生的获奖情况是否存在差异 单位:人性别 奖励 合计获奖 未获奖男女合计附:χ2=,其中n=a+b+c+d.α 0.05 0.01 0.001xα 3.841 6.635 10.82810.[2025·山东烟台三模] 近年来,新能源汽车因其动力充沛、提速快、用车成本低等特点得到民众的追捧.某机构为研究汽油价格x(单位:元/升)与新能源汽车的月销售量y(单位:万辆)之间的关系,收集整理得到如下数据:x 6 6.5 7 7.5 8y 1.5 2 3 4.5 6.8(1)若用模型y=bln x+a拟合x与y之间的关系,求出经验回归方程;(2)根据(1)中的经验回归方程,预测当汽油价格上涨至9元/升时,新能源汽车的销量;(3)假设当汽油价格为9元/升时,实际销量超过预测值的概率为0.6,现进行5次独立观测,记这5次观测中销量超过预测值的次数为X,求X的数学期望.附:ln 3≈1.1,(xi-)(yi-)=6.55,(xi-)2=2.5.ui≈9.7,(ui-)(yi-)≈0.93,(ui-)2≈0.05,其中ln xi=ui.在利用最小二乘法求得的经验回归方程=x+中,=,=-.(共64张PPT)微专题24 统计与成对数据的统计分析微点1 众数、中位数、平均数、百分位数微点2 回归模型微点3 独立性检验◆◆考法探析·明规律备用习题【考情分析】考查 内容 考题统计 考情分析 必备知识统计图 表、方 差、平 均数、 中位数 2025年Ⅱ卷1;2024 年Ⅱ卷4;2023年Ⅰ 卷9;2023年Ⅱ卷 19;2022年Ⅱ卷 19;2021年Ⅱ卷9 高考对统计的考 查以小题居多, 前几年多与图表 结合考查,以分 析数据为主,近 年与图结合考查 较少,但仍与实 际结合考查 1.随机抽样:抽样调查、简单随机抽样、分层随机抽样.2.用样本估计总体:频率分布直方图、百分位数、样本的数字特征及含义.考查 内容 考题统计 考情分析 必备知识经验回 归方程 较少考查 3.成对数据的统计分析:两个变量的线性相关、回归分析与经验回归方程、残差分析、独立性检验独立性 检验 2025年Ⅰ卷15; 2022年Ⅰ卷20 高考对本考点考 查难度不大,一 般以结合考查居 多,关注计算的 准确性续表微点1 众数、中位数、平均数、百分位数例1(1)(多选题)[2023· 新课标Ⅰ卷]有一组样本数据, ,,,其中是最小值, 是最大值,则( )A.,,,的平均数等于,, , 的平均数B.,,,的中位数等于,, , 的中位数C.,,,的标准差不小于,, , 的标准差D.,,,的极差不大于,, , 的极差√√[解析] 对于A,这一组样本数据可取1,2,2,2,2,4,则2,2,2,2的平均数不等于1,2,2,2,2,4的平均数,故A错误;对于B,不妨设,则,,,的中位数为,而,,,,,的中位数也为 ,故B正确;对于C,根据题意可知,,,,,,的数据波动性大于,,,的数据波动性,故,,,的标准差小于,,,,, 的标准差,故C错误;对于D,不妨设,则 ,故,故D正确.故选 .(2)[2024· 新课标Ⅱ卷]某农业研究部门在面积相等的100块稻田上种植一种新型水稻,得到各块稻田的亩产量(单位: )都在内,并整理得到下表:亩产 量频数 6 12 18 30 24 10根据表中数据,下列结论正确的是( )A.100块稻田亩产量的中位数小于B.100块稻田中亩产量低于的稻田所占比例超过C.100块稻田亩产量的极差介于到 之间D.100块稻田亩产量的平均值介于到 之间√[解析] 对于A,根据频数分布表可知, ,所以亩产量的中位数不小于 ,故A错误;对于B,亩产量低于的稻田所占比例为 ,故B错误;对于C,设稻田亩产量的极差为,则由题意知 ,且,即 ,故C正确;对于D,100块稻田亩产量的平均值为,故D错误.故选C.自测题1.(多选题)[2025·山东滨州二模]一团队从观看某电影的所有观众中随机抽取1000人作为样本,统计他们的年龄,并绘制如图所示的频率分布直方图,则( )A.B.估计观众年龄的众数为35C.估计观众年龄的平均数为30.2D.估计观众年龄的第70百分位数为38√√[解析] 由题意知 ,解得 ,故A错误;估计观众年龄的众数为,故B正确;估计观众年龄的平均数为 ,故C错误;前3组的频率之和为 ,前4组的频率之和为 ,故第70百分位数位于第4组,设其为,则,解得 ,即估计观众年龄的第70百分位数为38,故D正确.故选 .2.[2025·江西新八校联考]甲、乙、丙、丁四位同学分别记录了5个正整数数据,根据下面四名同学的统计结果,可以判断出所有数据一定都不小于20的同学人数是( )甲同学:中位数为22,众数为20;乙同学:中位数为25,平均数为22;丙同学:第40百分位数为22,极差为2;丁同学:有一个数据为30,平均数为24,方差为10.8.A.1 B.2 C.3 D.4√[解析] 甲同学的5个数据的中位数为22,众数为20,则数据中必有20,20,22,余下两个数据都大于22,且不相等,则所有数据一定都不小于20;当乙同学的5个数据为17,18,25,25,25时,满足5个数据的中位数为25,平均数为22,此时有小于20的数,不满足所有数据一定都不小于20;丙同学的5个数据的第40百分位数为22,极差为2,则5个数据由小到大排列后第二个数和第三个数只可能是22,22或21,23,由极差为2知,所有数据一定都不小于20;丁同学的5个数据中有一个数据为30,平均数为24,设其余4个数据依次为,,则方差,假设,,, 中有小于20的数,则,与方差为10.8矛盾,因此,,, 均不小于20,数据21,21,24,24,30可满足条件.综上可得,可以判断出所有数据一定都不小于20的同学为甲、丙、丁,共3位同学.故选C.微点2 回归模型例2 某环保机构研究城市绿化覆盖率和 年平均浓度的关系,随机抽取了10个城市的数据如下:编号 1 2 3 4 5 6 7 8 9 10 总和绿化覆盖率 4 13 16 21 26 31 36 45 52 56 300年平均浓度 80 66 58 54 50 46 42 38 34 32 500可得,, .解:由题得, ,则 .(1)求绿化覆盖率与 年平均浓度的样本相关系数(精确到 );例2 某环保机构研究城市绿化覆盖率和 年平均浓度的关系,随机抽取了10个城市的数据如下:编号 1 2 3 4 5 6 7 8 9 10 总和绿化覆盖率 4 13 16 21 26 31 36 45 52 56 300年平均浓度 80 66 58 54 50 46 42 38 34 32 500可得,, .(2)求关于的经验回归方程精确到,精确到 ,并估计使得年平均浓度不超过 需要的最低绿化覆盖率(精确到整数).附:;样本相关系数 ;经验回归方程中,, .解:由题得 ,,则关于的经验回归方程为 .由,解得,又 ,所以满足条件的最低绿化覆盖率约为 .【规律提炼】1.(1)正确理解计算,的公式和准确地计算是求经验回归方程的关键;(2)经验回归直线必过点.2.(1)在分析两个变量的相关关系时,可根据样本数据作出散点图来判断两个变量之间是否具有线性相关关系,若具有线性相关关系,则可通过经验回归方程来估计和预测;(2)对于非线性回归分析问题,应先进行变量代换,求出代换后的经验回归方程,再求非线性经验回归方程.自测题[2025·泉州模拟] 某团队从2024年10月份以来,通过深度整合 算法、大数据分析和自动化技术,不断优化产品与服务,显著提升了运营效率和市场竞争力,推动团队收入持续攀升.该团队在近7个月的月收入(单位:百万元)的数据如下表.月份编号 1 2 3 4 5 6 7月收入 (百万元) 6 11 21 34 66 101 196(1)根据以上数据在如图所示的坐标系中绘制散点图,并根据散点图判断与,,, 均为大于零的常数,哪一个更适宜作为该团队月收入与月份编号 之间的回归模型(给出判断即可,不必说明理由)?并根据你的判断结果及表中的数据,求出关于 的经验回归方程.解:作出散点图,如图所示.根据散点图判断, 更适宜作为该团队月收入 与月份编号之间的回归模型.由 两边同时取常用对数得 ,设,所以 .由题得 , ,,所以,又 ,所以 ,则 ,即 ,所以关于 的经验回归方程为 .[2025·泉州模拟] 某团队从2024年10月份以来,通过深度整合 算法、大数据分析和自动化技术,不断优化产品与服务,显著提升了运营效率和市场竞争力,推动团队收入持续攀升.该团队在近7个月的月收入(单位:百万元)的数据如下表.月份编号 1 2 3 4 5 6 7月收入 (百万元) 6 11 21 34 66 101 196(2)请你根据所求的经验回归方程,预测该团队下一个月的收入.解:当时, ,所以预测该团队下一个月的收入为347百万元.[2025·泉州模拟] 某团队从2024年10月份以来,通过深度整合 算法、大数据分析和自动化技术,不断优化产品与服务,显著提升了运营效率和市场竞争力,推动团队收入持续攀升.该团队在近7个月的月收入(单位:百万元)的数据如下表.月份编号 1 2 3 4 5 6 7月收入 (百万元) 6 11 21 34 66 101 196(3)试从统计学角度分析,如果用所求的经验回归方程预测该团队接下来2年的经济收入情况是否合理?参考数据:其中, .参考公式:经验回归方程中,, .435 10.79 2535 50.12 2.82 3.47解:不合理,经验回归方程一般具有时效性,解释变量接近样本数据,预测值比较可信,否则会有显著误差.微点3 独立性检验例3 [2025· 全国一卷] 为研究某疾病与超声波检查结果的关系,从做过超声波检查的人群中随机调查了1000人,得到如下列联表:单位:人是否患病 超声波检查结果 合计正常 不正常患该疾病 20 180 200未患该疾病 780 20 800合计 800 200 1000(1)记超声波检查结果不正常者患该疾病的概率为,求 的估计值;解:超声波检查结果不正常者有200人,这200人中患该疾病的有180人,则 .例3 [2025· 全国一卷] 为研究某疾病与超声波检查结果的关系,从做过超声波检查的人群中随机调查了1000人,得到如下列联表:单位:人是否患病 超声波检查结果 合计正常 不正常患该疾病 20 180 200未患该疾病 780 20 800合计 800 200 1000(2)根据小概率值 的独立性检验,分析样本数据中超声波检查结果与是否患该疾病是否有关联.附:, .0.050 0.010 0.0013.841 6.635 10.828解:零假设为 超声波检查结果与是否患该疾病无关联.经计算得到,根据小概率值的独立性检验,我们推断 不成立,即认为超声波检查结果与是否患该疾病有关联.【规律提炼】1.变量相关性的判断:在列联表中,若两个变量没有关系,则应满足越小,说明两个变量之间关系越弱;越大,说明两个变量之间关系越强.2.独立性检验的应用问题的解题策略解决独立性检验的应用问题,一定要按照独立性检验的步骤得出结论.独立性检验的一般步骤:(1)根据样本数据制成 列联表;(2)根据公式,计算 ;(3)通过比较 与临界值的大小关系得出统计推断.自测题[2025·河南九师联盟二模] 某校开设校本课程“剪纸”,为了解学生是否参加该课程与性别的关联性,用简单随机抽样的方法分别从男生和女生中各抽取了50名学生进行调查,得到如下 列联表:单位:人性别 “剪纸”课程 合计参加 不参加男 10女 30 50合计(1)补全列联表,并依据小概率值 的独立性检验,分析是否参加“剪纸”课程与性别是否有关联;解:补全 列联表如下.单位:人性别 “剪纸”课程 合计参加 不参加男 10 40 50女 20 30 50合计 30 70 100零假设为 是否参加“剪纸”课程与性别无关联,则 ,依据小概率值的独立性检验,我们推断 不成立,即认为是否参加“剪纸”课程与性别有关联,此推断犯错误的概率不大于0.050.[2025·河南九师联盟二模] 某校开设校本课程“剪纸”,为了解学生是否参加该课程与性别的关联性,用简单随机抽样的方法分别从男生和女生中各抽取了50名学生进行调查,得到如下 列联表:单位:人性别 “剪纸”课程 合计参加 不参加男 10女 30 50合计(2)以样本估计总体,且以频率估计概率,若从该校女生中随机抽取3人,记其中参加“剪纸”课程的人数为,求 的期望.附:,其中 .0.050 0.010 0.0053.841 6.635 7.879解:由题知,从该校女生中随机抽取1人,其参加“剪纸”课程的概率为,则,所以 .[备选理由]例1是按比例分配的分层随机抽样的统计问题,涉及均值和方差的计算,突出“按比例分配的分层随机抽样统计量的综合应用”这个核心,考查了学生对按比例分配的分层随机抽样的方差公式的理解和应用;例2是线性回归的实际应用题,要求计算样本相关系数并建立预测模型,强调“线性回归建模全过程”和“实际应用”两个关键点;例3的综合性很强,包含均值计算、独立性检验和概率分布三部分,体现了“统计与概率的综合”这一特点.例1 [配例1使用](多选题)[2025·昆明三诊]某校有男生 人,女生人,且男生身高的均值为,方差为,女生身高的均值为 ,方差为,全体学生身高的均值和方差分别为, ,则下列说法一定正确的是( )A.若,则 B.若,则C.若,则 D.若,则√√√[解析] 对于选项A,若 ,则全体学生身高的均值,故A正确;对于选项B,若,则 ,故B正确;对于选项C,由题得 ,当时,由A选项可知 ,代入①式可得,当,,时, ,故C错误;对于选项D,当时,由B可知 ,代入①式并化简可得 ,恒成立,故D正确.故选 .例2 [配例2使用][2025·河南洛阳模拟] 某电商对其旗下的一家专营店近五年来每年的利润(单位:万元)与时间(表示第 年)进行了统计得如下数据:时间 1 2 3 4 5利润 (万元) 2.6 3.1 4.5 6.8 8.0(1)依据表中给出的数据,是否可用线性回归模型拟合与 的关系?请计算样本相关系数并加以说明(计算结果精确到 ).(若 ,则线性相关程度很强,可用线性回归模型拟合)解:由题得, ,,所以 ,故与 的线性相关程度很强,可以用线性回归模型拟合.例2 [配例2使用][2025·河南洛阳模拟] 某电商对其旗下的一家专营店近五年来每年的利润(单位:万元)与时间(表示第 年)进行了统计得如下数据:(2)试用最小二乘法求出利润关于时间 的经验回归方程,并预测当 时的利润.时间 1 2 3 4 5利润 (万元) 2.6 3.1 4.5 6.8 8.0附:样本相关系数 ;经验回归方程中, ,.参考数据:, ,, .解:由题得 ,,所以 .当时, ,故预测该专营店在 时的利润为10.8万元.例3 [配例3使用][2025·河南驻马店联考] 某工厂为了解员工绩效分数达标情况与员工性别的关系,随机对该厂男、女各30名员工的绩效分数达标情况进行调查,整理得到如下 列联表:单位:人性别 绩效分数达标情况 合计未达标 达标男 20 10 30女 5 25 30合计 25 35 60(1)经计算,所调查的男员工绩效分数的平均数 ,女员工绩效分数的平均数,求这60人绩效分数的平均数 .解:由题意可知, .例3 [配例3使用][2025·河南驻马店联考] 某工厂为了解员工绩效分数达标情况与员工性别的关系,随机对该厂男、女各30名员工的绩效分数达标情况进行调查,整理得到如下 列联表:单位:人性别 绩效分数达标情况 合计未达标 达标男 20 10 30女 5 25 30合计 25 35 60(2)根据列联表中的数据,依据小概率值 的独立性检验,能否认为绩效分数达标情况与性别有关联?解:零假设为 绩效分数达标情况与性别无关联.经计算得 ,根据小概率值的独立性检验,我们推断 不成立,即认为绩效分数达标情况与性别有关联,此推断犯错误的概率不大于0.001.例3 [配例3使用][2025·河南驻马店联考] 某工厂为了解员工绩效分数达标情况与员工性别的关系,随机对该厂男、女各30名员工的绩效分数达标情况进行调查,整理得到如下 列联表:单位:人性别 绩效分数达标情况 合计未达标 达标男 20 10 30女 5 25 30合计 25 35 60(3)该厂为激励员工,规定每月绩效分数的第一名奖励1千元,其他名次无奖励.甲为该厂员工,他在工厂开工的第一个月赢得奖励的概率为 ,从第二个月开始,若上个月没有赢得奖励,则这个月赢得奖励的概率为 ;若上个月赢得奖励,则这个月仍赢得奖励的概率为,求甲在前两个月所得奖金总额 (单位:千元)的分布列和数学期望.附:0.1 0.01 0.0012.706 6.635 10.828参考公式:,其中 .解:由题意知 的可能取值为0,1,2,,,,所以 的分布列为X 0 1 2P故 . 展开更多...... 收起↑ 资源列表 02 微专题24 统计与成对数据的统计分析 【正文】作业.docx 02 微专题24 统计与成对数据的统计分析 【正文】听课.docx 02 微专题24 统计与成对数据的统计分析 【答案】作业.docx 02 微专题24 统计与成对数据的统计分析 【答案】听课.docx 02-微专题24 统计与成对数据的统计分析.pptx