资源简介 第九章 统计与成对数据的统计分析第一节 随机抽样、统计图表1.会用简单随机抽样的方法从总体中抽取样本,了解分层随机抽样.2.能根据实际问题的特点选择恰当的统计图表,体会使用统计图表的重要性.问题思考·夯实技能【问题1】 简单随机抽样与分层随机抽样有什么共同特点和适用范围?【问题2】 频率分布直方图中小长方形的高表示该组上的个体在样本中出现的频率对吗?关键能力·题型剖析题型一 抽样方法例 1 (1)(多选)下列抽样方法是简单随机抽样的是( )A.质检员从50个零件中逐个抽取5个做质量检验B.“隔空不隔爱,停课不停学”,网课上,李老师在全班45名学生中点名表扬了3名发言积极的C.老师要求学生从实数集中逐个抽取10个分析奇偶性D.某运动员从8条跑道中随机抽取一条跑道试跑(2)[2024·山东枣庄模拟]在北京冬奥会期间,共有1.8万多名赛会志愿者和20余万人次城市志愿者参与服务.据统计某高校共有本科生1 600人,硕士生600人,博士生200人申请报名做志愿者,现用分层抽样方法从中抽取博士生30人,则该高校抽取的志愿者总人数为( )A.300 B.320 C.340 D.360题后师说(1)简单随机抽样需满足:①被抽取的样本总体的个体数有限;②逐个抽取;③等可能抽取.(2)在使用随机数表时,如遇到取两位数或三位数,可从选择的随机数表中的某行的数字计起,每两个或三个作为一个单位,自左向右选取,有超过总体号码或出现重复号码的数字舍去.(3)在分层随机抽样中,抽样比==.巩固训练1(1)[2024·河南襄城模拟]现有300名老年人,500名中年人,400名青年人,从中按比例用分层随机抽样的方法抽取n人,若抽取的老年人与青年人共21名,则n的值为( )A.15 B.30 C.32 D.36(2)[2024·安徽六安模拟]将60个个体按照01,02,03,…,60进行编号,然后从随机数表的第9行第9列开始向右读数(下表为随机数表的第8行和第9行)63 01 63 78 59 16 95 55 67 19 98 10 50 71 7512 86 73 58 07 44 39 52 38 7933 21 12 34 29 78 64 56 07 82 52 42 07 44 3815 51 00 13 42 99 66 02 79 54则抽取的第11个个体的编号是________.题型二 统计图表角度一 扇形图、条形图例 2 [2024·河南开封模拟]某学校组建了演讲、舞蹈、合唱、绘画、英语协会五个社团,全校2 000名学生每人都参加且只参加其中两个社团,校团委从这2 000名学生中随机选取部分学生进行调查,并将调查结果绘制成如下不完整的两个统计图:则选取的学生中,参加绘画社团的学生数为( )A.20 B.30 C.40 D.45题后师说(1)通过扇形图可以很清楚地表示出各部分数量同总数之间的关系.(2)条形图直观描述不同类别或分组数据的频数.角度二 折线图例 3 (多选)[2024·河北邯郸模拟]如图为2022年2月至2023年2月建筑业和服务业的商务活动指数,该指数等于50%反映该行业经济与上月比较无变化,大于50%反映该行业经济比上月总体上升,小于50%反映该行业经济比上月总体下降,则下列说法正确的是( )A.2022年9月至12月服务业经济持续下降B.2022年9月至12月建筑业经济持续下降C.2022年5月建筑业经济上升幅度最小D.2023年2月服务业经济上升幅度最大题后师说折线图可以显示随时间(根据常用比例放置)而变化的连续数据,因此非常适用于显示在相等时间间隔下数据变化的趋势.角度三 频率分布直方图例 4 某校为了解学生学习的效果,进行了一次摸底考试,从中选取60名学生的成绩,分成[40,50),[50,60),[60,70),[70,80),[80,90),[90,100]六组后,得到不完整的频率分布直方图如图所示,观察图形,回答下列问题:(1)求分数在区间[70,80)内的频率,并补全这个频率分布直方图;(2)根据评奖规则,排名在前10%的学生可以获奖,请你估计获奖的学生至少需要多少分?题后师说(1)频率分布直方图中纵轴上的数据是各组的频率除以组距的结果,不要误以为纵轴上的数据是各组的频率,不要和条形图混淆.(2)频率分布直方图中各小长方形的面积之和为1,这是解题的关键,常利用频率分布直方图估计总体分布.巩固训练2(1)某市商品房调查机构随机抽取n名市民,针对其居住的户型结构和是否满意进行了调查,如图1,被调查的所有市民中二居室住户共100户,所占比例为,四居室住户占.如图2,这是用分层抽样的方法从所有被调查的市民对户型是否满意的问卷中,抽取20%的调查结果绘制成的统计图,则下列说法错误的是( )A.n=450B.被调查的所有市民中四居室住户共有150户C.用分层抽样的方法抽取的二居室住户有20户D.用分层抽样的方法抽取的市民中对三居室满意的有10户(2)[2024·辽宁葫芦岛模拟]采购经理指数(PMI),是通过对企业采购经理的月度调查结果统计汇总、编制而成的指数,它涵盖了企业采购、生产、流通等各个环节,包括制造业和非制造业领域,是国际上通用的检测宏观经济走势的先行指数之一,具有较强的预测、预警作用.制造业PMI高于50%时,反映制造业较上月扩张;低于50%,则反映制造业较上月收缩.下图为我国2022年1月~2023年6月制造业采购经理指数(PMI)统计图.根据统计图分析,下列结论最恰当的一项为( )A.2022年第一、二季度的各月制造业在逐月扩张B.2022年第四季度各月制造业在逐月扩张C.2023年1月至4月制造业逐月收缩D.2023年4月开始制造业景气水平呈恢复性扩张(3)某学校为了调查学生生活方面的日支出情况,抽出了一个容量为n的样本,将数据按[20,30),[30,40),[40,50),[50,60),[60,70]分成5组,制定成如图所示的频率分布直方图,则a=__________.要从日支出在[50,70]的样本中用分层抽样的方法抽取10人,则日支出在[60,70]中被抽取的人数为__________.1.[2024·河北秦皇岛模拟]为实现乡村生态振兴,走乡村绿色发展之路,乡政府采用按比例分层抽样的方式从甲村和乙村抽取部分村民参与环保调研,已知甲村和乙村人数之比是3∶1,被抽到的参与环保调研的村民中,甲村的人数比乙村多8人,则参加调研的总人数是( )A.16 B.24C.32 D.402.[2024·河南郑州模拟]为了树立和践行绿水青山就是金山银山的理念,A市某高中全体教师于2023年3月12日开展植树活动,购买柳树、银杏、梧桐、樟树四种树苗共计600棵,比例如图所示.青年教师、中年教师、老年教师报名参加植树活动的人数之比为5∶3∶2,若每种树苗均按各年龄段报名人数的比例进行分配,则中年教师应分得梧桐的数量为( )A.30棵 B.50棵C.72棵 D.80棵3.要调查某地区高中学生身体素质,从高中生中抽取100人进行跳远测试,根据测试成绩制作频率分布直方图如图,现从成绩在[120,140)之间的学生中用分层抽样的方法抽取5人,应从[120,130)间抽取人数为b,则( )A.a=0.025,b=2B.a=0.025,b=3C.a=0.030,b=4D.a=0.030,b=34.[2024·河北唐山模拟]为了解一个鱼塘中养殖鱼的生长情况,从这个鱼塘多个不同位置捕捞出100条鱼,分别做上记号,再放回鱼塘,几天后,再从鱼塘的多处不同位置捕捞出120条鱼,发现其中带有记号的鱼有6条,请根据这一情况来估计鱼塘中的鱼大概有________条.第一节 随机抽样、统计图表问题思考·夯实技能【问题1】 提示:两种抽样方法的共同特点和适用范围:类别 简单随机抽样 分层随机抽样共同点 抽样过程中每个个体被抽到的可能性相等适用范围 总体个数较少 总体由差异明显的几部分组成【问题2】 提示:不对.在频率分布直方图中,纵轴(小长方形的高)表示频率与组距的比值,其相应组距上的频率等于该组距上的小长方形的面积.关键能力·题型剖析例1 解析:(1)选项A:符合不放回简单随机抽样要求,故正确;选项B:老师表扬的是发言积极的,对每一个个体而言,不具备“等可能性”,故错误;选项C:因为总体容量是无限的,不符合简单随机抽样要求,故错误;选项D:8条跑道,抽取1条,总体有限,每个个体被抽到的机会均等,是简单随机抽样,故正确.故选AD.(2)根据题意知分层抽样比例为 =,所以该高校抽取的志愿者总人数为(1 600+600+200)×=360.故选D.答案:(1)AD (2)D巩固训练1 解析:(1)由题可知=,解得n=36.故选D.(2)找到第9行第9列数开始向右读,符合条件的是29 56 07 52 42 44 38 15 51 13 02 54…,则抽取的第11个个体的编号是02.答案:(1)D (2)02例2 解析:选取的学生数为=200,合唱的比例为=35%,所以绘画的比例为1-20%-20%-15%-35%=10%,所以选取的学生中,参加绘画社团的学生数为×10%=20.故选A.答案:A例3 解析:根据服务业商务活动指数图象可知,2022年9月至12月建筑业经济持续下降,所以A选项正确;根据建筑业商务活动指数图象可知,2022年9月至12月服务业经济持续上升,所以B选项错误;根据建筑业商务活动指数图象可知,2022年5月建筑业经济上升幅度最小,所以C选项正确;根据服务业商务活动指数图象可知,2023年2月服务业经济上升幅度最大,所以D选项正确.故选ACD.答案:ACD例4 解析:(1)设分数在[70,80)内的频率为x,根据频率分布直方图,可得(0.01+0.015+0.02+0.025+0.005)×10+x=1,解得x=0.25,所以分数在[70,80)内的频率为0.25.补全这个频率分布直方图,如图所示.(2)因为分数在区间[80,90)内的频率为0.25,在区间[90,100]内的频率为0.05,而0.05<10%<0.25+0.05.所以设排名前10%的分界点为90-a,则0.025a+0.005×10=10%,解得a=2,所以排名前10%的分界点为88分,即获奖的学生至少需要88分.巩固训练2 解析:(1)因为被调查的所有市民中二居室住户共100户,所占比例为,所以n=100÷=450,四居室住户有450×=150户,三居室住户有200户,故A,B正确;用分层抽样的方法抽取的二居室住户有100×0.2=20户,故C正确;用分层抽样的方法抽取的市民中对三居室满意的有200×0.2×0.5=20户,故D错误.故选D.(2)由统计图可以得到,2022年第一、二季度的制造业指数均高于50%,所以2022年第一、二季度的各月制造业在逐月扩张,故A正确;由统计图可以得到,2022年10月份的制造业指数低于50%,故B错误;由统计图可以得到,2023年1、2月份的制造业指数高于50%,故C错误;由统计图可以得到,2023年4~6月份制造业指数呈现上升趋势,但是2023年4、5月份制造业指数均低于50%,即制造业景气水平较上月收缩,故D错误.故选A.(3)因为(2a+0.02+0.025+0.045)×10=1,所以a=0.005,又因为[50,60)内和[60,70]内的样本个数比例为0.020∶0.005=4∶1,根据分层抽样可知,日支出在[60,70]中被抽取的人数为10×=2.答案:(1)D (2)A (3)0.005 2随堂检测1.解析:设被抽取参与调研的乙村村民有x人,则根据分层抽样按两村人口比例,甲村被抽取参与调研的有3x人,所以3x-x=8,即x=4,所以参加调研的总人数x+3x=16.故选A.答案:A2.解析:由题意,梧桐树苗的数量为600×40%=240(棵),所以中年教师应分得梧桐的数量为240×=72(棵).故选C.答案:C3.解析:由题得10×(0.005+0.035+a+0.020+0.010)=1,所以a=0.030.在[120,130)之间的学生:100×10×0.030=30(人),在[130,140)之间的学生:100×10×0.020=20(人),在[120,140)之间的学生:100×(10×0.030+10×0.020)=50(人),又用分层抽样的方法在[120,140)之间的学生50人中抽取5人,即抽取比为:,所以成绩在[120,130)之间的学生中抽取的人数应为30×=3,即b=3.故选D.答案:D4.解析:设鱼塘中的鱼有x条,因为捕捞出的120条鱼中有6条有记号,因此由题意可得=,解得x=2 000,即鱼塘中的鱼大概有2 000条.答案:2 000第二节 用样本估计总体1.会用统计图表对总体进行估计,会求n个数据的第p百分位数.2.能用数字特征估计总体集中趋势和总体离散程度.问题思考·夯实技能【问题1】 一组数据的百分位数一定是这组数据中的数吗?【问题2】 如何利用频率分布直方图估计平均数、中位数和众数?关键能力·题型剖析题型一 百分位数的估计例 1 (1)[2024·安徽马鞍山模拟]现有一组数据:663,664,665,668,671,664,656,674,651,653,652,656,则这组数据的第85百分位数是( )A.652 B.668C.671 D.674(2)[2024·河北邢台模拟]《中国居民膳食指南(2022)》数据显示,6岁至17岁儿童青少年超重肥胖率高达19.0%.为了解某地中学生的体重情况,某机构从该地中学生中随机抽取100名学生,测量他们的体重(单位:千克),根据测量数据,按[40,45),[45,50),[50,55),[55,60),[60,65),[65,70]分成六组,得到的频率分布直方图如图所示.根据调查的数据,估计该地中学生体重的第75百分位数是( )A.55 B.57.25C.58.75 D.60题后师说频率分布直方图中第p百分位数的计算步骤巩固训练1(1)[2024·广东江门模拟]某校从高一新生中随机抽取了一个容量为10的身高样本,数据(单位:cm)从小到大排序如下:158,165,165,167,168,169,x,172,173,175,若样本数据的第60百分位数是170,则x=( )A.169 B.170C.171 D.172(2)高一某班10名学生的英语口语测试成绩(单位:分)如下:76,90,84,82,81,87,86,82,85,83.这组数据的上四分位数是______.题型二 总体集中趋势的估计角度一 样本的数字特征例 2 [2024·江苏连云港模拟]某高校为传承中华文化,举办了“论语吟唱”的比赛.在比赛中,由A,B两个评委小组(各9人)给参赛选手打分.根据两个评委小组对同一名选手的打分绘制成如图所示折线图,则下列说法正确的是( )A.A组打分的众数为50B.B组打分的中位数为75C.A组的意见相对一致D.B组打分的均值小于A组打分的均值题后师说中位数、众数分别反映了一组数据的“中等水平”“多数水平”;平均数反映了数据的平均水平,它们均描述了数据的集中趋势.角度二 频率分布直方图中的数字特征例 3 [2024·安徽淮北模拟]某城市100户居民的月平均用电量(单位:度),以[160,180),[180,200),[200,220),[220,240),[240,260),[260,280),[280,300]分组的频率分布直方图如图.(1)求直方图中x的值;(2)求月平均用电量的众数和中位数;(3)在月平均用电量为[220,240),[240,260),[260,280),[280,300]的四组用户中,用分层抽样的方法抽取11户居民,则月平均用电量在[220,240)的用户中应抽取多少户?题后师说频率分布直方图中的数字特征的求解方法(1)众数:最高矩形的底边中点的横坐标.(2)中位数:中位数左边和右边的矩形的面积和相等.(3)平均数:平均数在频率分布直方图中等于各组区间的中点值与对应频率之积的和.巩固训练2(1)[2024·黑龙江哈尔滨模拟]PM2.5是衡量空气质量的重要指标,下图是某地6月1日至10日的PM2.5日均值(单位:μg/m3)的折线图,则下列关于这10天中PM2.5日均值的说法错误的是( )A.众数为30B.中位数为31.5C.平均数小于中位数D.极差为109(2)(多选)[2024·山东聊城模拟]某校举办了迎新年知识竞赛,随机选取了100人的成绩整理后画出的频率分布直方图如图,则根据频率分布直方图,下列说法正确的是( )A. 中位数70 B.众数75C.平均数68.5 D.平均数70题型三 总体离散程度的估计例 4 [2023·全国乙卷]某厂为比较甲乙两种工艺对橡胶产品伸缩率的处理效应,进行10次配对试验,每次配对试验选用材质相同的两个橡胶产品,随机地选其中一个用甲工艺处理,另一个用乙工艺处理,测量处理后的橡胶产品的伸缩率.甲、乙两种工艺处理后的橡胶产品的伸缩率分别记为xi,yi(i=1,2,…,10).试验结果如下:试验序号i 1 2 3 4 5 6 7 8 9 10伸缩率xi 545 533 551 522 575 544 541 568 596 548伸缩率yi 536 527 543 530 560 533 522 550 576 536记zi=xi-yi(i=1,2,…,10),记z1,z2,…,z10的样本平均数为,样本方差为s2.(1)求,s2;(2)判断甲工艺处理后的橡胶产品的伸缩率较乙工艺处理后的橡胶产品的伸缩率是否有显著提高(如果≥2,则认为甲工艺处理后的橡胶产品的伸缩率较乙工艺处理后的橡胶产品的伸缩率有显著提高,否则不认为有显著提高).题后师说标准差(方差)反映了数据的离散与集中、波动与稳定的程度.标准差(方差)越大,数据的离散程度越大;标准差(方差)越小,数据的离散程度越小.巩固训练3[2024·河北沧州模拟]为了巩固拓展脱贫攻坚成果,不断提高群众的幸福感,政府积极引导某村农户因地制宜种植某种经济作物,该类经济作物的质量以其质量指标值来衡量,质量指标值越大表明质量越好.为了解该类经济作物在该村的种植效益,该村引进了甲、乙两个品种,现随机抽取了这两个不同品种的经济作物各100份(每份1千克)作为样本进行检测,检测结果如下表所示:(同一区间的数据取该区间的中点值作代表)分别记甲、乙品种质量指标值的样本平均数为和,样本方差为和.(1)现已求得==324.64,试求及,并比较样本平均数与方差的大小;(2)该经济作物按其质量指标值划分等级如下表:质量指标值 [0,40) [40,80) [80,100]作物等级 二级 一级 特级利润(元/千克) 10 20 50现利用样本估计总体,试从样本利润平均数的角度分析该村村民种植哪个品种的经济作物获利更多.1.[2024·九省联考]样本数据16,24,14,10,20,30,12,14,40的中位数为( )A.14 B.16C.18 D.202.(多选)[2021·新高考Ⅰ卷]有一组样本数据x1,x2,…,xn,由这组数据得到新样本数据y1,y2,…,yn,其中yi=xi+c(i=1,2,…,n),c为非零常数,则( )A.两组样本数据的样本平均数相同B.两组样本数据的样本中位数相同C.两组样本数据的样本标准差相同D.两组样本数据的样本极差相同3.(多选)[2021·新高考Ⅱ卷]下列统计量中,能度量样本x1,x2,…,xn的离散程度的是( )A.样本x1,x2,…,xn的标准差B.样本x1,x2,…,xn的中位数C.样本x1,x2,…,xn的极差D.样本x1,x2,…,xn的平均数4.如图,是根据某班学生在一次数学考试中的成绩画出的频率分布直方图,记由该直方图得到的数学考试成绩的众数、中位数和平均数分别为a,b,c,则( )A.b>c>a B.a>b>cC.>b D.>c第二节 用样本估计总体问题思考·夯实技能【问题1】 提示:不一定.可能是这组数据中的数,也可能不是这组数据中的数.例如数据1,2,3的第50百分位数是2,是这组数据中的数;数据1,2,3,4的第50百分位数是2.5,不是这组数据中的数.【问题2】 提示:在频率分布直方图中,平均数的估计值等于频率分布直方图中每个小矩形的面积与小矩形底边中点的横坐标之积的总和.中位数左边和右边的直方图的面积应该相等,由此可估计中位数的值.众数的估计值为最高矩形的中点的横坐标.关键能力·题型剖析例1 解析:(1)由题意这组数共12个,则12×85%=10.2,将这组数据从小到大排列为651,652,653,656,656,663,664,664,665,668,671,674,故这组数据的第85百分位数为第11个数,即671.故选C.(2)因为(0.01+0.03+0.08)×5=0.6<0.75,0.6+0.04×5=0.8>0.75,所以该地中学生体重的第75百分位数在[55,60)内,设第75百分位数为m,则(m-55)×0.04+0.6=0.75,解得m=58.75.故选C.答案:(1)C (2)C巩固训练1 解析:(1)因为样本容量为10,且样本数据从小到大排序如下:158,165,165,167,168,169,x,172,173,175,又10×60%=6,所以第60百分位数为,由已知=170,所以x=171.故选C.(2)成绩从小到大排序为:76,81,82,82,83,84,85,86,87,90,则10×=7.5,所以这组数据的上四分位数是86.答案:(1)C (2)86例2 解析:由折线图可知,小组A打分的分值为:42,47,45,46,50,47,55,50,47,则小组A打分的分值的众数为47,故选项A错误;小组B打分的分值为:55,36,70,66,75,68,68,62,58,按照从小到大排列为:36,55,58,62,66,68,68,70,75,中间数为66,故中位数为66,故选项B错误 ;小组A的打分成绩比较均匀,波动更小,故A小组意见相对一致,故选项C正确;小组A的打分分值的均值=47.7,而小组B的打分分值的均值=62,所以小组B打分的分值的均值大于小组A打分的分值的均值,故选项D错误.故选C.答案:C例3 解析:(1)由直方图的性质可得(0.002+0.009 5+0.011+0.012 5+x+0.005+0.002 5)×20=1得:x=0.007 5,所以直方图中x的值是0.007 5.(2)月平均用电量的众数是=230.因为(0.002+0.009 5+0.011)×20=0.45<0.5,所以月平均用电量的中位数在[220,240)内,设中位数为a,由(0.002+0.009 5+0.011)×20+0.012 5×(a-220)=0.5得:a=224,所以月平均用电量的中位数是224.(3)月平均用电量为[220,240)的用户有0.012 5×20×100=25户,月平均用电量为[240,260)的用户有0.007 5×20×100=15户,月平均用电量为[260,280)的用户有0. 005×20×100=10户,月平均用电量为[280,300]的用户有0.002 5×20×100=5户,抽取比例==,所以月平均用电量在[220,240)的用户中应抽取25×=5户.巩固训练2 解析:(1)众数即是出现次数最多的数字,由折线图可得,众数为30,即A正确;将折线图中数字由小到大依次排序,得到:17,25,30,30,31,32,34,38,42,126,处在中间位置的数字是31,32,因此中位数为31.5,即B正确;由折线图可得,平均数为:=40.5>31.5,故C错;根据极差概念,126-17=109,故D正确.故选C.(2)[40,50)的频率为=0.1,因为最高小矩形的中点横坐标为75,显然众数是75,故B正确;[40,50)的频率是0.1,[50,60)的频率是0.15,[60,70)的频率是0.25,其频率和为0.5,所以中位数为70,故A正确;平均数=45×0.1+55×0.15+65×0.25+75×0.35+85×0.1+95×0.05=68.5,所以C正确,D不正确.故选ABC.答案:(1)C (2)ABC例4 解析:(1)zi的值分别为:9,6,8,-8,15,11,19,18,20,12,则==11.故s2==61.(2)由(1)知:=11,2=2=,故有≥2,所以认为甲工艺处理后的橡胶产品的伸缩率较乙工艺处理后的橡胶产品的伸缩率有显著提高.巩固训练3 解析:(1)=×(10×2+30×6+50×24+70×48+90×20)=65.6,=(10-60)2×0.02+(30-60)2×0.08+(50-60)2×0.38+(70-60)2×0.42+(90-60)2×0.1=292.又因为==324.64,所以.(2)分别记甲、乙两品种利润的样本平均数为,则=×(8×10+72×20+20×50)=25.2(元),=×(10×10+80×20+10×50)=22(元),所以>,所以从样本利润平均数的角度看种植甲品种的经济作物获得的利润更高.随堂检测1.解析:将这些数据从小到大排列可得:10,12,14,14,16,20,24,30,40,则其中位数为16.故选B.答案:B2.解析:A:E(y)=E(x+c)=E(x)+c且c≠0,故平均数不相同,错误;B:若第一组中位数为xi,则第二组的中位数为yi=xi+c,显然不相同,错误;C:D(y)=D(x)+D(c)=D(x),故方差相同,正确.D:由极差的定义知:若第一组的极差为xmax-xmin,则第二组的极差为ymax-ymin=(xmax+c)-(xmin+c)=xmax-xmin,故极差相同,正确.故选CD.答案:CD3.解析:由标准差的定义可知,标准差考查的是数据的离散程度;由中位数的定义可知,中位数考查的是数据的集中趋势;由极差的定义可知,极差考查的是数据的离散程度;由平均数的定义可知,平均数考查的是数据的集中趋势.故选AC.答案:AC4.解析:由频率分布直方图可知:众数a==75;中位数应落在70~80区间内,则有:0.004×10+0.018×10+0.04×(b-70)=0.5,解得:b=77;平均数c=0.004×10×+0.018×10×+0.04×10×+0.032×10×+0.006×10×=2.2+11.7+30+27.2+5.7=76.8.所以b>c>a.故选A.答案:A第三节 成对数据的统计分析1.了解样本相关系数的统计意义.2.了解最小二乘原理,掌握一元线性回归模型参数的最小二乘估计方法,会用一元线性回归模型进行预测.3.理解2×2列联表的统计意义,了解2×2列联表独立性检验及其应用.问题思考·夯实技能【问题1】 在回归分析的过程中,散点图、样本相关系数r、决定系数R2的作用相同吗?【问题2】 根据χ2的值可以判断两个分类变量有关的可信程度,若χ2越大,则两分类变量有关的把握越大对吗?关键能力·题型剖析题型一 成对数据的统计相关性例1 (1)[2024·河南南阳模拟]某同学在研究变量x,y之间的相关关系时,得到以下数据:并采用最小二乘法得到了经验回归方程=x+,则( )x 4.8 5.8 7 8.3 9.1y 2.8 4.1 7.2 9.1 11.8A. >0,>0 B.>0,<0C.<0,<0 D.<0,>0(2)(多选)[2024·河北沧州模拟]医学上判断体重是否超标有一种简易方法,就是用一个人身高的厘米数减去105所得差值即为该人的标准体重.比如身高175 cm的人,其标准体重为175-105=70公斤,一个人实际体重超过了标准体重,我们就说该人体重超标了,现分析某班学生的身高和体重的相关性时,随机抽测了8人的身高和体重,数据如下表所示:编号 1 2 3 4 5 6 7 8身高x/cm 165 168 170 172 173 174 175 177体重y/kg 55 89 61 65 67 70 75 75由最小二乘法计算得到经验回归直线l1的方程为=1x+1,相关系数为r1,决定系数为R;经过残差分析确定有一个样本点为离群点(对应残差过大),把它去掉后,再用剩下的7组数据计算得到经验回归直线l2的方程为=2x+2,相关系数为r2,决定系数为R,则( )A. r1RC.r1>r2 D.R题后师说判断数据的相关关系的三种方法巩固训练1(1)下列图中,能反映出相应两个变量之间具有线性相关关系的是( )(2)对两个变量x,y进行线性相关检验,得线性相关系数r1=0.899 5,对两个变量u,v进行线性相关检验,得线性相关系数r2=-0.956 8,则下列判断正确的是( )A.变量x与y正相关,变量u与v负相关,变量x与y的线性相关性较强B.变量x与y负相关,变量u与v正相关,变量x与y的线性相关性较强C.变量x与y正相关,变量u与v负相关,变量u与v的线性相关性较强D.变量x与y负相关,变量u与v正相关,变量u与v的线性相关性较强题型二 回归模型角度一 一元线性回归模型例2 [2024·辽宁辽阳模拟]2022年12月份以来,全国多个地区纷纷采取不同的形式发放多轮消费券,助力消费复苏.记发放的消费券额度为x(百万元),带动的消费为y(百万元).某省随机抽查的一些城市的数据如下表所示.x 3 3 4 5 5 6 6 8y 10 12 13 18 19 21 24 27(1)根据表中的数据,请用相关系数说明y与x有很强的线性相关关系,并求出y关于x的经验回归方程.(2)(ⅰ)若该省A城市在2023年2月份准备发放一轮额度为10百万元的消费券,利用(1)中求得的经验回归方程,预计可以带动多少消费?(ⅱ)当实际值与估计值的差的绝对值与估计值的比值不超过10%时,认为发放的该轮消费券助力消费复苏是理想的.若该省A城市2月份发放额度为10百万元的消费券后,经过一个月的统计,发现实际带动的消费为30百万元,请问发放的该轮消费券助力消费复苏是否理想?若不理想,请分析可能存在的原因.参考公式:r=,=,=-.当|r|>0.75时,两个变量之间具有很强的线性相关关系.参考数据:≈5.9.题后师说求经验回归方程的步骤巩固训练2[2024·吉林长春模拟]偏差是指个别测定值与测定的平均值之差,在成绩统计中,我们把某同学的某科考试成绩与该科平均成绩的差叫某科偏差(实际成绩-平均成绩=偏差).在某次考试成绩统计中,教研人员为了对学生数学偏差x(单位:分)与物理偏差y(单位:分)之间的关系进行分析,随机挑选了8位同学,得到他们的两科成绩偏差数据如下:学生序号 1 2 3 4 5 6 7 8数学偏差x/分 20 15 13 3 2 -5 -10 -18物理偏差y/分 6.5 3.5 3.5 1.5 0.5 -0.5 -2.5 -3.5(1)若x与y之间具有线性相关关系,求y关于x的经验回归方程;(2)若本次考试数学平均成绩为100分,物理平均成绩为70.5分,试由(1)的结论预测数学成绩为116分的同学的物理成绩.参考公式:=,=-.参考数据:=1 256,iyi=324.角度二 非线性回归模型例3 [2024·河北承德模拟]某公司研制了一种对人畜无害的灭草剂,为了解其效果,通过实验,收集到其不同浓度x(mol/L)与灭死率y的数据,得下表:浓度x(mol/L) 10-12 10-10 10-8 10-6 10-4灭死率y 0.1 0.24 0.46 0.76 0.94(1)以x为解释变量,y为响应变量,在=x+和=1+2lg x中选一个作为灭死率y关于浓度x(mol/L)的经验回归方程,不用说明理由;(2)(i)根据(1)的选择结果及表中数据,求出所选经验回归方程;(ii)依据(i)中所求经验回归方程,要使灭死率不低于0.8,估计该灭草剂的浓度至少要达到多少mol/L 参考公式:对于一组数据(x1,y1),(x2,y2),…,(xn,yn),其经验回归直线=x+的斜率和截距的最小二乘法估计分别为==,=-.题后师说解决非线性回归模型的应用问题的关键是对非线性回归函数模型作变换,一般思路是换元,化非线性为线性,进而应用线性回归的方法进行求解.如①若=+,设t=,则=+t;②若满足对数式:=+ln x,设t=ln x,则=+t;③若满足指数式:y=c1ec2x,两边取对数得ln y=ln c1+c2x,设z=ln y,=ln c1,=c2,则=+x.巩固训练3[2024·山东滨州模拟]为了加快实现我国高水平科技自立自强,某科技公司逐年加大高科技研发投入.下图1是该公司2013年至2022年的年份代码x和年研发投入y(单位:亿元)的散点图,其中年份代码1~10分别对应年份2013~2022.根据散点图,分别用模型①y=bx+a,②y=c+d作为年研发投入y关于年份代码x的经验回归方程模型,并进行残差分析,得到图2所示的残差图.结合数据,计算得到如下表所示的一些统计量的值:表中ti=,=i.(1)根据残差图,判断模型①和模型②哪一个更适宜作为年研发投入y关于年份代码x的经验回归方程模型?并说明理由;(2)根据(1)中所选模型,求出y关于x的经验回归方程,并预测该公司2028年的高科技研发投入.附:对于一组数据(x1,y1),(x2,y2),…,(xn,yn),其经验回归直线=+x的斜率和截距的最小二乘估计分别为=,=-.题型三 独立性检验例4 [2023·全国甲卷]一项试验旨在研究臭氧效应,试验方案如下:选40只小白鼠,随机地将其中20只分配到试验组,另外20只分配到对照组,试验组的小白鼠饲养在高浓度臭氧环境,对照组的小白鼠饲养在正常环境,一段时间后统计每只小白鼠体重的增加量(单位:g).试验结果如下:对照组的小白鼠体重的增加量从小到大排序为15.2 18.8 20.2 21.3 22.5 23.2 25.8 26.5 27.5 30.132.6 34.3 34.8 35.6 35.6 35.8 36.2 37.3 40.5 43.2试验组的小白鼠体重的增加量从小到大排序为7.8 9.2 11.4 12.4 13.2 15.5 16.5 18.0 18.8 19.219.8 20.2 21.6 22.8 23.6 23.9 25.1 28.2 32.3 36.5(1)计算试验组的样本平均数;(2)(ⅰ)求40只小白鼠体重的增加量的中位数m,再分别统计两样本中小于m与不小于m的数据的个数,完成如下列联表对照组试验组(ⅱ)根据(i)中的列联表,能否有95%的把握认为小白鼠在高浓度臭氧环境中与在正常环境中体重的增加量有差异?附:χ2=,P(x2≥k0) 0.100 0.050 0.010k0 2.706 3.841 6.635题后师说独立性检验的一般步骤巩固训练4[2024·河北秦皇岛模拟]某市电视台为了解一档节目收视情况,随机抽取了该市n对夫妻进行调查,根据调查得到每人日均收看该节目的时间绘制成如图所示的频率分布直方图,收视时间不低于40分钟的观众称为“热心观众”,收视时间低于40分钟的观众称为“非热心观众”,已知抽取样本中收视时间低于10分钟的有10人.(1)求n,p;(2)根据已知条件完成下面2×2列联表,试根据小概率值α=0.05的独立性检验,分析“热心观众”是否与性别有关.非热心观众 热心观众 总计男女 10总计附:χ2=,其中n=a+b+c+d.α 0.10 0.05 0.025 0.010 0.005 0.001xα 2.706 3.841 5.024 6.635 7.879 10.8281.[2023·天津卷]调查某种群花萼长度和花瓣长度,所得数据如图所示,其中相关系数r=0.8245,下列说法正确的是( ) A.花瓣长度和花萼长度没有相关性B.花瓣长度和花萼长度呈现负相关C.花瓣长度和花萼长度呈现正相关D.若从样本中抽取一部分,则这部分的相关系数一定是0.824 52.[2024·黑龙江大庆模拟]我国西北某地区开展改造沙漠的巨大工程,该地区对近5年投入的沙漠治理经费x(亿元)和沙漠治理面积y(万亩)的相关数据统计如下表所示.治理经费x/亿元 3 4 5 6 7治理面积y/万亩 10 12 11 12 20根据表中所给数据,得到y关于x的经验回归方程为=2x+a,则a=( )A.1 B.2C.3 D.43.[2024·福建莆田模拟]根据分类变量X和Y的样本观察数据的计算结果,有不少于99.5%的把握认为X和Y有关,则χ2的一个可能取值为( )α 0.10 0.05 0.025 0.010 0.005xα 2.706 3.841 5.024 6.635 7.879A. 3.971 B.5.872C.6.775 D.9.6984.[2024·江苏镇江模拟]2023年五一节日期间,通过对某一路口在具体时刻的瞬时速度进行观测统计发现,时刻x和瞬时速度y的关系如下:x(时) 4 5 6 7 8 9y(速度) 90 84 83 80 75 68由表中数据得到的经验回归方程为=-4x+a,则由此可预测此路口11时的瞬时速度为__________.第三节 成对数据的统计分析问题思考·夯实技能【问题1】 提示:不同.散点图判定两个分类变量是否具有相关关系,样本相关系数r判定两个分类变量相关性的强弱,决定系数R2判定所选模型拟合的程度.【问题2】 提示:正确.关键能力·题型剖析例1 解析:(1)画出散点图如下:从而可以看出=x+中,>0,<0.故选D.(2)去掉离群点后成对样本数据的线性相关程度更强,拟合效果会更好,且由表可知,两个变量呈正相关,所以r1故选AD.答案:(1)D (2)AD巩固训练1 解析:(1)对于A,由图象可知,两个变量是确定的函数关系,不是相关关系,故A不正确;对于B,由散点图可知,散点呈带状分布,所以两个变量具有线性相关关系,故B正确;由散点图可知,散点不呈带状分布,所以两个变量不具有线性相关关系,故CD不正确.故选B.(2)因为线性相关系数r1=0.899 5>0,所以x,y正相关,因为线性相关系数r2=-0.956 8<0,所以u,v负相关,又因为|r1|<|r2|,所以变量u,v的线性相关性比x,y的线性相关性强,故A、B、D错误,C正确.故选C.答案:(1)B (2)C例2 解析:(1)==5,==18.(xi-)(yi-)=16+12+5+0+0+3+6+27=69,(xi-)2=4+4+1+0+0+1+1+9=20,(yi-)2=64+36+25+0+1+9+36+81=252,代入公式可得相关系数r===≈0.97.由于|r|>0.75且r非常接近1,所以y与x具有很强的线性相关关系.经计算可得===3.45,=-=18-3.45×5=0.75.所以所求经验回归方程为=3.45x+0.75.(2)(ⅰ)当x=10时,=3.45×10+0.75=35.25,所以预计能带动的消费达35.25百万元.(ⅱ)因为>10%,所以发放的该轮消费券助力消费复苏不是理想的.发放消费券只是影响消费的其中一个因素,还有其他重要因素,比如:A城市经济发展水平不高,居民的收入水平直接影响了居民的消费水平;A城市人口数量有限、商品价格水平、消费者偏好、消费者年龄构成等因素一定程度上影响了消费总量.(只要写出一个原因即可).巩固训练2 解析:(1)由题意可得,=×[20+15+13+3+2+(-5)+(-10)+(-18)]=,=×[6.5+3.5+3.5+1.5+0.5+(-0.5)+(-2.5)+(-3.5)]=,又=1 256,iyi=324,∴==,=-×=,∴y关于x的经验回归方程为:=x+.(2)设该同学的物理成绩为W,则物理偏差为W-70.5.又数学偏差为116-100=16,∴W-70.5=×16+,解得W=75.∴预测这位同学的物理成绩为75分.例3 解析:(1)根据表格数据可知解释变量x呈现指数增长,而响应变量y增长幅度不大,且相应的增加量大约相等,故选=1+2lg x.(2)(ⅰ)令ui=lg xi,则=1+2u,所以可得如下数据u -12 -10 -8 -6 -4y 0.1 0.24 0.46 0.76 0.94则=(-12-10-8-6-4)=-8,=(0.1+0.24+0.46+0.76+0.94)=0.5,=(-12)2+(-10)2+(-8)2+(-6)2+(-4)2=360,iyi=(-12)×0.1+(-10)×0.24+(-8)×0.46+(-6)×0.76+(-4)×0.94=-15.6,所以2==0.11,1=0.5-0.11×(-8)=1.38,所以=1.38+0.11u,即=1.38+0.11lg x;(ⅱ)依题意=1.38+0.11lg x≥0.8,即0.11lg x≥-0.58,即lg x≥-,所以x≥10-,即要使灭死率不低于0.8,则该灭草剂的浓度至少要达到10-mol/L.巩固训练3 解析:(1)根据图2可知,模型①的残差波动性很大,说明拟合关系较差;模型②的残差波动性很小,基本分布在0的附近,说明拟合关系很好,所以选择模型②更适宜.(2)设t=,所以y=c+dt,所以===6.3,=- =60.825,所以y关于x的经验回归方程为y=60.825+6.3,令x=16,则y=60.825+6.3×4=86.025,即预测该公司2028年的高科技研发投入为86.025亿元.例4 解析:(1)试验组样本平均数为:(7.8+9.2+11.4+12.4+13.2+15.5+16.5+18.0+18.8+19.2+19.8+20.2+21.6+22.8+23.6+23.9+25.1+28.2+32.3+36.5)==19.8.(2)(ⅰ)依题意,可知这40只小鼠体重的中位数是将两组数据合在一起,从小到大排列后第20位与第21位数据的平均数,由原数据可得第11位数据为18.8,后续依次为19.2,19.8,20.2,20.2,21.3,21.6,22.5,22.8,23.2,23.6,…,故第20位为23.2,第21位数据为23.6,所以m==23.4,故列联表为:对照组 6 14 20试验组 14 6 20合计 20 20 40(ⅱ)由(ⅰ)可得,K2==6.400>3.841,所以能有95%的把握认为小白鼠在高浓度臭氧环境中与在正常环境中体重的增加量有差异.巩固训练4 解析:(1)收视时间在0~10分钟组的频率为1-(0.018+0.022+0.025+0.020+0.005)×10=0.1,∴p==0.01,又∵收视时间低于10分钟的有10人,∴2n=,∴n=50.(2)∵n=50,∴“热心观众”有2×50×(0.020+0.005)×10=25人,则2×2列联表如图所示,非热心观众 热心观众 总计男 35 15 50女 40 10 50总计 75 25 100零假设H0:“热心观众”与性别无关联.将2×2列联表数据代入公式计算得:χ2==≈1.333<3.841,根据小概率值α=0.05的独立性检验,没有充分证据证明H0不成立,因此可认为H0成立,即认为“热心观众”与性别无关联.随堂检测1.解析:根据散点的集中程度可知,花瓣长度和花萼长度有相关性,A选项错误;散点的分布是从左下到右上,从而花瓣长度和花萼长度呈现正相关,B选项错误,C选项正确;由于r=0.824 5是全部数据的相关系数,取出来一部分数据,相关性可能变强,可能变弱,即取出的数据的相关系数不一定是0.824 5,D选项错误.故选C.答案:C2.解析: ==5,==13,因回归方程过定点(,),将其代入=2x+a,得13=2×5+a,解得a=3.故选C.答案:C3.解析:因为有不少于99.5%的把握认为X和Y有关,所以χ2≥7.879,9.698≥7.879,满足题意,故选D.答案:D4.解析:由题意可得,==,==80,则80=-4×+a,解得a=106,当x=11时,=-4×11+106=62.答案:62 展开更多...... 收起↑ 资源列表 2025届高中数学一轮复习导学案:9.1随机抽样、统计图表.docx 2025届高中数学一轮复习导学案:9.2用样本估计总体.docx 2025届高中数学一轮复习导学案:9.3成对数据的统计分析.docx