专题12 统计的综合应用(7大题型)-直击2025期末:高一数学下册必考题型全解析(苏教版2019)(学生版+教师版)

资源下载
  1. 二一教育资源

专题12 统计的综合应用(7大题型)-直击2025期末:高一数学下册必考题型全解析(苏教版2019)(学生版+教师版)

资源简介

中小学教育资源及组卷应用平台
专题12 统计的综合应用
【题型归纳目录】
题型一:随机数表法
题型二:分层抽样
题型三:频率分布直方图
题型四:计算一些数据的平均数、方差、众数、中位数、百分位数
题型五:样本估计总体
题型六:分层方差的计算
题型七:平均数、方差的性质
【知识点梳理】
1、统计的相关概念
(1)普查
像人口普查这样,对每一个调查对象都进行调查的方法,称为全面调查,又称普查.
(2)总体、个体
在一个调查中,我们把调查对象的全体称为总体.组成总体的每一个调查对象称为个体.为了强调调查目的,也可以把调查对象的某些指标的全体作为总体,每一个调查对象的相应指标作为个体.
(3)抽样调查
根据一定目的,从总体中抽取一部分个体进行调查,并以此为依据对总体的情况作出估计和推断的调查方法,称为抽样调查.
(4)样本、样本量
我们把从总体中抽取的那部分个体称为样本,样本中包含的个体数称为样本量.
2、简单随机抽样
一般地,设一个总体含有N(N为正整数)个个体,从中逐个抽取n(1≤n3、简单随机抽样的方法
(1)抽签法:
把总体中的N个个体编号,把编号写在外观、质地等无差别的小纸片(也可以是卡片、小球等)上作为号签,将这些小纸片放在一个不透明的盒里,充分搅拌,最后从盒中不放回地逐个抽取号签,使与号签上的编号对应的个体进入样本,直到抽足样本所需的个数.
(2)随机数法:
用随机数工具产生编号范围内的整数随机数,把产生的随机数作为抽中的编号,使与编号对应的个体进入样本.重复上述过程,直到抽足样本所需的个数.
①用随机试验生成随机数;
②用信息技术生成随机数;
③用计算器生成随机数;
④用电子表格软件生成随机数;
⑤用R统计软件生成随机数.
4、总体均值
一般地,总体中有N个个体,它们的变量值分别为Y1,Y2,…,YN,则称 为总体均值,又称总体平均数.
如果总体的N个变量值中,不同的值共有k(k≤N)个,不妨记为Y1,Y2,…,Yk,其中Yi出现的频数fi(i=1,2,…,k),则总体均值还可以写成加权平均数的形式
5、样本均值
如果从总体中抽取一个容量为n的样本,它们的变量值分别为y1,y2,…,yn,则称 为样本均值,又称样本平均数.
探究:总体均值与样本均值有何区别与联系?
答案:(1)区别:当总体中个体较多时,总体均值不易计算,样本均值比较方便计算.总体均值是一个确定的数,样本均值具有随机性.
(2)联系:在简单随机抽样中,我们常用样本均值估计总体均值.
6、分层抽样定义
一般地,在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样方法叫分层抽样.
7、分层抽样适用范围
当总体是由差异明显的几个部分组成时,往往采用分层抽样.
8、分层抽样的步骤
(1)根据已掌握的信息,将总体分成若干部分.
(2)根据总体中的个体数N和样本容量n计算出抽样比k=.
(3)根据抽样比k计算出各层中应抽取的个体数:·Ni (其中Ni为第i层所包含的个体总数).
(4)按步骤3所确定的数在各层中随机抽取个体,并合在一起得到容量为n的样本.
9、两种抽样方法的区别和联系
类别 共同点 各自特点 相互联系 适用范围
简单随机抽样 抽样过程中各个个体被抽到的机会相等,且都是不放回抽取 从总体中逐个抽取 最基本的抽样方法 总体容量较少
分层抽样 抽样过程中各个个体被抽到的机会相等,且都是不放回抽取 将总体分成几部分,每一部分按比例抽取 每层抽样时采用简单随机抽样 总体由差异明显的若干部分组成
10、获取数据的途径
统计学是通过收集数据和分析数据来认识未知现象的,因此如何收集数据,像统计报表和年鉴、社会调查、普查和抽样、互联网、试验设计等等都是常见的.
(1)通过调查获取数据
适用范围:对于有限总体问题,一般通过抽样调查或普查的方法获取数据.
注意事项:充分有效地利用背景信息选择或创建更好的抽样方法,并有效避免抽样过程中的人为错误.
(2)通过试验获取数据.
适用范围:没有现存的数据可以查询,就需要通过对比试验的方法去获取样本观测数据.
注意事项:严格控制试验环境,通过精心的设计安排试验,以提高数据质量,为获得好的分析结果奠定基础.
(3)通过观察获取数据.
适用范围:自然现象.
注意事项:需要专业测量设备获取观测数据.
(4)通过查询获得数据.
适用范围:二手数据.
注意事项:数据来历和渠道多样,所以质量会参差不齐,必须根据问题背景知识“清洗”数据,去伪存真.
11、频率分布直方图绘制步骤
①求极差,即一组数据中的最大值与最小值的差.
②决定组距与组数.组距与组数的确定没有固定的标准,一般数据的个数越多,所分组数越多.当样本容量不超过100时,常分成5~12组.为方便起见,一般取等长组距,并且组距应力求“取整”.
③将数据分组.
④列频率分布表.计算各小组的频率,第i组的频率是.
⑤画频率分布直方图.其中横轴表示分组,纵轴表示,实际上就是频率分布直方图中各小长方形的高度,它反映了各组样本观测数据的疏密程度.
12、频率分布直方图意义:各个小长方形的面积表示相应各组的频率,频率分布直方图以面积的形式反映数据落在各个小组的频率的大小,各小长方形的面积的总和等于1.
13、总体取值规律的估计:我们可以用样本观测数据的频率分布估计总体的取值规律.
14、频率分布直方图的特征:当频率分布直方图的组数少、组距大时,容易从中看出数据整体的分布特点,但由于无法看出每组内的数据分布情况,损失了较多的原式数据信息;当频率分布直方图的组数多、组距小时,保留了较多的原始数据信息,但由于小长方形较多,有时图形会变得非常不规则,不容易从中看出总体数据的分布特点.
15、常见的其他统计图:条形图、扇形图、折线图.
扇形图主要用于直观描述各类数据占总数的比例;
条形图和直方图主要用于直观描述不同类别或分组数据的频数和频率;
折线图主要用于描述数据随时间的变化趋势.
16、各个统计图特点
(1)不同的统计图在表示数据上有不同的特点.如扇形图主要用于直观描述各类数据占总数的比例,条形图和直方图主要用于直观描述不同类别或分组数据的频数和频率,折线图主要用于描述数据随时间的变化趋势.
(2)不同的统计图适用的数据类型也不同.如条形图适用于描述离散型的数据,直方图适用于描述连续性数据.
17、第p百分位数的定义
一般地,一组数据的第p百分位数是这样一个值,它使得这组数据中至少有的数据小于或等于这个值,且至少有的数据大于或等于这个值.
18、计算第百分位数的步骤
第1步:按从小到大排列原始数据.
第2步:计算.
第3步:若i不是整数,而大于i的比邻整数为j,则第p百分位数为第j项数据;若i是整数,则第p百分位数为第i项与第项数据的平均数.
19、四分位数
常用的分位数有第25百分位数、第50百分位数、第75百分位数,这三个分位数把一组由小到大排列后的数据分成四等份,因此称为四分位数.其中第25百分位数也称为第一四分位数或下四分位数等,第75百分位数也称为第三四分位数或上四分位数等.
20、众数、中位数、平均数定义
(1)众数:一组数据中重复出现次数最多的数.
(2)中位数:把一组数据按从小到大的顺序排列,处在中间位置(或中间两个数的平均数)的数叫做这组数据的中位数.
(3)平均数:如果个数,那么叫做这个数的平均数.
21、频率分布直方图中的众数、中位数、平均数
①在频率分布直方图中,众数是最高矩形中点的横坐标;
②中位数左边和右边的直方图的面积应该相等;
③平均数的估计值等于频率分布直方图中每个小矩形的面积乘以小矩形底边中点的横坐标之和.
12、方差、标准差的定义
一组数据,用表示这组数据的平均数,则这组数据的方差为,标准差为.
23、总体方差、总体标准差的定义
如果总体中所有个体的变量值分别为,总体平均数为,则称为总体方差,为总体标准差.如果总体的个变量值中,不同的值共有个,记为,,其中出现的频数为,则总体方差为.
24、样本方差、样本标准差的定义
如果一个样本中个体的变量值分别为,样本平均数为,则称为样本方差,为样本标准差.
25、方差、标准差特征
标准差、方差刻画了数据的离散程度或波动幅度,标准差越大,数据的离散程度越大;标准差越小,数据的离散程度越小.在刻画数据的分散程度上,方差和标准差是一样的.但在解决实际问题中,一般多采用标准差.
【典型例题】
题型一:随机数表法
【例1】某总体由编号为的个个体组成,利用下列随机数表选出个个体,选法是下列表中第一行第列开始从左到右依次选个数字,选出的第个个体编号为( )
1818 0792 4544 1716 5809 7983 8619
6216 7650 0310 5523 6405 0526 6238
A.16 B.09 C.19 D.61
【变式1-1】某工厂用简单随机抽样中的随机数法对生产的700个零件进行抽样,先将700个零件进行编号,.从中抽取70个样本,下图是利用软件生成的随机数,只需随机选定一个初始位置和方向开始读数,每次读取一个3位数,只要读取的号码落在编号范围内,该号码就是所抽到的样本编号,这样即可获得70个样本的编号,注意样本号码不能重复.若从表中第2行第6列的数2开始向右读取数据,取到的第一个样本编号是253,则得到的第6个样本编号是( )
A.007 B.328 C.253 D.623
【变式1-2】(2025·高一·江苏连云港·期末)总体编号为01,02,…,29,30的30个个体组成.利用下面的随机数表选取6个个体,选取方法是从随机数表第1行的第3列和第4列数字开始由左到右依次选取两个数字,则选出来的第6个个体的编号为( )
7816 1572 0802 6315 0216 4319 9714 0198
3204 9234 4936 8200 3623 4869 6938 7181
A.02 B.14 C.15 D.16
【变式1-3】某班对上学期期末成绩进行分析,利用随机数表法抽取样本时,先将个同学的成绩按进行编号,然后从随机数表第行第列的数开始向右读,抽取一个容量为的样本,则选出的第个个体是( )(注:如下为随机数表的第8行和第9行)
63 01 63 78 59 16 95 55 67 19 98 10 50 71 75 12 86 73 58
33 21 12 34 29 78 64 56 07 82 52 45 07 44 38 15 51 00 13
A.07 B.25 C.42 D.52
题型二:分层抽样
【例2】已知某地区有小学生12000人,初中生11000人,高中生9000人,现在要了解该地区学生的近视情况,准备抽取320人进行调查,则应该抽取小学生、初中生、高中生的人数分别是 .
【变式2-1】(2025·高一·北京房山·期末)某单位共有名职工,其中岁以下的有人,-岁的有人,岁及以上的有人.现用分层抽样的方法,从中抽取名职工进行问卷调查,则抽取的岁及以上的职工人数为 .
【变式2-2】(2025·高二·安徽·学业考试)某高中高一年级有学生1440人,高二年级有学生1600人,高三年级有学生1760人.现用分层抽样的方法,从这三个年级学生中抽取n人了解他们的学习情况,其中在高二年级抽取了100人,则 .
题型三:频率分布直方图
【例3】(2025·高一·全国·单元测试)如图是某小区居民月均用电量的频率分布直方图,则月用电量为范围内的用户所占比例为( )
A. B. C. D.
【变式3-1】(2025·高一·天津河东·期末)某中学调查了200名学生暑期每周的自习时间(单位:小时),制成了如图所示的频率分布直方图,其中自习时间的范围是,样本数据分组为,,,,.根据直方图,这200名学生中每周的自习时间不少于25小时的人数是( )

A.24 B.48 C.60 D.140
【变式3-2】(2025·四川·一模)某部门调查了200名学生每周的课外活动时间(单位:h),制成了如图所示的频率分布直方图,其中课外活动时间的范围是,并分成,,,,五组.根据直方图,判断这200名学生中每周的课外活动时间不少于14h的人数是( )
A.56 B.80 C.144 D.184
题型四:计算一些数据的平均数、方差、众数、中位数、百分位数
【例4】(24-25高二上·四川成都·期中)2024年度最具幸福感城市调查推选活动于9月16日正式启动,在100个地级及以上的候选城市名单中,成都市入选.“幸福感指数”是指某个人主观地评价他对自己目前生活状态满意程度的指标,常用区间内的一个数来表示,该数越接近10表示满意度越高,现随机抽取10位成都市居民,他们的幸福感指数分别为4,5,6,7,7,7,8,8,9,9,则下列说法错误的是( )
A.该组数据的第60百分位数为7.5 B.该组数据的极差为5
C.该组数据的平均数为7.5 D.该组数据的中位数为7
【变式4-1】(2024·广东广州·模拟预测)已知数据,且满足,若去掉,后组成一组新数据,则新数据与原数据相比,有可能变大的是( )
A.平均数 B.中位数 C.极差 D.方差
【变式4-2】(23-24高一下·新疆·期末)已知在高考前最后一次模拟考试中,高三某班8名同学的物理成绩分别为84,79,84,86,95,84,87,93,则该组数据的平均数和众数分别是( )
A.86,84 B.84.5,85 C.85,84 D.86.5,84
【变式4-3】(23-24高一下·黑龙江大庆·期末)一个同学投掷10次骰子,记录出现的点数,根据统计结果,在下列情况中一定不能出现点数6的是( )
A.平均数为3,中位数为4
B.中位数为4,众数为3
C.平均数为2,方差为2.1
D.中位数为3,方差为0.85
【变式4-4】(2025·贵州铜仁·三模)在处理一组数据时,若未计入数值9,计算所得的平均值为9,方差为3.若将数值9纳入分析,则该组数据( )
A.平均数等于9,方差等于3 B.平均数等于9,方差小于3
C.平均数大于9,方差小于3 D.平均数小于9,方差大于3
题型五:样本估计总体
【例5】(多选题)(2025·高一·江苏南京·期末)如图是某校九年级720名学生的1分钟仰卧起坐的成绩(次数)频率分布直方图,根据统计图的数据,同一组中数据以组中值代表,下列结论正确的是( )

A.该校九年级学生1分钟仰卧起坐的次数的极差为20
B.该校九年级学生1分钟仰卧起坐的次数的众数为
C.该校九年级学生1分钟仰卧起坐的次数的平均数为26
D.该校九年级学生1分钟仰卧起坐的次数少于20的人数约为14
【变式5-1】(多选题)(2025·高一·河南安阳·期末)某校组织“校园安全”知识测试,随机调查600名学生,将他们的测试成绩(满分100分)按照分成五组,得到如图所示的频率分布直方图,则下列说法正确的是( )
A.图中
B.估计样本数据的第60百分位数约为85
C.若每组数据以所在区间的中点值为代表,则这600名学生成绩的平均数约为79.5
D.若按各组人数比例用分层随机抽样的方法抽取27名成绩低于80分的学生,则成绩在内的学生应抽取9人
【变式5-2】(多选题)(2025·高一·湖北咸宁·期末)某高中举行的数学史知识答题比赛,对参赛的2000名考生的成绩进行统计,可得到如图所示的频率分布直方图,其中分组的区间为,若同一组中数据用该组区间中间值作为代表值,则下列说法中正确的是( )
A.考生参赛成绩的平均分约为72.8分
B.考生参赛成绩的第75百分位数约为82.5分
C.分数在区间内的频率为0.2
D.用分层抽样的方法从该校学生中抽取一个容量为200的样本,则成绩在区间应抽取30人
【变式5-3】(24-25高一上·湖南邵阳·期末)某校高一(三)班数学研究小组随机抽取100名同学,获得了他们一周课外锻炼时长(单位:小时)的数据,并整理得到相应的频数分布表和频率分布直方图,如表(一),图(一)所示
组号 分组 频数
1 5
2 7
3 13
4 18
5 27
6 a
7 9
8 4
9 4
合计 100
表(一)
结合以上信息,回答下列问题:
(1)求a,b的值;
(2)假设同一组中的每个数据可用该组对应区间的中点值代替,试估计样本中的100名同学该周课外锻炼时长的平均数;
(3)试估计样本中的100名同学该周课外锻炼时长的中位数.(保留三位有效数字)
题型六:分层方差的计算
【例6】(2025·高一·安徽六安·期末)2023年起我国旅游按下重启键,寒冬有尽,春日可期,先后出现了“淄博烧烤”,“哈尔滨与小土豆”,“天水麻辣烫”等现象级爆款,之后各地文旅各出奇招,六安文旅也在各大平台发布了六安的宣传片:六安瓜片、舒城小兰花、固镇大白鹅等等出现在大众视野现为进一步发展六安文旅,提升六安经济,在5月份对来六安旅游的部分游客发起满意度调查,从饮食、住宿,交通,服务等方面调查旅客满意度,满意度采用百分制,统计的综合满意度绘制成如下频率分布直方图,图中.
(1)试估计游客满意度得分的平均值(同一组中的数据用该组区间的中点值作代表)和第60百分位数.
(2)六安文旅6月份继续对来六安旅游的游客发起满意度调查现知6月1日-6月7日调查的4万份数据中其满意度的平均值为85,方差为74:6月8日-6月14日调查的6万份数据中满意度的平均值为95,方差为69.由这些数据计算6月1日—6月14日的总样本的平均数与方差.
【变式6-1】(2025·高一·新疆乌鲁木齐·期末)某灯具配件厂生产了一种塑胶配件,该厂质检人员某日随机抽取了100个该配件的质量指标值(单位:分)作为一个样本,得到如下所示的频率分布直方图,则(同一组中的数据用该组区间的中点值作代表)
(1)求出m的值;
(2)求样本质量指标值的平均数和第75百分位数;
(3)若样本质量指标值在区间内的平均数和方差为67和51,在区间[70,80]内的平均数和方差为77和21,据此估计在[60,80]内的平均数和方差.
【变式6-2】(2025·高一·西藏拉萨·期末)2024年5月22日至5月28日是第二届全国城市生活垃圾分类宣传周,本次宣传周的主题为“践行新时尚分类志愿行”.拉萨市某中学高一年级举行了一次“垃圾分类知识竞赛”,为了了解本次竞赛成绩情况,从中抽取了部分学生的成绩x(单位:分,得分取正整数,满分为100分)作为样本进行统计将成绩进行整理后,分为五组(,,,,),其中第二组的频数是第一组频数的2倍,请根据下面尚未完成的频率分布直方图(如图所示)解决下列问题:
(1)求a,b的值;
(2)估计这次竞赛成绩的众数,中位数和平均数(同一组中的数据用该组区间的中点值作代表);
(3)某老师在此次竞赛成绩中抽取了10名学生的分数:,,,……,,已知这10个分数的平均数,标准差,若剔除其中的75和85这两个分数,求剩余8个分数的平均数与方差.
题型七:平均数、方差的性质
【例7】(23-24高一下·天津滨海新·期末)已知一组数据的平均数是3.6,方差是2,则新数据的平均数是 ,方差是 .
【变式7-1】(23-24高一下·吉林长春·期末)若样本数据的标准差为8,则数据的方差为
【变式7-2】(24-25高一上·甘肃兰州·期末)若的方差为4,且,则新数据的标准差为 .
【强化训练】
1.(2025·高一·全国·开学考试)某市举行以“学习党的二十大精神,培根铸魂育新人”为主题的中小学教师演讲比赛.若将报名的80位教师编号为00,01,02,…,78,79,利用下面的随机数表来决定他们的出场顺序,选取方法是从下面随机数表第1行第4列开始向右读,则选出来的第6个个体的编号为( )
45 67 32 12 12 31 08 07 34 52 35 21 01 12 51 29
32 04 92 34 49 35 82 00 36 23 48 69 69 38 74 81
A.45 B.52 C.23 D.10
2.如图所示的是收集某城市在一月的气象采集点处的平均气温(单位:)的数据制成的频率分布直方图,图中有一处因污迹看不清.已知各采集点的平均气温范围是,且平均气温低于的采集点个数为,则平均气温不低于的采集点个数为( ).
A. B. C. D.
3.(2025·高一·辽宁朝阳·期末)有一组样本数据:,则关于该组数据的数字特征中,数值最大的为( )
A.分位数 B.平均数 C.极差 D.众数
4.(多选题)(2025·高一·四川凉山·期末)如图所示,下列频率分布直方图显示了三种不同的分布形态.图(1)形成对称形态,图(2)形成“右拖尾”形态,图(3)形成“左拖尾”形态,根据所给图作出以下判断,正确的是( )

A.图(1)的平均数=中位数=众数 B.图(2)的众数<中位数<平均数
C.图(2)的众数<平均数<中位数 D.图(3)的平均数<中位数<众数
5.某咖啡连锁店为了了解各地连锁店的销售情况,把36个连锁店按地区分成甲、乙、丙三组,其中甲、乙两组中连锁店的个数分别为4和12,若用分层随机抽样法从这36个连锁店中抽取9个进行调查,则丙组中应抽取的连锁店的个数为 .
6.(2025·高一·浙江宁波·期中)有一组数据:则这组数据的第百分位数为 .
7.(2025·高一·湖南娄底·期末)某市教育行政部门为了对某届高中毕业生学业水平进行评价,从该市高中毕业生中随机抽取名学生的学业水平考试数学成绩作为样本进行统计.已知该样本中的每个值都是中的整数,且在,,,,上的频率分布直方图如图所示,记这名学生学业水平考试数学平均成绩的最小值(平均数的最小值是用区间的左端点值乘各组的频率)为,则的值为 .

8.(2025·高一·贵州毕节·期末)一支田径队有男运动员50人,女运动员40人.按性别进行分层,用分层抽样的方法从全体运动员中抽出一个容量为18的样本,得到男生 女生的平均身高分别为和.估计该田径队全体队员的平均身高为 .
9.(2025·高一·四川攀枝花·期末)一组数据6,7,8,a,12的平均数为7,则此组数据的极差为 .
10.(2025·高一·浙江宁波·期中)宁波市政府为了鼓励居民节约用电,计划调整居民生活用电收费方案,拟确定一个合理的月用电量标准(千瓦时):月用电量不超过的部分按平价收费,超出的部分按议价收费.为了了解居民用电情况,通过抽样,获得了100位居民每人的月均用电量(千瓦时),将数据按照分成7组,制成了如图所示的频率分布直方图.

(1)求直方图中a的值以及所有样本的平均用电量;
(2)宁波市有900万居民,估计全市居民中月均用电量不低于400千瓦时的人数,并说明理由:
(3)宁波市政府希望使的居民每月的用电量不超过标准(千瓦时),估计的值(保留整数),并说明理由.
11.(2025·高一·贵州六盘水·期末)文明城市是反映城市整体文明水平的综合性荣誉称号.作为普通市民,既是文明城市的最大受益者,又是文明城市的主要创造者.六盘水市为提高市民对文明城市创建的认识,举办了“创建文明城市”知识竞赛(满分100分),从所有答卷的成绩中抽取了容量为100的样本,将样本(成绩均为不低于50分的整数)分成五段:得到如图所示的频率分布直方图.
(1)求频率分布直方图中的值和估计样本的下四分位数;
(2)按照分层抽样的方法,从样本中抽取20份成绩,应从中抽取多少份;
(3)已知落在的平均成绩是53,方差是4;落在的平均成绩为65,方差是7,求成绩落在的平均数和方差.
(注:若将总体划分为若干层,随机抽取两层,通过分层随机抽样,每层抽取的样本量、样本平均数和样本方差分别为:.记这两层总的样本平均数为,样本方差为,则)
12.(2025·高一·安徽滁州·期末)生物医药的开发和应用对解决全球性疾病具有重要意义,生物医药的开发可以帮助解决全球范围内存在的疑难杂症,如癌症、艾滋病、糖尿病等,同时也可以为未来的新病毒和新疾病提供有效的治疗手段.而试验是生物制药中不可缺少的重要环节.某生物制药公司对甲、乙两种新药物的某项指标值()进行实验.对注射甲种药物的20只小白鼠,测量得出该项指标值的数据并绘制表格如图1;对注射乙种药物的30只小白鼠,测量得出该项指标值的数据并绘制频率分布直方图如图2.临床观察表明当值越大,药物对病毒的抑制效果越好.当值大于40时,认为药物有效;当值大于80时,认为药效显著.(假设同一组中的每个数据可用该组区间的中间值代替).

频数 2 3 7 4 3 1
(1)求图2中的值以及注射乙种药物指标值的中位数;
(2)若按分层抽样从注射甲、乙两种药物且药效显著的样本中抽取5件,再从这5件中抽取2件样本作进一步临床实验.记事件表示“2件样本均是来自注射同一种药物的实验组”,事件表示“2件样本中至少有1件样本来自注射乙药物的实验组”,求;
(3)从注射甲药物有效组中随机抽取10个样本.其指标值平均数为,方差;从注射乙药物的有效组中随机抽取20个样本.其指标值平均数为,方差.计算上述30个样本数据均值,方差.
13.文明城市是反映城市整体文明水平的综合性荣誉称号,作为普通市民,既是文明城市的最大受益者,更是文明城市的主要创造者.某市为提高市民对文明城市创建的认识,举办了“创建文明城市”知识竞赛,从所有答卷中随机抽取100份作为样本,将样本的成绩(满分100分,成绩均为不低于40分的整数)分成六段:得到如图所示的频率分布直方图.
(1)求频率分布直方图中a的值;
(2)求样本成绩的第75百分位数;
(3)已知落在的平均成绩是56,方差是7,落在的平均成绩为65,方差是4,求两组成绩的总平均数和总方差
14.(2025·高一·河北唐山·期末)某消防队为了了解市民对“消防基本常识”的认知程度,针对本市不同年龄的人举办了一次“消防之星”知识竞赛,满分100分(95分及以上为.“消防之星”),共有100人荣获“消防之星”称号,将其按年龄分成以下五组:第一组,第二组,第三组,第四组,第五组,得到如图所示的频率分布直方图.
(1)根据频率分布直方图,估计这些人的平均年龄和第80百分位数;
(2)若从第三组,第四组,第五组三组中分层抽取6人,再从这6人中随机抽取2人,求抽取的2人年龄在不同组的概率;
(3)若第三组的年龄的平均数与方差分别为36和2,第四组的年龄的平均数与方差分别为46和4,据此计算这100人中第三组与第四组所有人的年龄的方差.
附:
21世纪教育网(www.21cnjy.com)中小学教育资源及组卷应用平台
专题12 统计的综合应用
【题型归纳目录】
题型一:随机数表法
题型二:分层抽样
题型三:频率分布直方图
题型四:计算一些数据的平均数、方差、众数、中位数、百分位数
题型五:样本估计总体
题型六:分层方差的计算
题型七:平均数、方差的性质
【知识点梳理】
1、统计的相关概念
(1)普查
像人口普查这样,对每一个调查对象都进行调查的方法,称为全面调查,又称普查.
(2)总体、个体
在一个调查中,我们把调查对象的全体称为总体.组成总体的每一个调查对象称为个体.为了强调调查目的,也可以把调查对象的某些指标的全体作为总体,每一个调查对象的相应指标作为个体.
(3)抽样调查
根据一定目的,从总体中抽取一部分个体进行调查,并以此为依据对总体的情况作出估计和推断的调查方法,称为抽样调查.
(4)样本、样本量
我们把从总体中抽取的那部分个体称为样本,样本中包含的个体数称为样本量.
2、简单随机抽样
一般地,设一个总体含有N(N为正整数)个个体,从中逐个抽取n(1≤n3、简单随机抽样的方法
(1)抽签法:
把总体中的N个个体编号,把编号写在外观、质地等无差别的小纸片(也可以是卡片、小球等)上作为号签,将这些小纸片放在一个不透明的盒里,充分搅拌,最后从盒中不放回地逐个抽取号签,使与号签上的编号对应的个体进入样本,直到抽足样本所需的个数.
(2)随机数法:
用随机数工具产生编号范围内的整数随机数,把产生的随机数作为抽中的编号,使与编号对应的个体进入样本.重复上述过程,直到抽足样本所需的个数.
①用随机试验生成随机数;
②用信息技术生成随机数;
③用计算器生成随机数;
④用电子表格软件生成随机数;
⑤用R统计软件生成随机数.
4、总体均值
一般地,总体中有N个个体,它们的变量值分别为Y1,Y2,…,YN,则称 为总体均值,又称总体平均数.
如果总体的N个变量值中,不同的值共有k(k≤N)个,不妨记为Y1,Y2,…,Yk,其中Yi出现的频数fi(i=1,2,…,k),则总体均值还可以写成加权平均数的形式
5、样本均值
如果从总体中抽取一个容量为n的样本,它们的变量值分别为y1,y2,…,yn,则称 为样本均值,又称样本平均数.
探究:总体均值与样本均值有何区别与联系?
答案:(1)区别:当总体中个体较多时,总体均值不易计算,样本均值比较方便计算.总体均值是一个确定的数,样本均值具有随机性.
(2)联系:在简单随机抽样中,我们常用样本均值估计总体均值.
6、分层抽样定义
一般地,在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样方法叫分层抽样.
7、分层抽样适用范围
当总体是由差异明显的几个部分组成时,往往采用分层抽样.
8、分层抽样的步骤
(1)根据已掌握的信息,将总体分成若干部分.
(2)根据总体中的个体数N和样本容量n计算出抽样比k=.
(3)根据抽样比k计算出各层中应抽取的个体数:·Ni (其中Ni为第i层所包含的个体总数).
(4)按步骤3所确定的数在各层中随机抽取个体,并合在一起得到容量为n的样本.
9、两种抽样方法的区别和联系
类别 共同点 各自特点 相互联系 适用范围
简单随机抽样 抽样过程中各个个体被抽到的机会相等,且都是不放回抽取 从总体中逐个抽取 最基本的抽样方法 总体容量较少
分层抽样 抽样过程中各个个体被抽到的机会相等,且都是不放回抽取 将总体分成几部分,每一部分按比例抽取 每层抽样时采用简单随机抽样 总体由差异明显的若干部分组成
10、获取数据的途径
统计学是通过收集数据和分析数据来认识未知现象的,因此如何收集数据,像统计报表和年鉴、社会调查、普查和抽样、互联网、试验设计等等都是常见的.
(1)通过调查获取数据
适用范围:对于有限总体问题,一般通过抽样调查或普查的方法获取数据.
注意事项:充分有效地利用背景信息选择或创建更好的抽样方法,并有效避免抽样过程中的人为错误.
(2)通过试验获取数据.
适用范围:没有现存的数据可以查询,就需要通过对比试验的方法去获取样本观测数据.
注意事项:严格控制试验环境,通过精心的设计安排试验,以提高数据质量,为获得好的分析结果奠定基础.
(3)通过观察获取数据.
适用范围:自然现象.
注意事项:需要专业测量设备获取观测数据.
(4)通过查询获得数据.
适用范围:二手数据.
注意事项:数据来历和渠道多样,所以质量会参差不齐,必须根据问题背景知识“清洗”数据,去伪存真.
11、频率分布直方图绘制步骤
①求极差,即一组数据中的最大值与最小值的差.
②决定组距与组数.组距与组数的确定没有固定的标准,一般数据的个数越多,所分组数越多.当样本容量不超过100时,常分成5~12组.为方便起见,一般取等长组距,并且组距应力求“取整”.
③将数据分组.
④列频率分布表.计算各小组的频率,第i组的频率是.
⑤画频率分布直方图.其中横轴表示分组,纵轴表示,实际上就是频率分布直方图中各小长方形的高度,它反映了各组样本观测数据的疏密程度.
12、频率分布直方图意义:各个小长方形的面积表示相应各组的频率,频率分布直方图以面积的形式反映数据落在各个小组的频率的大小,各小长方形的面积的总和等于1.
13、总体取值规律的估计:我们可以用样本观测数据的频率分布估计总体的取值规律.
14、频率分布直方图的特征:当频率分布直方图的组数少、组距大时,容易从中看出数据整体的分布特点,但由于无法看出每组内的数据分布情况,损失了较多的原式数据信息;当频率分布直方图的组数多、组距小时,保留了较多的原始数据信息,但由于小长方形较多,有时图形会变得非常不规则,不容易从中看出总体数据的分布特点.
15、常见的其他统计图:条形图、扇形图、折线图.
扇形图主要用于直观描述各类数据占总数的比例;
条形图和直方图主要用于直观描述不同类别或分组数据的频数和频率;
折线图主要用于描述数据随时间的变化趋势.
16、各个统计图特点
(1)不同的统计图在表示数据上有不同的特点.如扇形图主要用于直观描述各类数据占总数的比例,条形图和直方图主要用于直观描述不同类别或分组数据的频数和频率,折线图主要用于描述数据随时间的变化趋势.
(2)不同的统计图适用的数据类型也不同.如条形图适用于描述离散型的数据,直方图适用于描述连续性数据.
17、第p百分位数的定义
一般地,一组数据的第p百分位数是这样一个值,它使得这组数据中至少有的数据小于或等于这个值,且至少有的数据大于或等于这个值.
18、计算第百分位数的步骤
第1步:按从小到大排列原始数据.
第2步:计算.
第3步:若i不是整数,而大于i的比邻整数为j,则第p百分位数为第j项数据;若i是整数,则第p百分位数为第i项与第项数据的平均数.
19、四分位数
常用的分位数有第25百分位数、第50百分位数、第75百分位数,这三个分位数把一组由小到大排列后的数据分成四等份,因此称为四分位数.其中第25百分位数也称为第一四分位数或下四分位数等,第75百分位数也称为第三四分位数或上四分位数等.
20、众数、中位数、平均数定义
(1)众数:一组数据中重复出现次数最多的数.
(2)中位数:把一组数据按从小到大的顺序排列,处在中间位置(或中间两个数的平均数)的数叫做这组数据的中位数.
(3)平均数:如果个数,那么叫做这个数的平均数.
21、频率分布直方图中的众数、中位数、平均数
①在频率分布直方图中,众数是最高矩形中点的横坐标;
②中位数左边和右边的直方图的面积应该相等;
③平均数的估计值等于频率分布直方图中每个小矩形的面积乘以小矩形底边中点的横坐标之和.
12、方差、标准差的定义
一组数据,用表示这组数据的平均数,则这组数据的方差为,标准差为.
23、总体方差、总体标准差的定义
如果总体中所有个体的变量值分别为,总体平均数为,则称为总体方差,为总体标准差.如果总体的个变量值中,不同的值共有个,记为,,其中出现的频数为,则总体方差为.
24、样本方差、样本标准差的定义
如果一个样本中个体的变量值分别为,样本平均数为,则称为样本方差,为样本标准差.
25、方差、标准差特征
标准差、方差刻画了数据的离散程度或波动幅度,标准差越大,数据的离散程度越大;标准差越小,数据的离散程度越小.在刻画数据的分散程度上,方差和标准差是一样的.但在解决实际问题中,一般多采用标准差.
【典型例题】
题型一:随机数表法
【例1】某总体由编号为的个个体组成,利用下列随机数表选出个个体,选法是下列表中第一行第列开始从左到右依次选个数字,选出的第个个体编号为( )
1818 0792 4544 1716 5809 7983 8619
6216 7650 0310 5523 6405 0526 6238
A.16 B.09 C.19 D.61
【答案】C
【解析】选取方法是从随机数表第1行的第列数字开始,
从左到右依次选取两个数字,
则选出来的个个体编号分别为∶
所以选出来的第个个体编号为.
故选:C.
【变式1-1】某工厂用简单随机抽样中的随机数法对生产的700个零件进行抽样,先将700个零件进行编号,.从中抽取70个样本,下图是利用软件生成的随机数,只需随机选定一个初始位置和方向开始读数,每次读取一个3位数,只要读取的号码落在编号范围内,该号码就是所抽到的样本编号,这样即可获得70个样本的编号,注意样本号码不能重复.若从表中第2行第6列的数2开始向右读取数据,取到的第一个样本编号是253,则得到的第6个样本编号是( )
A.007 B.328 C.253 D.623
【答案】D
【解析】依题意可得抽取的样本编号依次为:,,,,,,,
所以第个样本编号是.
故选:D
【变式1-2】(2025·高一·江苏连云港·期末)总体编号为01,02,…,29,30的30个个体组成.利用下面的随机数表选取6个个体,选取方法是从随机数表第1行的第3列和第4列数字开始由左到右依次选取两个数字,则选出来的第6个个体的编号为( )
7816 1572 0802 6315 0216 4319 9714 0198
3204 9234 4936 8200 3623 4869 6938 7181
A.02 B.14 C.15 D.16
【答案】B
【解析】选取方法是从随机数表第1行的第3列和第4列数字开始由左到右依次选取两个数字,
则选出来的个体的编号为16,15,72(舍去),08,02,63(舍去),15(舍去),
02(舍去),16(舍去),43(舍去),19,97(舍去),14.
故选出的第6个个体编号为14.
故选:B.
【变式1-3】某班对上学期期末成绩进行分析,利用随机数表法抽取样本时,先将个同学的成绩按进行编号,然后从随机数表第行第列的数开始向右读,抽取一个容量为的样本,则选出的第个个体是( )(注:如下为随机数表的第8行和第9行)
63 01 63 78 59 16 95 55 67 19 98 10 50 71 75 12 86 73 58
33 21 12 34 29 78 64 56 07 82 52 45 07 44 38 15 51 00 13
A.07 B.25 C.42 D.52
【答案】D
【解析】依题意,抽取的前个个体是:,
所以选出的第个个体是.
故选:D
题型二:分层抽样
【例2】已知某地区有小学生12000人,初中生11000人,高中生9000人,现在要了解该地区学生的近视情况,准备抽取320人进行调查,则应该抽取小学生、初中生、高中生的人数分别是 .
【答案】120,110,90
【解析】小学生,初中生,高中生人数的比例为,
故抽取的小学生,初中生,高中生的人数分别为.
故答案为:120,110,90.
【变式2-1】(2025·高一·北京房山·期末)某单位共有名职工,其中岁以下的有人,-岁的有人,岁及以上的有人.现用分层抽样的方法,从中抽取名职工进行问卷调查,则抽取的岁及以上的职工人数为 .
【答案】
【解析】因为抽样比例为,
所以岁及以上的职工应抽取(人).
故答案为:.
【变式2-2】(2025·高二·安徽·学业考试)某高中高一年级有学生1440人,高二年级有学生1600人,高三年级有学生1760人.现用分层抽样的方法,从这三个年级学生中抽取n人了解他们的学习情况,其中在高二年级抽取了100人,则 .
【答案】300
【解析】利用分层抽样的方法从三个年级中抽取了n人进行问卷调查,其中高二年级抽取了100人,高二年级共有1600人,
则每个学生被抽到的概率为,
可得,解得(人),
故答案为:.
题型三:频率分布直方图
【例3】(2025·高一·全国·单元测试)如图是某小区居民月均用电量的频率分布直方图,则月用电量为范围内的用户所占比例为( )
A. B. C. D.
【答案】C
【解析】由题意可知,
所以,
所以月用电量为范围内的用户占了.
故选:C.
【变式3-1】(2025·高一·天津河东·期末)某中学调查了200名学生暑期每周的自习时间(单位:小时),制成了如图所示的频率分布直方图,其中自习时间的范围是,样本数据分组为,,,,.根据直方图,这200名学生中每周的自习时间不少于25小时的人数是( )

A.24 B.48 C.60 D.140
【答案】C
【解析】由频率分布直方图可知自习时间不少于25小时的频率为,
故这200名学生中每周的自习时间不少于25小时的人数为(人).
故选:C
【变式3-2】(2025·四川·一模)某部门调查了200名学生每周的课外活动时间(单位:h),制成了如图所示的频率分布直方图,其中课外活动时间的范围是,并分成,,,,五组.根据直方图,判断这200名学生中每周的课外活动时间不少于14h的人数是( )
A.56 B.80 C.144 D.184
【答案】C
【解析】每周的课外活动时间不少于14h的频率为,
故所求人数,
故选:C.
题型四:计算一些数据的平均数、方差、众数、中位数、百分位数
【例4】(24-25高二上·四川成都·期中)2024年度最具幸福感城市调查推选活动于9月16日正式启动,在100个地级及以上的候选城市名单中,成都市入选.“幸福感指数”是指某个人主观地评价他对自己目前生活状态满意程度的指标,常用区间内的一个数来表示,该数越接近10表示满意度越高,现随机抽取10位成都市居民,他们的幸福感指数分别为4,5,6,7,7,7,8,8,9,9,则下列说法错误的是( )
A.该组数据的第60百分位数为7.5 B.该组数据的极差为5
C.该组数据的平均数为7.5 D.该组数据的中位数为7
【答案】C
【解析】A选项:,因此该组数据的第60百分位数为,故A正确;
B选项:该组数据最大为9,最小为4,因此极差为,故B正确;
C选项:该组数据的平均数为,故C错误;
D选项:该组数据的中位数为第五个和第六个数据的平均值7,故D正确,
故选:C.
【变式4-1】(2024·广东广州·模拟预测)已知数据,且满足,若去掉,后组成一组新数据,则新数据与原数据相比,有可能变大的是( )
A.平均数 B.中位数 C.极差 D.方差
【答案】A
【解析】由于,所以原来的极差为,新数据的极差为,故极差变小,
原来和新数据的中位数均为,故中位数不变,
去掉,后,数据波动性变小,故方差变小,
因此可能变大的是平均数,比如,原数据的平均数为6.6,去掉1和12后,
新数据的平均数为,但,故A正确.
故选:A
【变式4-2】(23-24高一下·新疆·期末)已知在高考前最后一次模拟考试中,高三某班8名同学的物理成绩分别为84,79,84,86,95,84,87,93,则该组数据的平均数和众数分别是( )
A.86,84 B.84.5,85 C.85,84 D.86.5,84
【答案】D
【解析】将样本数据按升序排列为79,84,84,84,86,87,93,95,可得平均数,
因为84出现了三次,且次数最多,所以众数为84.
故选:D
【变式4-3】(23-24高一下·黑龙江大庆·期末)一个同学投掷10次骰子,记录出现的点数,根据统计结果,在下列情况中一定不能出现点数6的是( )
A.平均数为3,中位数为4
B.中位数为4,众数为3
C.平均数为2,方差为2.1
D.中位数为3,方差为0.85
【答案】C
【解析】对于A,10次点数为符合题意,故A错误;
对于B,10次点数为符合题意,故B错误

对于C,设10次点数为,且,平均数为,
假设有一次点数为6,不妨设,
由方差公式,
代入,,,
则,则最大取4,
不妨设,则,方程无解,故,
当,,最大取3,
不妨设,则,则,
则这10次点数为,但平均数为,不合题意,故;
当时,,方程无解,故;
当时,,方程无解,
综上所述,假设有一次点数为6不成立,故C正确;
对于D,10次点数为符合题意,故D错误

故选:C.
【变式4-4】(2025·贵州铜仁·三模)在处理一组数据时,若未计入数值9,计算所得的平均值为9,方差为3.若将数值9纳入分析,则该组数据( )
A.平均数等于9,方差等于3 B.平均数等于9,方差小于3
C.平均数大于9,方差小于3 D.平均数小于9,方差大于3
【答案】B
【解析】设末计入9时的数据有个,这些数的和为,
那么加入9后,数据总和为,数据个数变为,新的平均数为.
根据方差公式,加入9后,,且分母增大,所以方差变小.
故选:B.
题型五:样本估计总体
【例5】(多选题)(2025·高一·江苏南京·期末)如图是某校九年级720名学生的1分钟仰卧起坐的成绩(次数)频率分布直方图,根据统计图的数据,同一组中数据以组中值代表,下列结论正确的是( )

A.该校九年级学生1分钟仰卧起坐的次数的极差为20
B.该校九年级学生1分钟仰卧起坐的次数的众数为
C.该校九年级学生1分钟仰卧起坐的次数的平均数为26
D.该校九年级学生1分钟仰卧起坐的次数少于20的人数约为14
【答案】BC
【解析】1分钟仰卧起坐的次数的极差为,故A选项错误;
1分钟仰卧起坐的次数的众数就是频率最高的中间值为27.5,故B选项正确;
1分钟仰卧起坐的平均数,故C选项正确;
1分钟仰卧起坐的次数少于20次的频率为,所以1分钟仰卧起坐的次数少于20次的人数约有72人,故D选项错误
故选:
【变式5-1】(多选题)(2025·高一·河南安阳·期末)某校组织“校园安全”知识测试,随机调查600名学生,将他们的测试成绩(满分100分)按照分成五组,得到如图所示的频率分布直方图,则下列说法正确的是( )
A.图中
B.估计样本数据的第60百分位数约为85
C.若每组数据以所在区间的中点值为代表,则这600名学生成绩的平均数约为79.5
D.若按各组人数比例用分层随机抽样的方法抽取27名成绩低于80分的学生,则成绩在内的学生应抽取9人
【答案】BCD
【解析】对于A,由图知,解得,故A错误;
对于B,成绩在内对应的频率为,
成绩在内对应的频率为,
因此第60百分位数位于区间内,,
所以估计样本数据的第60百分位数约为85,故B正确;
对于C,平均数约为,故C正确;
对于D,成绩低于80分的三组学生的人数之比为,
则应选取成绩在内的学生人数为,故D正确.
故选:BCD.
【变式5-2】(多选题)(2025·高一·湖北咸宁·期末)某高中举行的数学史知识答题比赛,对参赛的2000名考生的成绩进行统计,可得到如图所示的频率分布直方图,其中分组的区间为,若同一组中数据用该组区间中间值作为代表值,则下列说法中正确的是( )
A.考生参赛成绩的平均分约为72.8分
B.考生参赛成绩的第75百分位数约为82.5分
C.分数在区间内的频率为0.2
D.用分层抽样的方法从该校学生中抽取一个容量为200的样本,则成绩在区间应抽取30人
【答案】BC
【解析】对A,平均成绩
为,故A错误;
对B,由频率分布直方图知第75百分位数位于内,
则第75百分位数为,故B正确;
对C,分数在区间内的频率为,故C正确;
对D,区间应抽取人,故D错误.
故选:BC
【变式5-3】(24-25高一上·湖南邵阳·期末)某校高一(三)班数学研究小组随机抽取100名同学,获得了他们一周课外锻炼时长(单位:小时)的数据,并整理得到相应的频数分布表和频率分布直方图,如表(一),图(一)所示
组号 分组 频数
1 5
2 7
3 13
4 18
5 27
6 a
7 9
8 4
9 4
合计 100
表(一)
结合以上信息,回答下列问题:
(1)求a,b的值;
(2)假设同一组中的每个数据可用该组对应区间的中点值代替,试估计样本中的100名同学该周课外锻炼时长的平均数;
(3)试估计样本中的100名同学该周课外锻炼时长的中位数.(保留三位有效数字)
【解析】(1)由表(一)可知:,解得;
位于区间的频数为,则频率为,所以.
(2)样本中的100名同学该周课外锻炼时长的平均数为:

(3)设样本中的100名同学该周课外锻炼时长的中位数为,
由表(一)可知,位于区间的频率为,位于区间的频率为,
所以中位数位于区间,
所以,.
因此,估计样本中的100名同学该周课外锻炼时长的中位数为.
题型六:分层方差的计算
【例6】(2025·高一·安徽六安·期末)2023年起我国旅游按下重启键,寒冬有尽,春日可期,先后出现了“淄博烧烤”,“哈尔滨与小土豆”,“天水麻辣烫”等现象级爆款,之后各地文旅各出奇招,六安文旅也在各大平台发布了六安的宣传片:六安瓜片、舒城小兰花、固镇大白鹅等等出现在大众视野现为进一步发展六安文旅,提升六安经济,在5月份对来六安旅游的部分游客发起满意度调查,从饮食、住宿,交通,服务等方面调查旅客满意度,满意度采用百分制,统计的综合满意度绘制成如下频率分布直方图,图中.
(1)试估计游客满意度得分的平均值(同一组中的数据用该组区间的中点值作代表)和第60百分位数.
(2)六安文旅6月份继续对来六安旅游的游客发起满意度调查现知6月1日-6月7日调查的4万份数据中其满意度的平均值为85,方差为74:6月8日-6月14日调查的6万份数据中满意度的平均值为95,方差为69.由这些数据计算6月1日—6月14日的总样本的平均数与方差.
【解析】(1)由题意知,,所以,
所以满意度得分的平均值为,
因为,,
所以第百分位数位于第三个区间内,
所以第百分位数为分.
(2)把6月1日—6月7日的样本记为,其平均数记为,方差记为,
把6月8日—6月14日的样本记为,其平均数记为,方差记为,总样本方差为,
则总样本平均数,
由方差的定义,样本总方差为:
所以,
所以总样本的平均数为,方差为.
【变式6-1】(2025·高一·新疆乌鲁木齐·期末)某灯具配件厂生产了一种塑胶配件,该厂质检人员某日随机抽取了100个该配件的质量指标值(单位:分)作为一个样本,得到如下所示的频率分布直方图,则(同一组中的数据用该组区间的中点值作代表)
(1)求出m的值;
(2)求样本质量指标值的平均数和第75百分位数;
(3)若样本质量指标值在区间内的平均数和方差为67和51,在区间[70,80]内的平均数和方差为77和21,据此估计在[60,80]内的平均数和方差.
【解析】(1)由题意知,解得,
(2)样本质量指标值的平均数为,
前3组的频率之和为,前4组的频率之和为,
故第75百分位数位于第4组,设其为,
则,解得,
即第75百分位数为85.
(3)已知在区间内的平均数和方差为67和51,
在区间[70,80]内的平均数和方差为77和21,
则在[60,80]在内的平均数,
在[60,80]在内的方差.
估计在[60,80]内的平均数为,方差为.
【变式6-2】(2025·高一·西藏拉萨·期末)2024年5月22日至5月28日是第二届全国城市生活垃圾分类宣传周,本次宣传周的主题为“践行新时尚分类志愿行”.拉萨市某中学高一年级举行了一次“垃圾分类知识竞赛”,为了了解本次竞赛成绩情况,从中抽取了部分学生的成绩x(单位:分,得分取正整数,满分为100分)作为样本进行统计将成绩进行整理后,分为五组(,,,,),其中第二组的频数是第一组频数的2倍,请根据下面尚未完成的频率分布直方图(如图所示)解决下列问题:
(1)求a,b的值;
(2)估计这次竞赛成绩的众数,中位数和平均数(同一组中的数据用该组区间的中点值作代表);
(3)某老师在此次竞赛成绩中抽取了10名学生的分数:,,,……,,已知这10个分数的平均数,标准差,若剔除其中的75和85这两个分数,求剩余8个分数的平均数与方差.
【解析】(1)由第二组的频数是第一组的2倍,可得第二组的频率为第一组的2倍,所以,解得,
又,解得,
所以,;
(2)由题知,估计众数为=75;
成绩落在内的频率为:,
落在内的频率为:,
因此中位数落在区间内,
设中位数为m,则,解得.
由题知各组频率分别为0.16,0.32,0.4,0.08,0.04,
各组区间中点值分别为55,65,75,85,95,
所以平均数的近似值为,
故估计这次竞赛成绩的众数约为,中位数约为,平均数约为;
(3)由,得:.
又,
所以:,
剔除其中的75和85两个分数,设剩余8个数为,
平均数与标准差分别为,,
则剩余8个分数的平均数:;
所以
即:
方差:.
故剩余8个分数的平均数为,方差为.
题型七:平均数、方差的性质
【例7】(23-24高一下·天津滨海新·期末)已知一组数据的平均数是3.6,方差是2,则新数据的平均数是 ,方差是 .
【答案】 5.6 2
【解析】由已知得,

所以,
.
故答案为:5.6;2.
【变式7-1】(23-24高一下·吉林长春·期末)若样本数据的标准差为8,则数据的方差为
【答案】256
【解析】因为样本数据的标准差为8,则其方差为64,
故数据的方差为.
故答案为:256
【变式7-2】(24-25高一上·甘肃兰州·期末)若的方差为4,且,则新数据的标准差为 .
【答案】6
【解析】因为的方差为,,
所以的方差为,故标准差为6
故答案为:6
【强化训练】
1.(2025·高一·全国·开学考试)某市举行以“学习党的二十大精神,培根铸魂育新人”为主题的中小学教师演讲比赛.若将报名的80位教师编号为00,01,02,…,78,79,利用下面的随机数表来决定他们的出场顺序,选取方法是从下面随机数表第1行第4列开始向右读,则选出来的第6个个体的编号为( )
45 67 32 12 12 31 08 07 34 52 35 21 01 12 51 29
32 04 92 34 49 35 82 00 36 23 48 69 69 38 74 81
A.45 B.52 C.23 D.10
【答案】B
【解析】由题意得,抽取编号依次为73,21,21(重复,舍去),23,10,73(重复,舍去),45,23(重复,舍去),52,
所以选出来的第6个个体的编号为52.
故选:B.
2.如图所示的是收集某城市在一月的气象采集点处的平均气温(单位:)的数据制成的频率分布直方图,图中有一处因污迹看不清.已知各采集点的平均气温范围是,且平均气温低于的采集点个数为,则平均气温不低于的采集点个数为( ).
A. B. C. D.
【答案】D
【解析】由图可知,平均气温在和的频率相等,且组距为,
所以平均气温在的频率是,
低于的频率是,
而平均气温低于的采集点个数是,
所以样本容量为,
则平均气温不低于的采集点个数为,
故选:D.
3.(2025·高一·辽宁朝阳·期末)有一组样本数据:,则关于该组数据的数字特征中,数值最大的为( )
A.分位数 B.平均数 C.极差 D.众数
【答案】C
【解析】在这组样本数据中:,
第分位数是:,
平均数是:,
极差是:,
众数是:,
在以上四个数中,显然是极差最大,
故选:C.
4.(多选题)(2025·高一·四川凉山·期末)如图所示,下列频率分布直方图显示了三种不同的分布形态.图(1)形成对称形态,图(2)形成“右拖尾”形态,图(3)形成“左拖尾”形态,根据所给图作出以下判断,正确的是( )

A.图(1)的平均数=中位数=众数 B.图(2)的众数<中位数<平均数
C.图(2)的众数<平均数<中位数 D.图(3)的平均数<中位数<众数
【答案】ABD
【解析】图(1)的分布直方图是对称的,所以平均数=中位数=众数,故A正确;
图(2)众数最小,右拖尾平均数大于中位数,故B正确,C错误;
图(3)左拖尾众数最大,平均数小于中位数,故D正确.
故选:ABD.
5.某咖啡连锁店为了了解各地连锁店的销售情况,把36个连锁店按地区分成甲、乙、丙三组,其中甲、乙两组中连锁店的个数分别为4和12,若用分层随机抽样法从这36个连锁店中抽取9个进行调查,则丙组中应抽取的连锁店的个数为 .
【答案】
【解析】由题意得丙组中连锁店的个数为个,
则丙组中应抽取的连锁店的个数为个.
故答案为:.
6.(2025·高一·浙江宁波·期中)有一组数据:则这组数据的第百分位数为 .
【答案】
【解析】6个数由小到大的排列为,
而,故第百分位数为,
故答案为:.
7.(2025·高一·湖南娄底·期末)某市教育行政部门为了对某届高中毕业生学业水平进行评价,从该市高中毕业生中随机抽取名学生的学业水平考试数学成绩作为样本进行统计.已知该样本中的每个值都是中的整数,且在,,,,上的频率分布直方图如图所示,记这名学生学业水平考试数学平均成绩的最小值(平均数的最小值是用区间的左端点值乘各组的频率)为,则的值为 .

【答案】/
【解析】平均数的最小值是用区间的左端点值乘各组的频率,所以有:

故答案为:67.5
8.(2025·高一·贵州毕节·期末)一支田径队有男运动员50人,女运动员40人.按性别进行分层,用分层抽样的方法从全体运动员中抽出一个容量为18的样本,得到男生 女生的平均身高分别为和.估计该田径队全体队员的平均身高为 .
【答案】167
【解析】由题意可得,样本中男生人数为,
女生人数为,
则样本运动员的平均身高为,
故估计该田径队全体队员的平均身高为.
故答案为:.
9.(2025·高一·四川攀枝花·期末)一组数据6,7,8,a,12的平均数为7,则此组数据的极差为 .
【答案】10
【解析】一组数据6,7,8,a,12的平均数为,解得,
所以此组数据的极差为.
故答案为:10.
10.(2025·高一·浙江宁波·期中)宁波市政府为了鼓励居民节约用电,计划调整居民生活用电收费方案,拟确定一个合理的月用电量标准(千瓦时):月用电量不超过的部分按平价收费,超出的部分按议价收费.为了了解居民用电情况,通过抽样,获得了100位居民每人的月均用电量(千瓦时),将数据按照分成7组,制成了如图所示的频率分布直方图.

(1)求直方图中a的值以及所有样本的平均用电量;
(2)宁波市有900万居民,估计全市居民中月均用电量不低于400千瓦时的人数,并说明理由:
(3)宁波市政府希望使的居民每月的用电量不超过标准(千瓦时),估计的值(保留整数),并说明理由.
【解析】(1)由频率和为1可得解得,
样本的平均用电量为:(千瓦).
(2)由直方图可得用电量不低于千瓦的频率为,
故全市居民中月均用电量不低于千瓦的人数为万人.
(3)由直方图得前组的频率之和为,
前组的频率之和为,
故第百分位数在中,故,
故,故(千瓦).
11.(2025·高一·贵州六盘水·期末)文明城市是反映城市整体文明水平的综合性荣誉称号.作为普通市民,既是文明城市的最大受益者,又是文明城市的主要创造者.六盘水市为提高市民对文明城市创建的认识,举办了“创建文明城市”知识竞赛(满分100分),从所有答卷的成绩中抽取了容量为100的样本,将样本(成绩均为不低于50分的整数)分成五段:得到如图所示的频率分布直方图.
(1)求频率分布直方图中的值和估计样本的下四分位数;
(2)按照分层抽样的方法,从样本中抽取20份成绩,应从中抽取多少份;
(3)已知落在的平均成绩是53,方差是4;落在的平均成绩为65,方差是7,求成绩落在的平均数和方差.
(注:若将总体划分为若干层,随机抽取两层,通过分层随机抽样,每层抽取的样本量、样本平均数和样本方差分别为:.记这两层总的样本平均数为,样本方差为,则)
【解析】(1)由已知可得由已知可得

样本成绩在分以下的答卷所占的比例为,
样本成绩在分以下的答卷所占的比例为,
因此样本成绩的下四分位数一定位于内,设为,则,解得,
所以因此样本成绩的下四分位数为;
(2)按照分层抽样的方法,从样本中抽取份成绩,抽样的比例为,
样本成绩在有人,
则从样本成绩中抽取人;
(3)落在的人数为人,
落在的人数为人,
两组成绩的总平均数,
两组成绩的总方差.
12.(2025·高一·安徽滁州·期末)生物医药的开发和应用对解决全球性疾病具有重要意义,生物医药的开发可以帮助解决全球范围内存在的疑难杂症,如癌症、艾滋病、糖尿病等,同时也可以为未来的新病毒和新疾病提供有效的治疗手段.而试验是生物制药中不可缺少的重要环节.某生物制药公司对甲、乙两种新药物的某项指标值()进行实验.对注射甲种药物的20只小白鼠,测量得出该项指标值的数据并绘制表格如图1;对注射乙种药物的30只小白鼠,测量得出该项指标值的数据并绘制频率分布直方图如图2.临床观察表明当值越大,药物对病毒的抑制效果越好.当值大于40时,认为药物有效;当值大于80时,认为药效显著.(假设同一组中的每个数据可用该组区间的中间值代替).

频数 2 3 7 4 3 1
(1)求图2中的值以及注射乙种药物指标值的中位数;
(2)若按分层抽样从注射甲、乙两种药物且药效显著的样本中抽取5件,再从这5件中抽取2件样本作进一步临床实验.记事件表示“2件样本均是来自注射同一种药物的实验组”,事件表示“2件样本中至少有1件样本来自注射乙药物的实验组”,求;
(3)从注射甲药物有效组中随机抽取10个样本.其指标值平均数为,方差;从注射乙药物的有效组中随机抽取20个样本.其指标值平均数为,方差.计算上述30个样本数据均值,方差.
【解析】(1)由频率之和为1以及频率分布直方图得,,
则前3组频率之和为,
前4组频率之和为,
所以注射乙种药物指标值的中位数在内为.
(2)由题甲、乙两种药物药效显著的频数分别为、,
故按比例从中抽取5件则从甲种药物中抽件,记为M、N,从乙种药物中抽件,记为a、b、c,
再从这5件中抽取2件样本的样本空间为共10个样本点,
则共4个样本点,共9个样本点,
所以,故.
(3)由题,
故.
13.文明城市是反映城市整体文明水平的综合性荣誉称号,作为普通市民,既是文明城市的最大受益者,更是文明城市的主要创造者.某市为提高市民对文明城市创建的认识,举办了“创建文明城市”知识竞赛,从所有答卷中随机抽取100份作为样本,将样本的成绩(满分100分,成绩均为不低于40分的整数)分成六段:得到如图所示的频率分布直方图.
(1)求频率分布直方图中a的值;
(2)求样本成绩的第75百分位数;
(3)已知落在的平均成绩是56,方差是7,落在的平均成绩为65,方差是4,求两组成绩的总平均数和总方差
【解析】(1)每组小矩形的面积之和为1,


(2)成绩落在内的频率为,
落在内的频率为,
设第75百分位数为m,
由,
得,故第75百分位数为84;
(3)由频率分布直方图知,成绩在的市民人数为,
成绩在的市民人数为,所以;
由样本方差计算总体方差公式,得总方差为
14.(2025·高一·河北唐山·期末)某消防队为了了解市民对“消防基本常识”的认知程度,针对本市不同年龄的人举办了一次“消防之星”知识竞赛,满分100分(95分及以上为.“消防之星”),共有100人荣获“消防之星”称号,将其按年龄分成以下五组:第一组,第二组,第三组,第四组,第五组,得到如图所示的频率分布直方图.
(1)根据频率分布直方图,估计这些人的平均年龄和第80百分位数;
(2)若从第三组,第四组,第五组三组中分层抽取6人,再从这6人中随机抽取2人,求抽取的2人年龄在不同组的概率;
(3)若第三组的年龄的平均数与方差分别为36和2,第四组的年龄的平均数与方差分别为46和4,据此计算这100人中第三组与第四组所有人的年龄的方差.
附:
【解析】(1)这些人的平均年龄为
(岁).
由频率分布直方图可知,年龄在的频率为,
在的频率为,
则第80百分位数为,由,解得.
所以估计这些人的平均年龄为34.5岁,第80百分位数为45.
(2)第三组,第四组,第五组的频率分别为0.3,0.2,0.1.
若从这三组中分层抽取6人,则从第三组抽取3人,记为;第四组抽取2人,
记为;第五组抽取1人,记为;
对应的样本空间,

所以;
设事件为“从6人中随机抽取两人,所抽取的2人年龄在不同组”,
则,
,所以.
所以.
(3)设第三组、第四组的年龄的平均数分别为,方差分别为.则.
由第三组有30人,第四组有20人,
设第三组和第四组所有人的年龄平均数为,方差为,

所以这100人中第三组与第四组所有人的年龄的方差为26.8.
21世纪教育网(www.21cnjy.com)

展开更多......

收起↑

资源列表