资源简介 中小学教育资源及组卷应用平台专题11 抽样、频率分布直方图、样本估计总体【题型归纳目录】题型一:随机数表法题型二:分层抽样题型三:频率分布直方图题型四:计算一些数据的平均数、方差、众数、中位数、百分位数题型五:样本估计总体题型六:分层方差的计算题型七:平均数、方差的性质【知识点梳理】1、统计的相关概念(1)普查像人口普查这样,对每一个调查对象都进行调查的方法,称为全面调查,又称普查.(2)总体、个体在一个调查中,我们把调查对象的全体称为总体.组成总体的每一个调查对象称为个体.为了强调调查目的,也可以把调查对象的某些指标的全体作为总体,每一个调查对象的相应指标作为个体.(3)抽样调查根据一定目的,从总体中抽取一部分个体进行调查,并以此为依据对总体的情况作出估计和推断的调查方法,称为抽样调查.(4)样本、样本量我们把从总体中抽取的那部分个体称为样本,样本中包含的个体数称为样本量.2、简单随机抽样一般地,设一个总体含有N(N为正整数)个个体,从中逐个抽取n(1≤n3、简单随机抽样的方法(1)抽签法:把总体中的N个个体编号,把编号写在外观、质地等无差别的小纸片(也可以是卡片、小球等)上作为号签,将这些小纸片放在一个不透明的盒里,充分搅拌,最后从盒中不放回地逐个抽取号签,使与号签上的编号对应的个体进入样本,直到抽足样本所需的个数.(2)随机数法:用随机数工具产生编号范围内的整数随机数,把产生的随机数作为抽中的编号,使与编号对应的个体进入样本.重复上述过程,直到抽足样本所需的个数.①用随机试验生成随机数;②用信息技术生成随机数;③用计算器生成随机数;④用电子表格软件生成随机数;⑤用R统计软件生成随机数.4、总体均值一般地,总体中有N个个体,它们的变量值分别为Y1,Y2,…,YN,则称 为总体均值,又称总体平均数.如果总体的N个变量值中,不同的值共有k(k≤N)个,不妨记为Y1,Y2,…,Yk,其中Yi出现的频数fi(i=1,2,…,k),则总体均值还可以写成加权平均数的形式5、样本均值如果从总体中抽取一个容量为n的样本,它们的变量值分别为y1,y2,…,yn,则称 为样本均值,又称样本平均数.探究:总体均值与样本均值有何区别与联系?答案:(1)区别:当总体中个体较多时,总体均值不易计算,样本均值比较方便计算.总体均值是一个确定的数,样本均值具有随机性.(2)联系:在简单随机抽样中,我们常用样本均值估计总体均值.6、分层抽样定义一般地,在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样方法叫分层抽样.7、分层抽样适用范围当总体是由差异明显的几个部分组成时,往往采用分层抽样.8、分层抽样的步骤(1)根据已掌握的信息,将总体分成若干部分.(2)根据总体中的个体数N和样本容量n计算出抽样比k=.(3)根据抽样比k计算出各层中应抽取的个体数:·Ni (其中Ni为第i层所包含的个体总数).(4)按步骤3所确定的数在各层中随机抽取个体,并合在一起得到容量为n的样本.9、两种抽样方法的区别和联系类别 共同点 各自特点 相互联系 适用范围简单随机抽样 抽样过程中各个个体被抽到的机会相等,且都是不放回抽取 从总体中逐个抽取 最基本的抽样方法 总体容量较少分层抽样 抽样过程中各个个体被抽到的机会相等,且都是不放回抽取 将总体分成几部分,每一部分按比例抽取 每层抽样时采用简单随机抽样 总体由差异明显的若干部分组成10、获取数据的途径统计学是通过收集数据和分析数据来认识未知现象的,因此如何收集数据,像统计报表和年鉴、社会调查、普查和抽样、互联网、试验设计等等都是常见的.(1)通过调查获取数据适用范围:对于有限总体问题,一般通过抽样调查或普查的方法获取数据.注意事项:充分有效地利用背景信息选择或创建更好的抽样方法,并有效避免抽样过程中的人为错误.(2)通过试验获取数据.适用范围:没有现存的数据可以查询,就需要通过对比试验的方法去获取样本观测数据.注意事项:严格控制试验环境,通过精心的设计安排试验,以提高数据质量,为获得好的分析结果奠定基础.(3)通过观察获取数据.适用范围:自然现象.注意事项:需要专业测量设备获取观测数据.(4)通过查询获得数据.适用范围:二手数据.注意事项:数据来历和渠道多样,所以质量会参差不齐,必须根据问题背景知识“清洗”数据,去伪存真.11、频率分布直方图绘制步骤①求极差,即一组数据中的最大值与最小值的差.②决定组距与组数.组距与组数的确定没有固定的标准,一般数据的个数越多,所分组数越多.当样本容量不超过100时,常分成5~12组.为方便起见,一般取等长组距,并且组距应力求“取整”.③将数据分组.④列频率分布表.计算各小组的频率,第i组的频率是.⑤画频率分布直方图.其中横轴表示分组,纵轴表示,实际上就是频率分布直方图中各小长方形的高度,它反映了各组样本观测数据的疏密程度.12、频率分布直方图意义:各个小长方形的面积表示相应各组的频率,频率分布直方图以面积的形式反映数据落在各个小组的频率的大小,各小长方形的面积的总和等于1.13、总体取值规律的估计:我们可以用样本观测数据的频率分布估计总体的取值规律.14、频率分布直方图的特征:当频率分布直方图的组数少、组距大时,容易从中看出数据整体的分布特点,但由于无法看出每组内的数据分布情况,损失了较多的原式数据信息;当频率分布直方图的组数多、组距小时,保留了较多的原始数据信息,但由于小长方形较多,有时图形会变得非常不规则,不容易从中看出总体数据的分布特点.15、常见的其他统计图:条形图、扇形图、折线图.扇形图主要用于直观描述各类数据占总数的比例;条形图和直方图主要用于直观描述不同类别或分组数据的频数和频率;折线图主要用于描述数据随时间的变化趋势.16、各个统计图特点(1)不同的统计图在表示数据上有不同的特点.如扇形图主要用于直观描述各类数据占总数的比例,条形图和直方图主要用于直观描述不同类别或分组数据的频数和频率,折线图主要用于描述数据随时间的变化趋势.(2)不同的统计图适用的数据类型也不同.如条形图适用于描述离散型的数据,直方图适用于描述连续性数据.17、第p百分位数的定义一般地,一组数据的第p百分位数是这样一个值,它使得这组数据中至少有的数据小于或等于这个值,且至少有的数据大于或等于这个值.18、计算第百分位数的步骤第1步:按从小到大排列原始数据.第2步:计算.第3步:若i不是整数,而大于i的比邻整数为j,则第p百分位数为第j项数据;若i是整数,则第p百分位数为第i项与第项数据的平均数.19、四分位数常用的分位数有第25百分位数、第50百分位数、第75百分位数,这三个分位数把一组由小到大排列后的数据分成四等份,因此称为四分位数.其中第25百分位数也称为第一四分位数或下四分位数等,第75百分位数也称为第三四分位数或上四分位数等.20、众数、中位数、平均数定义(1)众数:一组数据中重复出现次数最多的数.(2)中位数:把一组数据按从小到大的顺序排列,处在中间位置(或中间两个数的平均数)的数叫做这组数据的中位数.(3)平均数:如果个数,那么叫做这个数的平均数.21、频率分布直方图中的众数、中位数、平均数①在频率分布直方图中,众数是最高矩形中点的横坐标;②中位数左边和右边的直方图的面积应该相等;③平均数的估计值等于频率分布直方图中每个小矩形的面积乘以小矩形底边中点的横坐标之和.12、方差、标准差的定义一组数据,用表示这组数据的平均数,则这组数据的方差为,标准差为.23、总体方差、总体标准差的定义如果总体中所有个体的变量值分别为,总体平均数为,则称为总体方差,为总体标准差.如果总体的个变量值中,不同的值共有个,记为,,其中出现的频数为,则总体方差为.24、样本方差、样本标准差的定义如果一个样本中个体的变量值分别为,样本平均数为,则称为样本方差,为样本标准差.25、方差、标准差特征标准差、方差刻画了数据的离散程度或波动幅度,标准差越大,数据的离散程度越大;标准差越小,数据的离散程度越小.在刻画数据的分散程度上,方差和标准差是一样的.但在解决实际问题中,一般多采用标准差.【典型例题】题型一:随机数表法【例1】某高校对中文系新生进行体测,利用随机数表对650名学生进行抽样,先将650名学生进行编号,001,002,,649,650.从中抽取50个样本,如图提供随机数表的第4行到第6行,若从表中第5行第6列开始向右读取数据,则得到的第4个样本编号是( )32 21 18 34 29 78 64 54 07 32 52 42 06 44 38 12 23 43 56 77 35 78 90 56 4284 42 12 53 31 34 57 86 07 36 25 30 07 32 86 23 45 78 89 07 23 68 96 08 0432 56 78 08 43 67 89 53 55 77 34 89 94 83 75 22 53 55 78 32 45 77 89 23 45A.007 B.253 C.328 D.860【变式1-1】现利用随机数表法从编号为00,01,02,…,18,19的20支水笔中随机选取6支,选取方法是从下列随机数表第1行的第9个数字开始由左到右依次选取两个数字,则选出来的第6支水笔的编号为( )95226000 49840128 66175168 39682927 43772366 2709662392580956 43890890 06482834 59741458 29778149 64608925A.14 B.08 C.09 D.06【变式1-2】总体由编号为01,02,…,39,40的40个个体组成,从中选取5个个体.利用科学计算器依次生成一组随机数如下,则选出来的第5个个体的编号为( )66 06 58 61 54 35 02 42 35 48 96 21 14 32 52 41 52 48A.54 B.14 C.21 D.32【变式1-3】(2025·高一·全国·开学考试)某公司利用随机数表对生产的300支新冠疫苗第一针进行抽样测试,先将疫苗按000,001,,299进行编号,从中抽取15个样本,选定从第3行第4列的数开始向右读取3个数字(下面摘取了随机数表中的第3行至第5行),则选出来的第4个个体的编号为( )1676622766 5650267107 3290797853 1355385859 88975414101256859926 9696682731 0503729315 5712101421 88264981765559563564 3854824622 3162430990 0618443253 2383013030A.135 B.141 C.101 D.290题型二:分层抽样【例2】(2025·高二·福建·学业考试)已知男女生共有100人,其中男生45人,现从100人中抽20人,则抽出的20人中男生有 人.【变式2-1】某校高一年级共有学生200人,其中1班60人,2班40人,3班50人,4班50人.该校要了解高一学生对食堂菜品的看法,准备从高一年级学生中随机抽取50人进行访谈,若采取按比例分配的分层抽样,则应从高一2班抽取的人数是 .【变式2-2】有一批产品,其中一等品10件,二等品25件,次品5件,现用按比例分层随机抽样的方法从这批产品中抽出16件进行质量分析,则抽取的一等品有 件.题型三:频率分布直方图【例3】(2025·高三·江苏徐州·学业考试)某地区调查了2000名学生每周的自习时间(单位:小时),制成了如图所示的频率分布直方图,其中自习时间的范围是[17.5,30],样本数据分组为[17.5,20),[20,22.5),[22.5,25),[25,27.5),[27.5,30).根据直方图,估计这2000名学生中每周的自习时间不低于25小时的人数是( )A.600 B.1400 C.560 D.1200【变式3-1】(2025·高三·广东·学业考试)某工厂抽取件产品测其重量(单位:).其中每件产品的重量范围是.数据的分组依次为、、、,据此绘制出如图所示的频率分布直方图,则重量在内的产品件数为( )A. B. C. D.【变式3-2】(2025·高一·陕西渭南·期末)某高校调查了名学生每周的自习时间(单位:小时),其中自习时间的范围是,并制成了频率分布直方图,如图所示,样本数据分组为、、、、.根据频率分布直方图,这名学生中每周的自习时不少于小时的人数是( )A. B. C. D.题型四:计算一些数据的平均数、方差、众数、中位数、百分位数【例4】(24-25高一上·江西·期末)某学校的高一、高二及高三年级分别有学生人、人、人,用分层抽样的方法从全体学生中抽取一个容量为人的样本,抽出的高一、高二及高三年级学生的平均身高为、、,估计该校学生的平均身高是( )A. B. C. D.【变式4-1】(24-25高一上·山东威海·期末)已知数据87,89,90,90,91,92,93,94,则( )A.极差为6 B.中位数为90C.第70%分位数为92 D.平均数为90.25【变式4-2】(10-11高二上·陕西宝鸡·期中)10名工人某天生产同一零件,生产的件数是15、17、14、10、15、17、17、16、14、12,设其平均数为,中位数为,众数为,则有( )A. B. C. D.【变式4-3】(24-25高一上·辽宁锦州·期末)《数术记遗》记述了积算(即筹算)、珠算、计数等共14种算法.某研究学习小组共10人,他们搜集整理这14种算法的相关资料所花费的时间(单位:min)分别为68,58,38,41,47,63,82,48,32,31,则这组数据的( )A.众数仅是31 B.分位数是C.极差是38 D.中位数是44【变式4-4】(24-25高一下·江西·期中)某同学统计了自2000年以来,中国代表队在历届奥运会获得金牌数如下(不含中国香港、中国台湾):28,32,48,38,26,38,40,则这组数据的70%分位数为( )A.26 B.32 C.35 D.38题型五:样本估计总体【例5】(24-25高一上·安徽蚌埠·期末)某小区物业公司为进一步提升服务质量,随机抽取了200名住户进行业主满意度问卷调查.把收集到的评分数据按,,依次分为第一至第六组(所有评分x满足).统计各组频数并计算相应频率,绘制出如图所示的频率分布直方图.(1)求图中的a值;(2)求业主评分平均数的估计值(同一组中的数据用该组区间的中点值作代表);(3)从评分低于70分的业主中用分层随机抽样的方法抽取14人进行电话回访,则第一组,第二组和第三组被抽到的业主人数分别是多少 【变式5-1】(多选题)(2025·高一·吉林长春·期末)某单位为了解员工参与一项志愿服务活动的情况,从800位员工中抽取了100名员工进行调查,根据这100人的服务时长(单位:小时),得到如图所示的频率分布直方图.则( )A.a的值为0.018 B.估计员工平均服务时长为45小时C.估计员工服务时长的中位数为48.6小时 D.估计本单位员工中服务时长超过50小时的有45人【变式5-2】(多选题)(2025·高一·湖北武汉·期末)某市实行居民阶梯电价收费政策后有效促进了节能减排.现从某小区随机调查了户家庭十月份的用电量(单位:),将数据进行适当分组后(每组为左闭右开的区间),画出如图所示的频率分布直方图,则( ) A.图中的值为 B.样本的第百分位数约为C.样本平均数约为 D.样本平均数小于样本中位数【变式5-3】(多选题)某高中举行的纪念红军长征出发90周年的知识答题比赛,对参赛的2000名考生的成绩进行统计,可得到如图所示的频率分布直方图,若同一组中数据用该组区间中间值作为代表值,则下列说法中正确的是( )A.参赛成绩的众数约为75分B.用分层抽样从该校学生中抽取容量为200的样本,则应在内的成绩抽取30人C.参赛成绩的第75百分位数约为82.5分D.参赛成绩的平均分约为72.8分题型六:分层方差的计算【例6】(2025·高二·四川成都·期中)文明城市是反映城市整体文明水平的综合性荣誉称号,作为普通市民,既是文明城市的最大受益者,更是文明城市的主要创造者.某市为提高市民对文明城市创建的认识,举办了“创建文明城市”知识竞赛,从所有答卷中随机抽取100份作为样本,将样本的成绩(满分100分,成绩均为不低于40分的整数)分成六段:[40,50),[50,60),,[90,100]得到如图所示的频率分布直方图. (1)求频率分布直方图中的值及样本成绩的第75百分位数;(2)求样本成绩的众数,中位数和平均数;(3)已知落在的平均成绩是54,方差是7,落在的平均成绩为66,方差是4,求两组成绩合并后的平均数和方差.【变式6-1】 2024年10月13日,成都市将举办马拉松比赛,其中志愿者的服务工作是马拉松成功举办的重要保障.成都市文体广电旅游局承办了志愿者选拔的面试工作.现随机抽取了100名候选者的面试成绩,并分成五组:第一组,第二组,第三组,第四组,第五组,绘制成如图所示的频率分布直方图.(1)求a的值;(2)估计这100名候选者面试成绩的平均数和第百分位数;(3)现从以上各组中用分层随机抽样的方法选取人,担任本市的宣传者.若本市宣传者中第二组面试者的面试成绩的平均数和方差分别为和,第四组面试者的面试成绩的平均数和方差分别为和,请据此估计这次第二组和第四组所有面试者的面试成绩的方差.(附:设两组数据的样本量、样本平均数和样本方差分别为:,记两组数据总体的样本平均数为,则总体样本方差)【变式6-2】(2025·高一·广东广州·期末)为推动习近平新时代中国特色社会主义思想深入人心,促进全社会形成爱读书、读好书、善读书的新风尚,培育有坚定理想信念、爱党爱国、堪当民族复兴大任的有为青年,某学校举办了读书节活动.现从该校的2000名学生中发放调查问卷,随机调查了100名学生一周的课外阅读时间,将统计数据按照,,…,组后绘制成如图所示的频率分布直方图(单位:分钟,同一组中的数据用该组区间的中点值作代表).(1)求的值,若每周课外阅读时间60分钟以上(含60分钟)视为达标,试估计该校达标的人数;(2)估计该校学生每周课外阅读的平均时间;(3)若样本数据在与内的方差分别为,,计样本数据在内的方差.题型七:平均数、方差的性质【例7】(24-25高一上·湖南邵阳·期末)若数据,,…,的方差为3,则数据,,…,的标准差为 .【变式7-1】(23-24高一下·安徽六安·期末)若一组数据的方差为1,则数据的标准差为 .【变式7-2】(23-24高一下·黑龙江·期末)若样本的平均数为8,其方差为3,则样本的平均数为 ,方差为 .【强化训练】1.(2025·高一·江西九江·期末)总体由编号为01,02,……,19,20的20个个体组成. 利用下列随机数表,从20个体中选取6个体选取方法;从随机数表的第1行第5列开始,从左至右依次选取两个数字(作为个体编号),则选出的第6个个体编号是( )7816 6572 0802 6314 0702 4369 9728 01983204 9234 4935 0807 3623 4869 6938 7481A.08 B.04 C.02 D.012.(2025·高一·浙江宁波·期中)已知的方差为2,则的方差为( )A.12 B.18 C.19 D.363.(2025·高一·内蒙古呼和浩特·期末)建设“书香校园”成为越来越多学校的办学追求.在对某高中1000名高一年级学生的图书馆借阅量的调查中,已知这1000名高一年级学生中男生有600人,采用分层随机抽样的方法抽取100人,抽取的样本中男生借阅量的平均数和方差分别为5和6,女生借阅量的平均数和方差分别为10和6,则估计该校学生借阅量的总体方差是( )A.7 B.8 C.12 D.134.(2025·高一·河北保定·期末)已知样本数据为,,,,平均数为,则数据,,,,与原数据相比,下列数字特征一定不变的是( )A.平均数 B.方差 C.众数 D.中位数5.(2025·高一·辽宁锦州·期末)某校高一组建了演讲,舞蹈,合唱,绘画,英语协会五个社团,高一1500名学生每人都参加且只参加其中一个社团,学校从这1500名学生中随机选取部分学生进行调查,并将调查结果绘制成如图不完整的两个统计图:则选取的学生中,参加舞蹈社团的学生数为( )A.20 B.30 C.35 D.406.(2025·高一·安徽六安·期末)六安二中为了了解学生参加数学建模社团的情况,采用了分层随机抽样的方法从三个年级中抽取了400人进行问卷调查,其中高一、高二年级各抽取了140人.已知该校高三年级共有1440名学生,则该校共有学生 人.7.(2025·高一·福建福州·期末)佩香囊是端午节传统习俗之一,香囊内通常填充一些中草药,有清香、驱虫的功效.经研究发现一批香囊中一种草药甲的含量x(单位:克)与香囊功效y之间满足,现从中随机抽取了6个香囊,得到香囊中草药甲的含量的平均数为6克,香囊功效的平均数为15,则这6个香囊中草药甲含量的方差为 克.8.(2025·高一·广西南宁·期末)样本数据的第40百分位数为 .9.(2025·高一·辽宁·期中)中国AI大模型正处于一个技术进步迅速、市场规模快速增长的爆发式发展阶段.为了解中国AI大模型用户的年龄分布,A公司调查了500名中国AI大模型用户,统计他们的年龄(都在内),按照,,,,进行分组,得到如图所示的频率分布直方图.(1)求的值;(2)估计这500名中国AI大模型用户年龄的平均数(各组数据以该组区间的中点值作代表);(3)求这500名中国AI大模型用户的年龄在内的人数.10.(2025·高一·河北张家口·期末)已知某校高一年级1班、2班、3班分别有36人、48人、60人,现从这3个班用按比例分配的分层随机抽样的方法抽取24人参加安全知识竞赛.(1)求这3个班分别抽取的人数;(2)已知从1班抽取的人中有2名女生,若要从1班抽取的人中选2名同学作为组长,求至少有1名女生作为组长的概率;(3)知识竞赛结束后,依据答题规则进行统计,甲同学回答5道题的得分分别为69,71,72,73,75,乙同学回答5道题的得分分别为70,71,71,73,75,请问甲、乙两名同学哪位同学的成绩更稳定?11.(2025·高一·吉林·期末)随着全民健身意识增强,马拉松运动逐渐成为深受群众喜爱的体育健身项目之一.吉林市自2016年以来,现已成功举办五届马拉松比赛,“吉马”也因此成为了东北地区乃至全国颇具影响力的品牌赛事.2023年“吉马”被中国田径协会评为“城市形象媒体传播赛事典型案例”.时隔一年,吉林市委、市政府再次启动这一国际化赛事,将挑战自我、超越极限、坚韧不拔、永不放弃的马拉松精神与我市激流勇进的城市精神相结合,并将其发扬光大.为此,某校举办了“吉马”知识竞赛,从所有竞赛成绩中抽取一个容量为100的样本,并按竞赛成绩(单位:分)分成六组:,,,,,,得到如下图所示的频率分布直方图. (1)求频率分布直方图中a的值,并求样本中竞赛成绩的第80百分位数;(2)现从样本中竞赛成绩在内用比例分配的分层随机抽样的方法抽取6人,再从这6人中抽取2人座谈,求至少有一人竞赛成绩在内的概率;(3)已知样本中竞赛成绩在内的平均数,方差,样本中竞赛成绩在内的平均数,方差,并据此估计所有答卷中竞赛成绩在内的总体方差.参考公式:总体分为2层,通过分层随机抽样,各层抽取的样本量、样本平均数和样本方差分别为:,,;,,.记总的样本平均数为,样本方差为,.12.(2025·高一·四川攀枝花·期末)文明城市是反映城市整体文明水平的综合性荣誉称号,作为普通市民,既是文明城市的最大受益者,更是文明城市的主要创建者,某市为提高市民对文明城市创建的认识,举办了“创建文明城市”知识竞赛,从所有答卷中随机抽取100份作为样本,将样本的成绩(满分100分,成绩均不低于40分)分成六段:,,…,,得到如图所示的频率分布直方图.(1)求频率分布直方图中a的值,并求样本成绩的第75百分位数;(2)现从以上各段中采用样本量比例分配的分层随机抽样再抽取20份答卷作为“典型答卷”进一步统计研究,若落在的“典型答卷”的平均成绩与方差分别是82和8,落在的“典型答卷”的平均成绩与方差分别是96和1,据此估计这100份答卷中落在的所有答卷的成绩的方差.13.(2025·高一·贵州铜仁·期末)2024年3月31日,贵州铜仁梵净山春季马拉松在梵净山赛道成功举行,其中志愿者的服务工作是马拉松成功举办的重要保障.铜仁市文体广电旅游局承办了志愿者选拔的面试工作.现随机抽取了100名候选者的面试成绩,并分成五组:第一组,第二组,第三组,第四组,第五组,绘制成如图所示的频率分布直方图.(1)估计这100名候选者面试成绩的平均数和第80百分位数;(2)现从以上各组中用分层随机抽样的方法选取20人,担任本市的宣传者.若本市宣传者中第二组面试者的面试成绩的平均数和方差分别为62和40,第四组面试者的面试成绩的平均数和方差分别为80和50,请据此估计这次第二组和第四组所有面试者的面试成绩的方差.21世纪教育网(www.21cnjy.com)中小学教育资源及组卷应用平台专题11 抽样、频率分布直方图、样本估计总体【题型归纳目录】题型一:随机数表法题型二:分层抽样题型三:频率分布直方图题型四:计算一些数据的平均数、方差、众数、中位数、百分位数题型五:样本估计总体题型六:分层方差的计算题型七:平均数、方差的性质【知识点梳理】1、统计的相关概念(1)普查像人口普查这样,对每一个调查对象都进行调查的方法,称为全面调查,又称普查.(2)总体、个体在一个调查中,我们把调查对象的全体称为总体.组成总体的每一个调查对象称为个体.为了强调调查目的,也可以把调查对象的某些指标的全体作为总体,每一个调查对象的相应指标作为个体.(3)抽样调查根据一定目的,从总体中抽取一部分个体进行调查,并以此为依据对总体的情况作出估计和推断的调查方法,称为抽样调查.(4)样本、样本量我们把从总体中抽取的那部分个体称为样本,样本中包含的个体数称为样本量.2、简单随机抽样一般地,设一个总体含有N(N为正整数)个个体,从中逐个抽取n(1≤n3、简单随机抽样的方法(1)抽签法:把总体中的N个个体编号,把编号写在外观、质地等无差别的小纸片(也可以是卡片、小球等)上作为号签,将这些小纸片放在一个不透明的盒里,充分搅拌,最后从盒中不放回地逐个抽取号签,使与号签上的编号对应的个体进入样本,直到抽足样本所需的个数.(2)随机数法:用随机数工具产生编号范围内的整数随机数,把产生的随机数作为抽中的编号,使与编号对应的个体进入样本.重复上述过程,直到抽足样本所需的个数.①用随机试验生成随机数;②用信息技术生成随机数;③用计算器生成随机数;④用电子表格软件生成随机数;⑤用R统计软件生成随机数.4、总体均值一般地,总体中有N个个体,它们的变量值分别为Y1,Y2,…,YN,则称 为总体均值,又称总体平均数.如果总体的N个变量值中,不同的值共有k(k≤N)个,不妨记为Y1,Y2,…,Yk,其中Yi出现的频数fi(i=1,2,…,k),则总体均值还可以写成加权平均数的形式5、样本均值如果从总体中抽取一个容量为n的样本,它们的变量值分别为y1,y2,…,yn,则称 为样本均值,又称样本平均数.探究:总体均值与样本均值有何区别与联系?答案:(1)区别:当总体中个体较多时,总体均值不易计算,样本均值比较方便计算.总体均值是一个确定的数,样本均值具有随机性.(2)联系:在简单随机抽样中,我们常用样本均值估计总体均值.6、分层抽样定义一般地,在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样方法叫分层抽样.7、分层抽样适用范围当总体是由差异明显的几个部分组成时,往往采用分层抽样.8、分层抽样的步骤(1)根据已掌握的信息,将总体分成若干部分.(2)根据总体中的个体数N和样本容量n计算出抽样比k=.(3)根据抽样比k计算出各层中应抽取的个体数:·Ni (其中Ni为第i层所包含的个体总数).(4)按步骤3所确定的数在各层中随机抽取个体,并合在一起得到容量为n的样本.9、两种抽样方法的区别和联系类别 共同点 各自特点 相互联系 适用范围简单随机抽样 抽样过程中各个个体被抽到的机会相等,且都是不放回抽取 从总体中逐个抽取 最基本的抽样方法 总体容量较少分层抽样 抽样过程中各个个体被抽到的机会相等,且都是不放回抽取 将总体分成几部分,每一部分按比例抽取 每层抽样时采用简单随机抽样 总体由差异明显的若干部分组成10、获取数据的途径统计学是通过收集数据和分析数据来认识未知现象的,因此如何收集数据,像统计报表和年鉴、社会调查、普查和抽样、互联网、试验设计等等都是常见的.(1)通过调查获取数据适用范围:对于有限总体问题,一般通过抽样调查或普查的方法获取数据.注意事项:充分有效地利用背景信息选择或创建更好的抽样方法,并有效避免抽样过程中的人为错误.(2)通过试验获取数据.适用范围:没有现存的数据可以查询,就需要通过对比试验的方法去获取样本观测数据.注意事项:严格控制试验环境,通过精心的设计安排试验,以提高数据质量,为获得好的分析结果奠定基础.(3)通过观察获取数据.适用范围:自然现象.注意事项:需要专业测量设备获取观测数据.(4)通过查询获得数据.适用范围:二手数据.注意事项:数据来历和渠道多样,所以质量会参差不齐,必须根据问题背景知识“清洗”数据,去伪存真.11、频率分布直方图绘制步骤①求极差,即一组数据中的最大值与最小值的差.②决定组距与组数.组距与组数的确定没有固定的标准,一般数据的个数越多,所分组数越多.当样本容量不超过100时,常分成5~12组.为方便起见,一般取等长组距,并且组距应力求“取整”.③将数据分组.④列频率分布表.计算各小组的频率,第i组的频率是.⑤画频率分布直方图.其中横轴表示分组,纵轴表示,实际上就是频率分布直方图中各小长方形的高度,它反映了各组样本观测数据的疏密程度.12、频率分布直方图意义:各个小长方形的面积表示相应各组的频率,频率分布直方图以面积的形式反映数据落在各个小组的频率的大小,各小长方形的面积的总和等于1.13、总体取值规律的估计:我们可以用样本观测数据的频率分布估计总体的取值规律.14、频率分布直方图的特征:当频率分布直方图的组数少、组距大时,容易从中看出数据整体的分布特点,但由于无法看出每组内的数据分布情况,损失了较多的原式数据信息;当频率分布直方图的组数多、组距小时,保留了较多的原始数据信息,但由于小长方形较多,有时图形会变得非常不规则,不容易从中看出总体数据的分布特点.15、常见的其他统计图:条形图、扇形图、折线图.扇形图主要用于直观描述各类数据占总数的比例;条形图和直方图主要用于直观描述不同类别或分组数据的频数和频率;折线图主要用于描述数据随时间的变化趋势.16、各个统计图特点(1)不同的统计图在表示数据上有不同的特点.如扇形图主要用于直观描述各类数据占总数的比例,条形图和直方图主要用于直观描述不同类别或分组数据的频数和频率,折线图主要用于描述数据随时间的变化趋势.(2)不同的统计图适用的数据类型也不同.如条形图适用于描述离散型的数据,直方图适用于描述连续性数据.17、第p百分位数的定义一般地,一组数据的第p百分位数是这样一个值,它使得这组数据中至少有的数据小于或等于这个值,且至少有的数据大于或等于这个值.18、计算第百分位数的步骤第1步:按从小到大排列原始数据.第2步:计算.第3步:若i不是整数,而大于i的比邻整数为j,则第p百分位数为第j项数据;若i是整数,则第p百分位数为第i项与第项数据的平均数.19、四分位数常用的分位数有第25百分位数、第50百分位数、第75百分位数,这三个分位数把一组由小到大排列后的数据分成四等份,因此称为四分位数.其中第25百分位数也称为第一四分位数或下四分位数等,第75百分位数也称为第三四分位数或上四分位数等.20、众数、中位数、平均数定义(1)众数:一组数据中重复出现次数最多的数.(2)中位数:把一组数据按从小到大的顺序排列,处在中间位置(或中间两个数的平均数)的数叫做这组数据的中位数.(3)平均数:如果个数,那么叫做这个数的平均数.21、频率分布直方图中的众数、中位数、平均数①在频率分布直方图中,众数是最高矩形中点的横坐标;②中位数左边和右边的直方图的面积应该相等;③平均数的估计值等于频率分布直方图中每个小矩形的面积乘以小矩形底边中点的横坐标之和.12、方差、标准差的定义一组数据,用表示这组数据的平均数,则这组数据的方差为,标准差为.23、总体方差、总体标准差的定义如果总体中所有个体的变量值分别为,总体平均数为,则称为总体方差,为总体标准差.如果总体的个变量值中,不同的值共有个,记为,,其中出现的频数为,则总体方差为.24、样本方差、样本标准差的定义如果一个样本中个体的变量值分别为,样本平均数为,则称为样本方差,为样本标准差.25、方差、标准差特征标准差、方差刻画了数据的离散程度或波动幅度,标准差越大,数据的离散程度越大;标准差越小,数据的离散程度越小.在刻画数据的分散程度上,方差和标准差是一样的.但在解决实际问题中,一般多采用标准差.【典型例题】题型一:随机数表法【例1】某高校对中文系新生进行体测,利用随机数表对650名学生进行抽样,先将650名学生进行编号,001,002,,649,650.从中抽取50个样本,如图提供随机数表的第4行到第6行,若从表中第5行第6列开始向右读取数据,则得到的第4个样本编号是( )32 21 18 34 29 78 64 54 07 32 52 42 06 44 38 12 23 43 56 77 35 78 90 56 4284 42 12 53 31 34 57 86 07 36 25 30 07 32 86 23 45 78 89 07 23 68 96 08 0432 56 78 08 43 67 89 53 55 77 34 89 94 83 75 22 53 55 78 32 45 77 89 23 45A.007 B.253 C.328 D.860【答案】A【解析】从第5行第6列开始向右读取数据,第一个数为253,第二个数是313,第三个数是457,下一个数是860,不符合要求,下一个数是736,不符合要求,下一个是253,重复,第四个是007,故A正确.故选:A.【变式1-1】现利用随机数表法从编号为00,01,02,…,18,19的20支水笔中随机选取6支,选取方法是从下列随机数表第1行的第9个数字开始由左到右依次选取两个数字,则选出来的第6支水笔的编号为( )95226000 49840128 66175168 39682927 43772366 2709662392580956 43890890 06482834 59741458 29778149 64608925A.14 B.08 C.09 D.06【答案】A【解析】依次选出的编号为:01,17,09,08,06,14;则选出来的第6支水笔的编号为14.故选:A.【变式1-2】总体由编号为01,02,…,39,40的40个个体组成,从中选取5个个体.利用科学计算器依次生成一组随机数如下,则选出来的第5个个体的编号为( )66 06 58 61 54 35 02 42 35 48 96 21 14 32 52 41 52 48A.54 B.14 C.21 D.32【答案】B【解析】生成的随机数中落在编号01,02,…,39,40内的依次有06,35,02,35(重复),21,14,32,故第5个编号为14,故选:B.【变式1-3】(2025·高一·全国·开学考试)某公司利用随机数表对生产的300支新冠疫苗第一针进行抽样测试,先将疫苗按000,001,,299进行编号,从中抽取15个样本,选定从第3行第4列的数开始向右读取3个数字(下面摘取了随机数表中的第3行至第5行),则选出来的第4个个体的编号为( )1676622766 5650267107 3290797853 1355385859 88975414101256859926 9696682731 0503729315 5712101421 88264981765559563564 3854824622 3162430990 0618443253 2383013030A.135 B.141 C.101 D.290【答案】A【解析】从表中第3行第4列开始向右读取分别为662(舍),276,656(舍),502(舍),671(舍),073,290,797(舍),853(舍),135.故选:A.题型二:分层抽样【例2】(2025·高二·福建·学业考试)已知男女生共有100人,其中男生45人,现从100人中抽20人,则抽出的20人中男生有 人.【答案】【解析】男生的分层比为,故人中男生的人数为,故答案为:.【变式2-1】某校高一年级共有学生200人,其中1班60人,2班40人,3班50人,4班50人.该校要了解高一学生对食堂菜品的看法,准备从高一年级学生中随机抽取50人进行访谈,若采取按比例分配的分层抽样,则应从高一2班抽取的人数是 .【答案】10【解析】由题意可知四个班级的人数比例分别为,即2班占全部学生的比例为,所以抽取50人访谈需从2班抽取人.故答案为:【变式2-2】有一批产品,其中一等品10件,二等品25件,次品5件,现用按比例分层随机抽样的方法从这批产品中抽出16件进行质量分析,则抽取的一等品有 件.【答案】【解析】抽取的一等品的件数为.故答案为:题型三:频率分布直方图【例3】(2025·高三·江苏徐州·学业考试)某地区调查了2000名学生每周的自习时间(单位:小时),制成了如图所示的频率分布直方图,其中自习时间的范围是[17.5,30],样本数据分组为[17.5,20),[20,22.5),[22.5,25),[25,27.5),[27.5,30).根据直方图,估计这2000名学生中每周的自习时间不低于25小时的人数是( )A.600 B.1400 C.560 D.1200【答案】A【解析】由频率分布直方图可知自习时间不低于25小时的频率为,故这2000名学生中每周的自习时间不低于25小时的人数为(人);故选:A【变式3-1】(2025·高三·广东·学业考试)某工厂抽取件产品测其重量(单位:).其中每件产品的重量范围是.数据的分组依次为、、、,据此绘制出如图所示的频率分布直方图,则重量在内的产品件数为( )A. B. C. D.【答案】B【解析】由图可知,重量在内的产品件数为.故选:B.【变式3-2】(2025·高一·陕西渭南·期末)某高校调查了名学生每周的自习时间(单位:小时),其中自习时间的范围是,并制成了频率分布直方图,如图所示,样本数据分组为、、、、.根据频率分布直方图,这名学生中每周的自习时不少于小时的人数是( )A. B. C. D.【答案】C【解析】由图可知,这名学生中每周的自习时不少于小时的人数是.故选:C.题型四:计算一些数据的平均数、方差、众数、中位数、百分位数【例4】(24-25高一上·江西·期末)某学校的高一、高二及高三年级分别有学生人、人、人,用分层抽样的方法从全体学生中抽取一个容量为人的样本,抽出的高一、高二及高三年级学生的平均身高为、、,估计该校学生的平均身高是( )A. B. C. D.【答案】C【解析】平均数为.因此,估计该校学生的平均身高是.故选:C.【变式4-1】(24-25高一上·山东威海·期末)已知数据87,89,90,90,91,92,93,94,则( )A.极差为6 B.中位数为90C.第70%分位数为92 D.平均数为90.25【答案】C【解析】由题意可知:数据的极差为:,故A错误;数据的中位数为:,故B错误;因为,故数据的第70%分位数为第6个数,故C正确;因为数据的平均数为:,故D错误.故选:C【变式4-2】(10-11高二上·陕西宝鸡·期中)10名工人某天生产同一零件,生产的件数是15、17、14、10、15、17、17、16、14、12,设其平均数为,中位数为,众数为,则有( )A. B. C. D.【答案】B【解析】将这些数从小到大重新排列为:10、12、14、14、15、15、16、17、17、17,故其中位数,众数,平均数,故.故选:B.【变式4-3】(24-25高一上·辽宁锦州·期末)《数术记遗》记述了积算(即筹算)、珠算、计数等共14种算法.某研究学习小组共10人,他们搜集整理这14种算法的相关资料所花费的时间(单位:min)分别为68,58,38,41,47,63,82,48,32,31,则这组数据的( )A.众数仅是31 B.分位数是C.极差是38 D.中位数是44【答案】B【解析】由题知,每个数出现的次数都是一次,A错误;将这10个数据从小到大排列为31,32,38,41,47,48,58,63,68,82;易知为整数,所以分位数是第1个数与第2个数的平均值,即为,B正确;极差为,C错误;中位数为第5个数和第6个数的平均数,即,D错误.故选:B.【变式4-4】(24-25高一下·江西·期中)某同学统计了自2000年以来,中国代表队在历届奥运会获得金牌数如下(不含中国香港、中国台湾):28,32,48,38,26,38,40,则这组数据的70%分位数为( )A.26 B.32 C.35 D.38【答案】D【解析】这组数据从小到大的排列为26,28,32,38,38,40,48.因为,所以这组数据的70%分位数为38.故选:D题型五:样本估计总体【例5】(24-25高一上·安徽蚌埠·期末)某小区物业公司为进一步提升服务质量,随机抽取了200名住户进行业主满意度问卷调查.把收集到的评分数据按,,依次分为第一至第六组(所有评分x满足).统计各组频数并计算相应频率,绘制出如图所示的频率分布直方图.(1)求图中的a值;(2)求业主评分平均数的估计值(同一组中的数据用该组区间的中点值作代表);(3)从评分低于70分的业主中用分层随机抽样的方法抽取14人进行电话回访,则第一组,第二组和第三组被抽到的业主人数分别是多少 【解析】(1)由题意可得,解得.(2)由题意可知:,所以业主评分平均数的估计值为74.(3)评分低于70分的三组频率之比为,故第一组抽到的人数为,第二组抽到的人数为,第三组抽到的人数为,即第一组,第二组和第三组被抽到的业主人数分别是2,4,8.【变式5-1】(多选题)(2025·高一·吉林长春·期末)某单位为了解员工参与一项志愿服务活动的情况,从800位员工中抽取了100名员工进行调查,根据这100人的服务时长(单位:小时),得到如图所示的频率分布直方图.则( )A.a的值为0.018 B.估计员工平均服务时长为45小时C.估计员工服务时长的中位数为48.6小时 D.估计本单位员工中服务时长超过50小时的有45人【答案】AC【解析】对于A,由频率分布直方图得,解得,所以A正确,对于B,员工平均服务时长为小时,所以B错误,对于C,因为前2组的频率和为,前3组的频率和为,所以中位数在第3组,设中位数为,则,解得,所以C正确,对于D,因为服务时长超过50小时的频率为,所以本单位员工中服务时长超过50小时的约有人,所以D错误.故选:AC【变式5-2】(多选题)(2025·高一·湖北武汉·期末)某市实行居民阶梯电价收费政策后有效促进了节能减排.现从某小区随机调查了户家庭十月份的用电量(单位:),将数据进行适当分组后(每组为左闭右开的区间),画出如图所示的频率分布直方图,则( ) A.图中的值为 B.样本的第百分位数约为C.样本平均数约为 D.样本平均数小于样本中位数【答案】ABC【解析】对于A,由题意,,解得,,故A正确;对于B,因为用电量在以下的频率为,用电量在以下的频率为,所以样本的第分位数在区间内,设样本的第分位数为,则,解得,即样本的第分位数约为,故B正确;对于C,样本的平均数为,故C正确;对于D,因为用电量在以下的频率为,用电量在以下的频率为,所以样本的中位数在区间内,设样本的中位数为,则,解得,所以样本的中位数约为,因为,所以样本的中位数样本的平均数,故D错误.故选:ABC.【变式5-3】(多选题)某高中举行的纪念红军长征出发90周年的知识答题比赛,对参赛的2000名考生的成绩进行统计,可得到如图所示的频率分布直方图,若同一组中数据用该组区间中间值作为代表值,则下列说法中正确的是( )A.参赛成绩的众数约为75分B.用分层抽样从该校学生中抽取容量为200的样本,则应在内的成绩抽取30人C.参赛成绩的第75百分位数约为82.5分D.参赛成绩的平均分约为72.8分【答案】AC【解析】对于A:由频率分布直方图可得众数为,故A正确;对于B:由频率分布直方图可得内应抽取人,故B错误;对于C:分数在)内的频率为,在)内的频率为,因此第75百分位数位于内,第75百分位数为,故C正确;对于D:平均数为,故D错误.故选:AC.题型六:分层方差的计算【例6】(2025·高二·四川成都·期中)文明城市是反映城市整体文明水平的综合性荣誉称号,作为普通市民,既是文明城市的最大受益者,更是文明城市的主要创造者.某市为提高市民对文明城市创建的认识,举办了“创建文明城市”知识竞赛,从所有答卷中随机抽取100份作为样本,将样本的成绩(满分100分,成绩均为不低于40分的整数)分成六段:[40,50),[50,60),,[90,100]得到如图所示的频率分布直方图. (1)求频率分布直方图中的值及样本成绩的第75百分位数;(2)求样本成绩的众数,中位数和平均数;(3)已知落在的平均成绩是54,方差是7,落在的平均成绩为66,方差是4,求两组成绩合并后的平均数和方差.【解析】(1)由每组小矩形的面积之和为1,得,解得,成绩在内的频率为,在内的频率为,显然第75百分位数,由,解得,所以第75百分位数为84.(2)由,得样本成绩的众数为75,成绩落在[40,70)内的频率为,成绩落在内的频率为,故中位数在[70,80)内,由,得样本成绩的中位数为75,由.得样本成绩的平均数为74.(3)由频率分布直方图知,成绩在的市民人数为,成绩在的市民人数为,所以,总方差为.【变式6-1】 2024年10月13日,成都市将举办马拉松比赛,其中志愿者的服务工作是马拉松成功举办的重要保障.成都市文体广电旅游局承办了志愿者选拔的面试工作.现随机抽取了100名候选者的面试成绩,并分成五组:第一组,第二组,第三组,第四组,第五组,绘制成如图所示的频率分布直方图.(1)求a的值;(2)估计这100名候选者面试成绩的平均数和第百分位数;(3)现从以上各组中用分层随机抽样的方法选取人,担任本市的宣传者.若本市宣传者中第二组面试者的面试成绩的平均数和方差分别为和,第四组面试者的面试成绩的平均数和方差分别为和,请据此估计这次第二组和第四组所有面试者的面试成绩的方差.(附:设两组数据的样本量、样本平均数和样本方差分别为:,记两组数据总体的样本平均数为,则总体样本方差)【解析】(1)由图得,解之可得;(2)根据题意知,,,设第百分位数为,所以,,解之可得,故这名候选者面试成绩的平均数为,第80百分位数为.(3)设第二组、第四组所有面试者的面试成绩的平均数、方差分别为,且两组的频率之比为,则第二组和第四组所有面试者的面试成绩的平均数为,第二组和第四组所有面试者的面试成绩的方差为,则第二组和第四组所有面试者的面试成绩的方差为.【变式6-2】(2025·高一·广东广州·期末)为推动习近平新时代中国特色社会主义思想深入人心,促进全社会形成爱读书、读好书、善读书的新风尚,培育有坚定理想信念、爱党爱国、堪当民族复兴大任的有为青年,某学校举办了读书节活动.现从该校的2000名学生中发放调查问卷,随机调查了100名学生一周的课外阅读时间,将统计数据按照,,…,组后绘制成如图所示的频率分布直方图(单位:分钟,同一组中的数据用该组区间的中点值作代表).(1)求的值,若每周课外阅读时间60分钟以上(含60分钟)视为达标,试估计该校达标的人数;(2)估计该校学生每周课外阅读的平均时间;(3)若样本数据在与内的方差分别为,,计样本数据在内的方差.【解析】(1)由频率分布直方图,得,所以;阅读时间达标的频率为,估计该校阅读时间达标的人数为.(2)一周的课外阅读时间在内的频率依次为:,,所以估计该校学生每周课外阅读的平均时间为68分钟.(3)样本数据在与内的平均数分别为,则样本数据在内的平均数为,所以样本数据在内的方差.题型七:平均数、方差的性质【例7】(24-25高一上·湖南邵阳·期末)若数据,,…,的方差为3,则数据,,…,的标准差为 .【答案】【解析】因为数据,,…,的方差为3,则数据,,…,的方差为,则数据,,…,的标准差为.故答案为:.【变式7-1】(23-24高一下·安徽六安·期末)若一组数据的方差为1,则数据的标准差为 .【答案】2【解析】数据的方差为,故数据的标准差为.故答案为:2【变式7-2】(23-24高一下·黑龙江·期末)若样本的平均数为8,其方差为3,则样本的平均数为 ,方差为 .【答案】 9. 3.【解析】易知,即可知,所以,可得的平均数为9;而,即,所以,所以样本的方差为3;故答案为:9,3.【强化训练】1.(2025·高一·江西九江·期末)总体由编号为01,02,……,19,20的20个个体组成. 利用下列随机数表,从20个体中选取6个体选取方法;从随机数表的第1行第5列开始,从左至右依次选取两个数字(作为个体编号),则选出的第6个个体编号是( )7816 6572 0802 6314 0702 4369 9728 01983204 9234 4935 0807 3623 4869 6938 7481A.08 B.04 C.02 D.01【答案】B【解析】从随机数表的第1行第5列开始选,个体编号依次为:08,02,14,07,02(重复,剔除),01,04,第6个编号为04,故选:B.2.(2025·高一·浙江宁波·期中)已知的方差为2,则的方差为( )A.12 B.18 C.19 D.36【答案】B【解析】因为的方差为2,故为,故选:B.3.(2025·高一·内蒙古呼和浩特·期末)建设“书香校园”成为越来越多学校的办学追求.在对某高中1000名高一年级学生的图书馆借阅量的调查中,已知这1000名高一年级学生中男生有600人,采用分层随机抽样的方法抽取100人,抽取的样本中男生借阅量的平均数和方差分别为5和6,女生借阅量的平均数和方差分别为10和6,则估计该校学生借阅量的总体方差是( )A.7 B.8 C.12 D.13【答案】C【解析】名高一学生,男生人,则女生人,所以抽取的人中,男生人,女生人,总体平均数为,所以总体方差为.故选:C4.(2025·高一·河北保定·期末)已知样本数据为,,,,平均数为,则数据,,,,与原数据相比,下列数字特征一定不变的是( )A.平均数 B.方差 C.众数 D.中位数【答案】A【解析】对于A,原数据的平均数为,新数据为,所以新数据的总和为:,则新数据的平均数为:,即平均数没有变化,故A正确;对于B,不妨设原数据为,则,方差为,则新数据为,平均数为,方差为,此时方差发生了变化,故B错误;对于C,不妨设原数据为,则,众数为,则新数据为,众数为,此时众数发生了变化,故C错误;对于D,不妨设原数据为,则,中位数为,则新数据为,中位数为,此时中位数发生了变化,故D错误.故选:A.5.(2025·高一·辽宁锦州·期末)某校高一组建了演讲,舞蹈,合唱,绘画,英语协会五个社团,高一1500名学生每人都参加且只参加其中一个社团,学校从这1500名学生中随机选取部分学生进行调查,并将调查结果绘制成如图不完整的两个统计图:则选取的学生中,参加舞蹈社团的学生数为( )A.20 B.30 C.35 D.40【答案】D【解析】由条形图得合唱人数为70,由饼状图得合唱人数占比,因此选取的总人数为,由饼状图得演讲及舞蹈人数和占比为,人数和为,由条形图得演讲人数为30,所以舞蹈人数为40.故选:D.6.(2025·高一·安徽六安·期末)六安二中为了了解学生参加数学建模社团的情况,采用了分层随机抽样的方法从三个年级中抽取了400人进行问卷调查,其中高一、高二年级各抽取了140人.已知该校高三年级共有1440名学生,则该校共有学生 人.【答案】【解析】三个年级抽到学生的人数比为:,设该校共有学生人,所以有,故答案为:7.(2025·高一·福建福州·期末)佩香囊是端午节传统习俗之一,香囊内通常填充一些中草药,有清香、驱虫的功效.经研究发现一批香囊中一种草药甲的含量x(单位:克)与香囊功效y之间满足,现从中随机抽取了6个香囊,得到香囊中草药甲的含量的平均数为6克,香囊功效的平均数为15,则这6个香囊中草药甲含量的方差为 克.【答案】39【解析】设抽取的6个香囊中草药甲的含量分别为克,香囊功效分别为,,2,,6,草药甲的含量的平均数为6克,香囊功效的平均数为15,即,,则,则这6个香囊中草药甲含量的方差,所以这6个香囊中草药甲含量的方差为39克.故答案为:39.8.(2025·高一·广西南宁·期末)样本数据的第40百分位数为 .【答案】12【解析】,故样本数据的第40百分位数为第3个数12.故答案为:12.9.(2025·高一·辽宁·期中)中国AI大模型正处于一个技术进步迅速、市场规模快速增长的爆发式发展阶段.为了解中国AI大模型用户的年龄分布,A公司调查了500名中国AI大模型用户,统计他们的年龄(都在内),按照,,,,进行分组,得到如图所示的频率分布直方图.(1)求的值;(2)估计这500名中国AI大模型用户年龄的平均数(各组数据以该组区间的中点值作代表);(3)求这500名中国AI大模型用户的年龄在内的人数.【解析】(1)由题意可得,解得.(2),由题意可得这500名中国AI大模型用户年龄的平均数的估计值为岁;(3)由频率分布直方图可知中国AI大模型用户的年龄在内的频率为,则这500名中国AI大模型用户的年龄在内的人数为.10.(2025·高一·河北张家口·期末)已知某校高一年级1班、2班、3班分别有36人、48人、60人,现从这3个班用按比例分配的分层随机抽样的方法抽取24人参加安全知识竞赛.(1)求这3个班分别抽取的人数;(2)已知从1班抽取的人中有2名女生,若要从1班抽取的人中选2名同学作为组长,求至少有1名女生作为组长的概率;(3)知识竞赛结束后,依据答题规则进行统计,甲同学回答5道题的得分分别为69,71,72,73,75,乙同学回答5道题的得分分别为70,71,71,73,75,请问甲、乙两名同学哪位同学的成绩更稳定?【解析】(1)根据题意,某校高一年级1班、2班、3班分别有36人、48人、60人,故共有人,现从这3个班用按比例分配的分层随机抽样的方法抽取24人,所以1班应抽取人,2班应抽取人,3班应抽取人;(2)根据题意,由(1)的结论,1班应抽取6人,其中有2名女生,设2名女生为、,4名男生为、、、,从中选出2名同学作为组长,有、、、、、、、、、、、、、、,共15种取法,至少有1名女生作为组长的有、、、、、、、、共9种取法,故至少有名女生作为组长的概率;(3)甲同学回答5道题的得分分别为69,71,72,73,75,其平均数,其方差;乙同学回答5道题的得分分别为70,71,71,73,75,其平均数,其方差,由于,所以乙的成绩更稳定.11.(2025·高一·吉林·期末)随着全民健身意识增强,马拉松运动逐渐成为深受群众喜爱的体育健身项目之一.吉林市自2016年以来,现已成功举办五届马拉松比赛,“吉马”也因此成为了东北地区乃至全国颇具影响力的品牌赛事.2023年“吉马”被中国田径协会评为“城市形象媒体传播赛事典型案例”.时隔一年,吉林市委、市政府再次启动这一国际化赛事,将挑战自我、超越极限、坚韧不拔、永不放弃的马拉松精神与我市激流勇进的城市精神相结合,并将其发扬光大.为此,某校举办了“吉马”知识竞赛,从所有竞赛成绩中抽取一个容量为100的样本,并按竞赛成绩(单位:分)分成六组:,,,,,,得到如下图所示的频率分布直方图. (1)求频率分布直方图中a的值,并求样本中竞赛成绩的第80百分位数;(2)现从样本中竞赛成绩在内用比例分配的分层随机抽样的方法抽取6人,再从这6人中抽取2人座谈,求至少有一人竞赛成绩在内的概率;(3)已知样本中竞赛成绩在内的平均数,方差,样本中竞赛成绩在内的平均数,方差,并据此估计所有答卷中竞赛成绩在内的总体方差.参考公式:总体分为2层,通过分层随机抽样,各层抽取的样本量、样本平均数和样本方差分别为:,,;,,.记总的样本平均数为,样本方差为,.【解析】(1),..,第80百分位数在区间中设第80百分位数为,则,,所以第80百分位数为.(2)由题知,区间的频率比为,,,则在区间抽取2人,记为,在区间抽取4人,记为,从这6人中抽取两人座谈,样本空间如下:,共15个样本点,设“至少有一人竞赛成绩在内”为事件,事件,所以,所以至少有一人竞赛成绩在内的概率为.(3)区间的频率比为,,.12.(2025·高一·四川攀枝花·期末)文明城市是反映城市整体文明水平的综合性荣誉称号,作为普通市民,既是文明城市的最大受益者,更是文明城市的主要创建者,某市为提高市民对文明城市创建的认识,举办了“创建文明城市”知识竞赛,从所有答卷中随机抽取100份作为样本,将样本的成绩(满分100分,成绩均不低于40分)分成六段:,,…,,得到如图所示的频率分布直方图.(1)求频率分布直方图中a的值,并求样本成绩的第75百分位数;(2)现从以上各段中采用样本量比例分配的分层随机抽样再抽取20份答卷作为“典型答卷”进一步统计研究,若落在的“典型答卷”的平均成绩与方差分别是82和8,落在的“典型答卷”的平均成绩与方差分别是96和1,据此估计这100份答卷中落在的所有答卷的成绩的方差.【解析】(1)由频率分布直方图各小矩形的面积之和为1,得,所以;成绩落在内的频率为,落在内的频率为,则第75百分位数,,解得,所以第75百分位数为84.(2)依题意,抽取20份答卷中,落在内的有(份),落在内的有(份),落在的“典型答卷”的平均成绩,落在的“典型答卷”的方差,所以估计这100份答卷中落在的所有答卷的成绩的方差为46.13.(2025·高一·贵州铜仁·期末)2024年3月31日,贵州铜仁梵净山春季马拉松在梵净山赛道成功举行,其中志愿者的服务工作是马拉松成功举办的重要保障.铜仁市文体广电旅游局承办了志愿者选拔的面试工作.现随机抽取了100名候选者的面试成绩,并分成五组:第一组,第二组,第三组,第四组,第五组,绘制成如图所示的频率分布直方图.(1)估计这100名候选者面试成绩的平均数和第80百分位数;(2)现从以上各组中用分层随机抽样的方法选取20人,担任本市的宣传者.若本市宣传者中第二组面试者的面试成绩的平均数和方差分别为62和40,第四组面试者的面试成绩的平均数和方差分别为80和50,请据此估计这次第二组和第四组所有面试者的面试成绩的方差.【解析】(1)由图得,解得,则,,,设第80百分位数为,则,,解得,故这100名候选者面试成绩的平均数为,第80百分位数为.(2)设第二组、第四组所有面试者的面试成绩的平均数、方差分别为,且两组的频率之比为,则第二组和第四组所有面试者的面试成绩的平均数为,第二组和第四组所有面试者的面试成绩的方差为:,故第二组和第四组所有面试者的面试成绩的方差为.21世纪教育网(www.21cnjy.com) 展开更多...... 收起↑ 资源列表 专题11 抽样、频率分布直方图、样本估计总体(7大题型)(学生版).docx 专题11 抽样、频率分布直方图、样本估计总体(7大题型)(教师版).docx