资源简介 11.2 用样本估计总体(教师独具内容)1.能根据实际问题的特点,选择恰当的统计图表对数据进行可视化描述,体会合理使用统计图表的重要性.结合实例,能用样本估计总体的集中趋势参数(平均数、中位数、众数、总体百分位数),理解集中趋势参数的统计含义.理解百分位数的统计含义.2.能根据频率分布表画频率分布直方图;理解样本数据标准差、方差的意义和作用,会计算数据标准差、方差,并作出合理的解释.会用样本的频率分布估计总体分布,会用样本的基本数字特征估计总体的基本数字特征,理解用样本估计总体的思想.会用随机抽样的基本方法和样本估计总体的思想解决一些简单的实际问题.3.重点提升数学运算、逻辑推理和数据分析素养.(教师独具内容)1.本考点是历年高考的常考内容,属于中低档题目,选择题、填空题、解答题都有考查,命题的重点是社会热点问题、高科技、五育等情境之下的统计图表中数据分析问题.2.考查方向有两个方面:一是频率分布直方图,样本数据的采集与分析是热点;二是样本的数字特征,主要考查用样本估计总体.(教师独具内容)(教师独具内容)1.作频率分布直方图的步骤(1)求极差(即一组数据中最大值与最小值的差);(2)决定组距与组数;(3)将数据分组;(4)列频率分布表;(5)画频率分布直方图.2.其他统计图表统计图表 主要应用扇形图 直观描述各类数据占总数的比例条形图和直方图 直观描述不同类别或分组数据的频数和频率折线图 描述数据随时间的变化趋势3.百分位数(1)定义:一般地,一组数据的第p百分位数是这样一个值,它使得这组数据中至少有p%的数据小于或等于这个值,且至少有(100-p)%的数据大于或等于这个值.(2)计算一组n个数据的第p百分位数的步骤第1步,按从小到大排列原始数据;第2步,计算i=n×p%;第3步,若i不是整数,而大于i的比邻整数为j,则第p百分位数为第j项数据;若i是整数,则第p百分位数为第i项与第(i+1)项数据的平均数.4.总体集中趋势的估计定义 特点众数 在一组数据中出现次数最多的数 体现了样本数据的最大集中点,不受极端值的影响,而且可能不止一个续表定义 特点中位数 将一组数据按从小到大依次排列(相同的数据要重复列出),处在最中间位置的那个数据(或最中间两个数据的平均数) 中位数不受极端值的影响,仅利用了排在中间位置的数据的信息,只有一个平均数 一组数据的算术平均数 与每一个样本数据有关,只有一个5.总体离散程度的估计假设一组数据是x1,x2,…,xn,用表示这组数据的平均数,则我们称 (xi-)2为这组数据的方差.有时为了计算方差的方便,我们还把方差写成x-2的形式.我们对方差开平方,取它的算术平方根,称为这组数据的标准差.标准差越大,数据的离散程度越大;标准差越小,数据的离散程度越小.6.总体(样本)方差和总体标准差(1)一般式:如果总体中所有个体的变量值分别为Y1,Y2,…,YN,总体平均数为,则称S2=(Yi-)2为总体方差,S=为总体标准差.(2)加权式:如果总体的N个变量值中,不同的值共有k(k≤N)个,不妨记为Y1,Y2,…,Yk,其中Yi出现的频数为fi(i=1,2,…,k),则总体方差为S2=fi(Yi-)2.总体标准差:S=.如果一个样本中个体的变量值分别为y1,y2,…,yn,样本平均数为,则称s2= (yi-)2为样本方差,s=为样本标准差.7.频率分布直方图中的常见结论(1)众数的估计值为最高矩形的底边中点对应的横坐标.(2)平均数的估计值等于频率分布直方图中每个小矩形的面积与小矩形底边中点的横坐标的乘积之和.(3)中位数的估计值的左边和右边的小矩形的面积和是相等的.8.平均数、方差的公式推广(1)平均数的性质①若给定一组数据x1,x2,…,xn的平均数为,则ax1,ax2,…,axn的平均数为a;ax1+b,ax2+b,…,axn+b的平均数为a+b.②若M个数的平均数是X,N个数的平均数是Y,则这(M+N)个数的平均数是.③若两组数据x1,x2,…,xn和y1,y2,…,yn的平均数分别是和,则x1+y1,x2+y2,…,xn+yn的平均数是+.(2)方差的性质①若给定一组数据x1,x2,…,xn,其方差为s2,则ax1,ax2,…,axn的方差为a2s2;ax1+b,ax2+b,…,axn+b的方差为a2s2.特别地,当a=1时,有x1+b,x2+b,…,xn+b的方差为s2,这说明将一组数据中的每一个数据都加上一个相同的常数,方差是不变的,即不影响数据的波动性.②样本中一组样本数据有m个,平均数为,方差记为s;另一组样本数据有n个,平均数为,方差记为s;总样本数据平均数记为,方差记为s2,则s2={m[s+(-)2]+n[s+(-)2]}=.1.思考辨析(正确的打“√”,错误的打“×”)(1)对一组数据来说,平均数和中位数总是非常接近.( )(2)一组数据1,3,4,5,8,11,14,16,18,19的80%分位数是17.( )(3)方差与标准差具有相同的单位.( )(4)如果一组数中每个数减去同一个非零常数,则这组数的平均数改变,方差不变.( )答案 (1)× (2)√ (3)× (4)√2.已知一组数据为20,30,40,50,50,60,70,80,则该组数据的平均数、中位数和众数的大小关系是( )A.平均数>中位数>众数B.平均数<中位数<众数C.中位数<众数<平均数D.平均数=中位数=众数答案 D解析 ∵平均数为×(20+30+40+50+50+60+70+80)=50,中位数为×(50+50)=50,众数为50,∴它们的大小关系是平均数=中位数=众数.故选D.3.数据12,14,15,17,19,23,27,30的第70百分位数是( )A.14 B.17C.19 D.23答案 D解析 因为8×70%=5.6,所以第70百分位数是第6项数据23.故选D.4.如图是60名学生参加数学竞赛的成绩(均为整数)的频率分布直方图,估计这次数学竞赛的及格率(大于等于60分为及格)是( )A.75% B.25%C.15% D.40%答案 A解析 大于或等于60分的共四组,它们是[59.5,69.5),[69.5,79.5),[79.5,89.5),[89.5,99.5],故样本中60分及以上的频率为(0.015+0.030+0.025+0.005)×10=0.75.由此可估计这次数学竞赛的及格率为75%.故选A.5.已知样本容量为200,在样本的频率分布直方图中,共有n个小矩形.若中间一个小矩形的面积等于其余(n-1)个小矩形面积和的,则该组的频数为________.答案 50解析 设除中间一个小矩形外的(n-1)个小矩形面积的和为p,则中间一个小矩形的面积为p.由题意,得p+p=1,所以p=,则中间一个小矩形的面积为p=,频数为200×=50,即该组的频数为50.1.(多选)(2021·新高考Ⅰ卷)有一组样本数据x1,x2,…,xn,由这组数据得到新样本数据y1,y2,…,yn,其中yi=xi+c(i=1,2,…,n),c为非零常数,则( )A.两组样本数据的样本平均数相同B.两组样本数据的样本中位数相同C.两组样本数据的样本标准差相同D.两组样本数据的样本极差相同答案 CD解析 由题可知=,==+c=+c,因为c≠0,所以≠,A错误;若样本数据x1,x2,…,xn的中位数为xk,因为yi=xi+c,c≠0,所以样本数据y1,y2,…,yn的中位数为yk=xk+c≠xk,B错误;设sx表示样本数据x1,x2,…,xn的标准差,sy表示样本数据y1,y2,…,yn的标准差,则样本数据y1,y2,…,yn的标准差sy===sx,所以C正确;设样本数据x1,x2,…,xn中最大的为xn,最小的为x1,因为yi=xi+c,所以样本数据y1,y2,…,yn中最大的为yn,最小的为y1,极差为yn-y1=(xn+c)-(x1+c)=xn-x1,所以D正确.故选CD.2.(2021·全国甲卷)为了解某地农村经济情况,对该地农户家庭年收入进行抽样调查,将农户家庭年收入的调查数据整理得到如下频率分布直方图:根据此频率分布直方图,下面结论中不正确的是( )A.该地农户家庭年收入低于4.5万元的农户比率估计为6%B.该地农户家庭年收入不低于10.5万元的农户比率估计为10%C.估计该地农户家庭年收入的平均值不超过6.5万元D.估计该地有一半以上的农户,其家庭年收入介于4.5万元至8.5万元之间答案 C解析 由频率分布直方图,知该地农户家庭年收入低于4.5万元的农户比率估计为(0.02+0.04)×1×100%=6%,故A正确;由频率分布直方图,知该地农户家庭年收入不低于10.5万元的农户比率估计为(0.04+0.02+0.02+0.02)×1×100%=10%,故B正确;由频率分布直方图,知该地农户家庭年收入的平均值约为3×0.02+4×0.04+5×0.10+6×0.14+7×0.20+8×0.20+9×0.10+10×0.10+11×0.04+12×0.02+13×0.02+14×0.02=7.68(万元),故C错误;由频率分布直方图,知该地农户家庭年收入介于4.5万元至8.5万元之间的农户比率约为(0.10+0.14+0.20+0.20)×1×100%=64%>50%,故D正确.故选C.3.(2020·全国Ⅲ卷)设一组样本数据x1,x2,…,xn的方差为0.01,则数据10x1,10x2,…,10xn的方差为( )A.0.01 B.0.1C.1 D.10答案 C解析 因为数据axi+b(i=1,2,…,n)的方差是数据xi(i=1,2,…,n)的方差的a2倍,所以所求数据的方差为102×0.01=1.故选C.一、基础知识巩固考点 频率分布直方图例1 (多选)(2022·山东聊城检测)在某次高中学科知识竞赛中,对4000名考生的参赛成绩进行统计,可得到如图所示的频率分布直方图,其中分组的区间为[40,50),[50,60),[60,70),[70,80),[80,90),[90,100],60分以下视为不及格.估计平均数时,同一组中数据用该组区间中点值作代表值,则下列说法中正确的是( )A.成绩在[70,80)的考生人数最多B.不及格的考生人数为1000C.考生竞赛成绩的平均分约为70.5分D.考生竞赛成绩的中位数为75分答案 ABC解析 由频率分布直方图可得,成绩在[70,80)的频率最高,因此考生人数最多,故A正确;成绩在[40,60)的频率为0.01×10+0.015×10=0.25,因此不及格的人数为4000×0.25=1000,故B正确;考生竞赛成绩的平均分约为45×0.1+55×0.15+65×0.2+75×0.3+85×0.15+95×0.1=70.5,故C正确;因为成绩在[40,70)的频率为0.45,在[70,80)的频率为0.3,所以中位数为70+10×≈71.67,故D错误.故选ABC.例2 某市为了了解人们对“经济内循环”的认知程度,对不同年龄和不同职业的人举办了一次“经济内循环”知识竞赛,满分为100分(90分及以上为认知程度高).现从参赛者中抽取了x人,按年龄分成5组,第一组:[20,25),第二组:[25,30),第三组:[30,35),第四组:[35,40),第五组:[40,45],得到如图所示的频率分布直方图,已知第一组有6人.(1)求x;(2)求抽取的x人的年龄的中位数(结果保留整数).解 (1)根据频率分布直方图,得第一组的频率为0.01×5=0.05,所以=0.05,所以x=120.(2)设中位数为a,则0.01×5+0.07×5+(a-30)×0.06=0.5,解得a=≈32,则中位数为32. 1.某学校为了解本校男、女生的学业水平模拟测试数学成绩情况,分别从男生中随机抽取60人的成绩得到样本甲,从女生中随机抽取n人的成绩得到样本乙,根据两个样本数据分别得到如下直方图:已知乙样本中数据在[70,80)的有10个.(1)求n和乙样本直方图中a的值;(2)试估计该校男生本次模拟测试数学成绩的平均值和女生本次模拟测试数学成绩的中位数(估计平均值时,同一组中的数据用该组区间中点值为代表).解 (1)由直方图可知,乙样本中数据在[70,80)的频率为0.020×10=0.20,而在这个组的学生有10人,则=0.20,得n=50,由乙样本数据直方图可知(0.006+0.016+0.020+0.040+a)×10=1,故a=0.018.(2)甲样本数据的平均值估计值为(55×0.005+65×0.010+75×0.020+85×0.045+95×0.020)×10=81.5.故乙样本数据直方图中前三组的频率之和为(0.006+0.016+0.020)×10=0.42<0.50,前四组的频率之和为(0.006+0.016+0.020+0.040)×10=0.82>0.50,故乙样本数据的中位数在第4组,则可设该中位数为80+x,由(0.006+0.016+0.020)×10+0.040x=0.50,得x=2,故乙样本数据的中位数为80+2=82.根据样本估计总体的思想,可以估计该校男生本次模拟测试数学成绩的平均值约为81.5,女生本次模拟测试数学成绩的中位数约为82.2.某网络营销部门随机抽查了某市200名网友在2021年11月11日的网购金额,所得数据如下表:网购金额(单位:千元) 人数 频率(0,1] 16 0.08(1,2] 24 0.12(2,3] x p(3,4] y q(4,5] 16 0.08(5,6] 14 0.07合计 200 1.00已知网购金额不超过3千元与超过3千元的人数比恰为3∶2.(1)试确定x,y,p,q的值,并补全频率分布直方图(如图);(2)该营销部门为了了解该市网友的购物体验,从这200名网友中,用分层随机抽样的方法从网购金额在(1,2]和(4,5]的两个群体中确定5人进行问卷调查,若需从这5人中随机选取2人继续访谈,则此2人来自不同群体的概率是多少?解 (1)根据题意有解得∴p=0.40,q=0.25.补全频率分布直方图如图所示.(2)根据题意,抽取网购金额在(1,2]内的人数为×5=3,抽取网购金额在(4,5]内的人数为×5=2,故此2人来自不同群体的概率P==. 1.频率分布直方图的性质(1)小长方形的面积=组距×=频率;(2)各小长方形的面积之和等于1;(3)小长方形的高=,所有小长方形的高的和为.2.分布直方图的数字特征(1)众数:众数一般用频率分布表中频率最高的一组的区间中点值来表示,即在样本数据的频率分布直方图中,最高小长方形的底边中点的横坐标.(2)中位数:在频率分布直方图中,中位数左边和右边的小长方形的面积和相等.(3)百分位数:第p百分位数左边小长方形的面积之和占总面积的p%.(4)平均数:平均数在频率分布图中等于每组的区间中点值与对应频率之积的和.考点 数字特征的计算例3 某学习小组在一次知识问答测验中,得100分的有1人,95分的有1人,90分的有2人,85分的有4人,80分和75分的各1人,则该学习小组成绩的平均数、众数、中位数分别是( )A.85分、85分、85分 B.87分、85分、86分C.87分、85分、85分 D.87分、85分、90分答案 C解析 由题意知,该学习小组共有10人,因此众数和中位数都是85,平均数为=87.故选C.例4 (2022·湖北荆州模拟)下图是将高三某班60名学生参加某次数学模拟考试所得的成绩(成绩均为整数)整理后画出的频率分布直方图,则此班的模拟考试成绩的80%分位数是________.(结果保留两位小数)答案 124.44解析 由频率分布直方图可知,分数在120分以下的学生所占的比例为(0.01+0.015+0.015+0.03)×10×100%=70%,分数在130分以下的学生所占的比例为(0.01+0.015+0.015+0.03+0.0225)×10×100%=92.5%,因此,80%分位数一定位于[120,130)内.由120+×10≈124.44,故此班的模拟考试成绩的80%分位数约为124.44.例5 (2021·全国乙卷)某厂研制了一种生产高精产品的设备,为检验新设备生产产品的某项指标有无提高,用一台旧设备和一台新设备各生产了10件产品,得到各件产品该项指标数据如下:旧设备 9.8 10.3 10.0 10.2 9.9新设备 10.1 10.4 10.1 10.0 10.1旧设备 9.8 10.0 10.1 10.2 9.7新设备 10.3 10.6 10.5 10.4 10.5旧设备和新设备生产产品的该项指标的样本平均数分别记为和,样本方差分别记为s和s.(1)求,,s,s;(2)判断新设备生产产品的该项指标的均值较旧设备是否有显著提高(如果-≥2,则认为新设备生产产品的该项指标的均值较旧设备有显著提高,否则不认为有显著提高).解 (1)由表中的数据可得:==10,==10.3,s=×[(9.8-10)2+(10.3-10)2+(10.0-10)2+(10.2-10)2+(9.9-10)2+(9.8-10)2+(10.0-10)2+(10.1-10)2+(10.2-10)2+(9.7-10)2]=0.036,s=×[(10.1-10.3)2+(10.4-10.3)2+(10.1-10.3)2+(10.0-10.3)2+(10.1-10.3)2+(10.3-10.3)2+(10.6-10.3)2+(10.5-10.3)2+(10.4-10.3)2+(10.5-10.3)2]=0.04.(2)由(1)中的数据可得-=10.3-10=0.3,2=2=2=,因为0.3=>,所以->2.所以可以认为新设备生产产品的该项指标的均值较旧设备有显著提高. 3.甲、乙两人参加某体育项目训练,近期的五次测试成绩(单位:分)如图所示:(1)分别求出甲、乙两人成绩的平均数与方差;(2)根据(1)的结果,对两人的成绩作出评价.解 (1)由题图可得甲、乙两人五次测试的成绩分别为甲:10分,13分,12分,14分,16分;乙:13分,14分,12分,12分,14分.甲==13,乙==13,s=×[(10-13)2+(13-13)2+(12-13)2+(14-13)2+(16-13)2]=4,s=×[(13-13)2+(14-13)2+(12-13)2+(12-13)2+(14-13)2]=0.8.(2)由s>s,可知乙的成绩较稳定.从题图看,甲的成绩基本呈上升趋势,而乙的成绩上下波动,因此甲的成绩在不断提高,而乙的成绩则无明显提高.4.甲、乙、丙三人去某地务工,其工作受天气影响,雨天不能出工,晴天才能出工(不考虑其他天气情况).其计酬方式有两种,方式一:雨天没收入,晴天出工每天250元;方式二:雨天每天120元,晴天出工每天200元.三人要选择其中一种计酬方式,并打算在下个月(30天)内的晴天都出工,为此三人作了一些调查,甲以去年此月的下雨天数(10天)为依据作出选择;乙和丙在分析了当地近9年此月的下雨天数(n)的频数分布表(见下表)后,乙以频率最大的n值为依据作出选择,丙以n的平均值为依据作出选择.n 8 9 10 11 12 13频数 3 1 2 0 2 1(1)试判断甲、乙、丙选择的计酬方式,并说明理由;(2)根据统计范围的大小,你觉得三人中谁的依据更有指导意义?(3)以频率作为概率,求未来三年中恰有两年此月下雨不超过11天的概率.解 (1)按计酬方式一、二的收入分别记为f(n),g(n),f(10)=250×(30-10)=5000,g(10)=120×10+200×(30-10)=5200,所以甲选择计酬方式二;由频数分布表知频率最大的n=8,f(8)=250×(30-8)=5500,g(8)=120×8+200×(30-8)=5360,所以乙选择计酬方式一;n的平均值为×(8×3+9×1+10×2+12×2+13×1)=10,所以丙选择计酬方式二.(2)甲统计了1个月的情况,乙和丙统计了9个月的情况,但乙只利用了部分数据,丙利用了所有数据,所以丙的统计范围最大,三人中丙的依据更有指导意义.(3)此月下雨不超过11天的频率为=,以此作为概率,则未来三年中恰有两年此月下雨不超过11天的概率为C×2×=. 1.中位数、众数、平均数、方差的应用要点中位数、众数分别反映了一组数据的“中等水平”“多数水平”;平均数反映了数据的平均水平,我们需根据实际需要选择使用;方差描述一组数据围绕平均数波动的幅度,应用时注意其公式的简化形式:s2=x-2.2.频率分布直方图中第p百分位数的计算(1)确定百分位数所在的区间[a,b);(2)确定小于a和小于b的数据所占的百分比分别为fa%,fb%,则第p百分位数为a+×(b-a).考点 统计图表例6 已知某市某居民小区户主人数和户主对户型结构的满意率分别如图1和图2所示,为了解该小区户主对户型结构的满意程度,用分层随机抽样的方法抽取30%的户主进行调查,则样本容量和抽取的户主对四居室满意的人数分别为( )A.240,18 B.200,20C.240,20 D.200,18答案 A解析 样本容量n=(250+150+400)×30%=240,抽取的户主对四居室满意的人数为150×30%×40%=18.故选A.例7 (多选)(2022·山东济南模拟)小明根据2021年1月至11月期间每月跑步的里程(单位:十公里)数据整理并绘制了下面的折线图.根据该折线图,下列结论正确的是( )A.月跑步里程最小值出现在2月B.月跑步里程逐月增加C.月跑步里程的中位数为5月份对应的里程数D.1月至5月的月跑步里程相对于6月至11月波动性更小答案 ACD解析 由折线图可知,月跑步里程的最小值出现在2月,故A正确;月跑步里程不是逐月增加的,故B不正确;月跑步里程数从小到大排列分别是:2月,8月,3月,4月,1月,5月,7月,6月,11月,9月,10月对应的里程数,故5月份对应的里程数为中位数,故C正确;由图可知,1月至5月的月跑步里程相对于6月至11月波动性更小,变化比较平稳,故D正确.故选ACD. 5.(2021·湖南永州高三质量检测)小王于2017年底贷款购置了一套房子,根据家庭收入情况,小王选择了10年期每月还款数额相同的还贷方式,且截止2021年底,他没有再购买第二套房子.下图是2018年和2021年小王的家庭收入用于各项支出的比例分配图,根据以上信息,判断下列结论中正确的是( )A.小王一家2021年用于饮食的支出费用与2018年相同B.小王一家2021年用于其他方面的支出费用是2018年的3倍C.小王一家2021年的家庭收入比2018年增加了1倍D.小王一家2021年用于房贷的支出费用比2018年减少了答案 B解析 因为小王每月还款数额相同,2018年占比60%,2021年占比40%,说明2021年收入大于2018年收入,设2018年收入为x,2021年收入为y,0.6x=0.4y,即=.对于A,2018年和2021年,虽然饮食占比都是25%,但收入不同,所以支出费用不同,所以A不正确;对于B,2018年的其他方面的支出费用是0.06x,2021年其他方面的支出费用是0.12y,=3,所以B正确;对于C,因为==1.5,所以小王一家2021年的家庭收入比2018年增加了0.5倍,所以C不正确;对于D,房贷占收入的比例减少了,但支出费用是不变的,所以D不正确.故选B.6.(多选)2020年全球“新冠”疫情暴发,严重影响了人们的常态生活.某市据统计得到5月份居民消费的各类商品及服务价格环比(与4月份相比)变动情况如图:则下列叙述正确的是( )A.八大消费价格环比呈现四涨四平B.其他用品服务价格环比涨幅最大C.生活用品及服务和医疗保健价格环比涨幅相同D.5月份居民消费平均价格环比持平答案 ABC解析 对于A,由题图可知,饮食烟酒、衣着、居住、交通和通信价格环比持平,生活用品及服务、教育文化娱乐、医疗保健、其他用品服务价格环比上涨,所以A正确;对于B,由题图可知,八大消费价格中,其他用品服务价格环比涨幅最大,所以B正确;对于C,由题图可知,生活用品及服务和医疗保健价格环比涨幅相同,所以C正确;对于D,由于八大消费价格环比呈现四涨四平,所以5月份居民消费平均价格环比上涨,所以D不正确.故选ABC. 统计图表问题的解决方法(1)首先要准确地识图,即要明确统计图表中纵轴、横轴及折线、区域等所表示的意义,尤其注意数字变化的趋势等.(2)其次要准确地用图,会根据统计图表中的数字计算样本的数字特征,会用统计图表估计总体.二、核心素养提升例1 甲、乙两人在一次射击比赛中各射靶5次,两人成绩的条形统计图如图所示,则( )A.甲的成绩的平均数小于乙的成绩的平均数B.甲的成绩的中位数等于乙的成绩的中位数C.甲的成绩的方差小于乙的成绩的方差D.甲的成绩的极差小于乙的成绩的极差答案 C解析 甲的平均数是=6,中位数是6,极差是4,方差是=2;乙的平均数是=6,中位数是5,极差是4,方差是=,比较可得C正确.故选C.例2 在第二次高考模拟市统测结束后,某校高三年级一个班级为预估本班学生的高考成绩水平,登记了全班同学的卷面成绩.经查询得知班上所有同学的学业水平考试成绩22分加分均已取得,则学业水平考试加分22分前后相比,不变的数字特征是( )A.平均数 B.方差C.中位数 D.众数答案 B解析 学业水平考试加分22分前后相比,平均数、中位数、众数都在原来的基础上加上了22,而全班的成绩波动性未发生变化,即方差不变.故选B.例3 某校为了解高三年级学生的身高情况,根据男、女学生所占的比例,利用分层随机抽样分别抽取50名男生和30名女生,测量他们的身高,所得数据如下:性别 人数 平均数(cm) 方差男生 50 174 191女生 30 162 110试估计该校高三年级学生身高的平均数和方差.解 由题意可得样本平均数=×(50×174+30×162)=169.5.方差s2=×{50×[191+(174-169.5)2]+30×[110+(162-169.5)2]}=194.375.可以估计该校高三年级学生身高的平均数为169.5 cm,方差为194.375.例4 (2019·全国Ⅱ卷)某行业主管部门为了解本行业中小企业的生产情况,随机调查了100个企业,得到这些企业第一季度相对于前一年第一季度产值增长率y的频数分布表.y的分组 企业数[-0.20,0) 2[0,0.20) 24[0.20,0.40) 53[0.40,0.60) 14[0.60,0.80] 7(1)分别估计这类企业中产值增长率不低于40%的企业比例、产值负增长的企业比例;(2)求这类企业产值增长率的平均数与标准差的估计值(同一组中的数据用该组区间的中点值为代表).(精确到0.01)附:≈8.602.解 (1)根据产值增长率频数分布表得,所调查的100个企业中产值增长率不低于40%的企业频率为=0.21.产值负增长的企业频率为=0.02.用样本频率分布估计总体分布得这类企业中产值增长率不低于40%的企业比例为21%,产值负增长的企业比例为2%.(2)=×(-0.10×2+0.10×24+0.30×53+0.50×14+0.70×7)=0.30,s2=×i(yi-)2=×[(-0.40)2×2+(-0.20)2×24+02×53+0.202×14+0.402×7]=0.0296,s==0.02×≈0.17.所以这类企业产值增长率的平均数与标准差的估计值分别为0.30,0.17.估计总体的数字特征通常我们用样本的平均数和方差(标准差)来近似代替总体的平均数和方差(标准差),以呈现总体数据的集中趋势及波动大小,从而实现对总体的估计.(1)一般情况下,需要将平均数和标准差结合,得到更多关于样本数据的信息,从而对总体作出较好的估计.因为平均数容易掩盖一些极端情况,使我们作出一些对总体的片面判断,而标准差较好地避免了极端情况.(2)若两组数据的平均数差别很大,也可以仅比较平均数,估计总体的平均水平,从而作出判断.注意:通过样本数据的统计图表和数字特征,我们能够估计总体的信息,而且样本容量越大,这种估计也就越精确.课时作业一、单项选择题1.某鞋店试销一新款女鞋,销售情况如下表:鞋号 34 35 36 37 38 39 40 41数量/双 2 5 9 16 9 5 3 2如果你是鞋店经理,那么下列统计量中对你来说最重要的是( )A.平均数 B.众数C.中位数 D.方差答案 B解析 鞋店经理最关心的是哪种鞋号的鞋销量最大,即数据的众数.故选B.2. 学校为了调查学生在课外读物方面的支出情况,抽取了一个容量为n的样本,其频率分布直方图如图所示,其中支出在[50,60)的同学有30人,则n的值为( )A.100 B.1000C.90 D.900答案 A解析 由频率分布直方图可知,支出在[50,60)的同学的频率为0.03×10=0.3,∴n==100.故选A.3.(2021·山东青岛高三模拟)在样本的频率分布直方图中,共有5个小长方形,若中间一个长方形的面积等于其他4个小长方形面积和的,且样本容量为140,则中间一组的频数为( )A.10 B.20C.40 D.70答案 C解析 因频率分布直方图中,各小矩形面积是该小矩形对应组的频率,且各小矩形面积和为1,设中间一组的频率为x,则其他4组的频率和为1-x,由题意知x=(1-x),解得x=,所以中间一组的频数为×140=40.故选C.4.甲组数据为5,12,16,21,25,37;乙组数据为1,6,14,18,38,39.则甲、乙的平均数、极差及中位数相同的是( )A.极差 B.平均数C.中位数 D.都不相同答案 B解析 由题中数据,可知极差不同,甲的中位数为=18.5,乙的中位数为=16,甲==,乙==,所以甲、乙的平均数相同.故选B.5.AQI是表示空气质量的指数,AQI指数值越小,表明空气质量越好,当AQI指数值不大于100时称空气质量为“优良”.如图是某地7月1日到12日AQI指数值的统计数据,图中A点表示7月1日的AQI指数值为201,则下列叙述错误的是( )A.这12天中有6天空气质量未达到“优良”B.这12天的AQI指数值的中位数是90C.这12天中空气质量最好的是7月9日D.从4日到9日,空气质量越来越好答案 B解析 根据图象,有6天AQI指数大于100,∴这12天中有6天空气质量未达到“优良”,∴A正确;把12个数据按照从小到大重新排列,即67,72,77,85,92,95,104,111,135,138,144,201,可得中位数为=99.5,所以B错误;这12天中,AQI指数的最小值是7月9日的67,∴12天中空气质量最好的是7月9日,C正确;通过图象可以看出,从4日到9日,AQI的值逐渐减小,即空气质量越来越好,∴D正确.故选B.6. 乡村旅游是以旅游度假为宗旨,以村庄野外为空间,以人文无干扰、生态无破坏为特色的村野旅游形式.某机构随机调查了某地区喜欢乡村旅游的1000名游客,他们均从A,B,C,D,E 5个平台中选择1个平台预订出游(每名游客只选择1个平台),得到一个不完整的统计图,如图所示,已知在A平台预订出游的人数是在D平台预订出游的人数的1.5倍,则在D平台预订出游的人数为( )A.170 B.200C.210 D.300答案 B解析 设在A平台预订出游的人数与在D平台预订出游的人数分别为x,y,则x=1.5y,且=1-21%-17%-12%=50%,所以x+y=500,所以y=200.故选B.7.已知样本x1,x2,…,xn的平均数为x,样本y1,y2,…,ym的平均数为y(x≠y),若样本x1,x2,…,xn,y1,y2,…,ym的平均数z=ax+(1-a)y,其中0<a<,则n,m(n,m∈N*)的大小关系为( )A.n=m B.n≥mC.n<m D.n>m答案 C解析 由题意得z=(nx+my)=x+y,∴a=,∵0<a<,∴0<<,又n,m∈N*,∴2n<n+m,∴n<m.故选C.8.(2020·全国Ⅲ卷)在一组样本数据中,1,2,3,4出现的频率分别为p1,p2,p3,p4,且pi=1,则下面四种情形中,对应样本的标准差最大的一组是( )A.p1=p4=0.1,p2=p3=0.4B.p1=p4=0.4,p2=p3=0.1C.p1=p4=0.2,p2=p3=0.3D.p1=p4=0.3,p2=p3=0.2答案 B解析 对于A,该组数据的平均数为A=(1+4)×0.1+(2+3)×0.4=2.5,方差为s=(1-2.5)2×0.1+(2-2.5)2×0.4+(3-2.5)2×0.4+(4-2.5)2×0.1=0.65;对于B,该组数据的平均数为B=(1+4)×0.4+(2+3)×0.1=2.5,方差为s=(1-2.5)2×0.4+(2-2.5)2×0.1+(3-2.5)2×0.1+(4-2.5)2×0.4=1.85;对于C,该组数据的平均数为C=(1+4)×0.2+(2+3)×0.3=2.5,方差为s=(1-2.5)2×0.2+(2-2.5)2×0.3+(3-2.5)2×0.3+(4-2.5)2×0.2=1.05;对于D,该组数据的平均数为D=(1+4)×0.3+(2+3)×0.2=2.5,方差为s=(1-2.5)2×0.3+(2-2.5)2×0.2+(3-2.5)2×0.2+(4-2.5)2×0.3=1.45.因此B选项这一组样本数据的标准差最大.故选B.二、多项选择题9.(2022·福建泉州开学考试)2022年3月12日是全国第44个植树节,为提高大家爱劳动的意识,某中学组织开展植树活动,并收集了高三年级1~11班植树量的数据(单位:棵),绘制了下面的折线图.根据折线图,下列结论正确的是( )A.各班植树的棵数不是逐班增加的B.4班植树的棵数低于11个班的平均值C.各班植树棵数的中位数为6班对应的植树棵数D.1至5班植树的棵数相对于6至11班,波动更小,变化比较平稳答案 ABD解析 由图可知,2班的植树量少于1班,8班的植树量少于7班,故A正确;4班的植树棵数为10,11个班中只有2,3,8三个班的植树棵数少于10,且大于5棵,其余7个班的植树棵数都超过10棵,且6,7,9,10,11班五个班的植树棵数都不少于15棵,将这五个班中的植树棵数各取出5棵,加到2,3,8班中,除4班外,其余各班的植树棵数都超过了4班,所以4班植树的棵数低于11个班的平均值,故B正确;比6班植树多的只有9,10,11三个班,其余七个班都比6班少,故6班所对应的植树棵数不是中位数,故C错误;1至5班的植树棵数的极差在10以内,6至11班的植树棵数的极差超过了15,另外从题图明显看出,1至5班植树的棵数相对于6至11班,波动更小,变化比较平稳,故D正确.故选ABD.10.甲、乙、丙三家企业产品的成本(单位:元)分别为10000,12000,15000,其成本构成如图所示,则关于这三家企业下列说法正确的是( )A.成本最大的企业是丙企业B.费用支出最高的企业是丙企业C.支付工资最少的企业是乙企业D.材料成本最高的企业是丙企业答案 ABD解析 甲企业的成本为10000;乙企业的成本为12000;丙企业的成本为15000.故成本最大的是丙企业,故A正确;甲企业费用支出为10000×5%=500;乙企业费用支出为12000×17%=2040;丙企业费用支出为15000×15%=2250.故费用支出最高的企业是丙企业,故B正确;甲企业支付工资为10000×35%=3500;乙企业支付工资为12000×30%=3600;丙企业支付工资为15000×25%=3750.故甲企业支付的工资最少,故C错误;甲企业材料成本为10000×60%=6000;乙企业材料成本为12000×53%=6360;丙企业材料成本为15000×60%=9000.故材料成本最高的企业是丙企业,故D正确.故选ABD.11.如图为某市2021年国庆节7天假期的楼房认购量与成交量的折线图,小明同学根据折线图对这7天的认购量(单位:套)与成交量(单位:套)作出如下判断,则判断错误的是( )A.日成交量的中位数是26B.日成交量超过日平均成交量的有2天C.10月7日认购量的日增长率大于10月7日成交量的日增长率D.日认购量的方差大于日成交量的方差答案 BC解析 对于A,日成交量的中位数是26,故A正确;对于B,因为日平均成交量为=,日成交量超过日平均成交量的只有10月7日1天,故B错误;对于C,10月7日认购量的日增长率为≈146%,10月7日成交量的日增长率为≈337%,即10月7日认购量的日增长率小于10月7日成交量的日增长率,故C错误;对于D,因为日认购量的数据分布较分散些,方差大些,故D正确.12.某保险公司为客户定制了5个险种:甲,一年期短险;乙,两全保险;丙,理财类保险;丁,定期寿险;戊,重大疾病保险,各种保险按相关约定进行参保与理赔.该保险公司对5个险种参保客户进行抽样调查,得出如下的统计图例:用该样本估计总体,以下四个说法中正确的是( )A.54周岁以上参保人数最少B.18~29周岁人群参保总费用最少C.丁险种更受参保人青睐D.30周岁以上的人群约占参保人群的20%答案 AC解析 对于A,由扇形图可知,54周岁以上参保人数最少,故A正确;对于B,由折线图可知,18~29周岁人群人均参保费用最少,但是由扇形图知参保人数并不是最少的,所以参保总费用不是最少,故B错误;对于C,由条形图可知,丁险种参保比例最高,故C正确;对于D,由扇形图可知,30周岁以上的人群约占参保人群的80%,故D错误.故选AC.三、填空题13.(2021·广东珠海二模)某工厂10名工人某天生产同一类型零件,生产的件数分别是10,12,14,14,15,15,16,17,17,17,记这组数据的平均数为a,中位数为b,众数为c,则a,b,c由大到小的顺序为________.答案 c>b>a解析 平均数a==14.7,中位数b=15,众数c=17,则c>b>a.14.(2021·海口模拟)全国政协委员唐江澎说过:好的教育应该是培养终身运动者、责任担当者、问题解决者和优雅生活者.终身运动者,即要有敬畏生命、珍爱生命的态度,养成终身运动的习惯和健康的生活方式.某中学积极响应此项号召,大力倡导学生进行体育锻炼,为了解高三学生体育锻炼的情况,对该校高三学生的每日运动时间进行了调查,并根据调查结果制成如图所示的频率分布直方图,则该校高三学生每日运动时间的中位数约是________.答案 35解析 根据频率分布直方图可得运动时间在[10,30)的频率为(0.01+0.02)×10=0.3,运动时间在[10,40)的频率为(0.01+0.02+0.04)×10=0.7,则可得中位数在[30,40)内,设为x,则0.04×(x-30)=0.5-0.3,解得x=35.15.抽样统计甲、乙两位射击运动员的5次训练成绩(单位:环),结果如下:运动员 第1次 第2次 第3次 第4次 第5次甲 87 91 90 89 93乙 89 90 91 88 92则成绩较为稳定(方差较小)的那位运动员成绩的方差为________.答案 2解析 甲=×(87+91+90+89+93)=90,乙=×(89+90+91+88+92)=90,s=×[(87-90)2+(91-90)2+(90-90)2+(89-90)2+(93-90)2]=4,s=×[(89-90)2+(90-90)2+(91-90)2+(88-90)2+(92-90)2]=2.16.(2021·湖南岳阳高三模拟)某学校高一年级共有三个班,按优秀率进行评选:1班30人,优秀率30%,2班35人,优秀率60%,三班35人,优秀率40%,则全年级优秀率为________.答案 44%解析 全年级优秀率为=44%.四、解答题17.某车站在春运期间为了了解旅客购票情况,随机抽样调查了100名旅客从开始在售票窗口排队到购到车票所用的时间t(以下简称为购票用时,单位为min),下面是这次调查统计分析得到的频率分布表和频率分布直方图(如图所示).分组 频数 频率一组 0≤t<5 0 0二组 5≤t<10 10 0.10三组 10≤t<15 10 b四组 15≤t<20 a 0.50五组 20≤t≤25 30 0.30合计 100 1.00解答下列问题:(1)这次抽样的样本容量是多少?(2)求出a,b的值并补全频率分布直方图;(3)旅客购票用时的平均数可能落在哪一组?解 (1)样本容量是100.(2)第四组的频数a=100-10-10-30=50,第三组的频率b=1.00-0.10-0.50-0.30=0.10.所补频率分布直方图如图中的阴影部分.(3)设旅客平均购票用时为 min,则有≤<,即15≤t<20.所以旅客购票用时的平均数可能落在第四组.18.(2021·云南昆明期末)有一种鱼的身体吸收汞,一定量身体中汞的含量超过其体重的1.00×10-6的鱼被人食用后,就会对人体产生危害.某海鲜市场进口了一批这种鱼,质监部门对这种鱼进行抽样检测,在30条鱼的样本中发现的汞含量(乘以百万分之一)如下:0.07 0.34 0.95 0.98 1.02 0.98 1.37 1.40 0.39 1.021.44 1.58 0.54 1.08 0.71 0.70 1.20 1.24 1.62 1.681.85 1.30 0.81 0.82 0.84 1.39 1.26 2.20 0.91 1.31(1)完成下面频率分布表,并画出频率分布直方图;频率分布表:分组 频数 频率[0,0.50)[0.50,1.00)[1.00,1.50)[1.50,2.00)[2.00,2.50] 1合计 30 1频率分布直方图:(2)根据频率分布直方图估算样本数据的平均值(保留小数点后两位,同一组中的数据用该组区间中点值代表),并根据频率分布直方图描述这批鱼身体中汞含量的分布规律.解 (1)由题设样本数据,则可得频率分布表及频率分布直方图如下:分组 频数 频率[0,0.50) 3[0.50,1.00) 10[1.00,1.50) 12[1.50,2.00) 4[2.00,2.50] 1合计 30 1(2)根据频率分布直方图估算平均值为0.25×+0.75×+1.25×+1.75×+2.25×≈1.08,分布规律:①该频率分布直方图呈中间高,两边低,大多数鱼身体中汞含量集中在区间[0.50,1.50)上;②汞含量在区间[1.00,1.50)上的鱼最多,汞含量在区间[0.50,1.00)上的次之,在区间[2.00,2.50]上的最少;③汞含量超过1.00×10-6的数据所占比例较大,这说明这批鱼被人食用,对人体产生危害的可能性比较大.19.我国是世界上严重缺水的国家,某市政府为了鼓励居民节约用水,计划调整居民生活用水收费方案,拟确定一个合理的月用水量标准x(吨),一位居民的月用水量不超过x的部分按平价收费,超出x的部分按议价收费.为了了解居民用水情况,通过抽样,获得了某年100位居民的月均用水量(单位:吨),将数据按照[0,0.5),[0.5,1),…,[4,4.5]分成9组,制成了如图所示的频率分布直方图.(1)求直方图中a的值;(2)设该市有30万居民,估计全市居民中月均用水量不低于3吨的人数,并说明理由;(3)若该市政府希望使85%的居民每月的用水量不超过标准x(吨),估计x的值,并说明理由.解 (1)由频率分布直方图知,月均用水量在[0,0.5)中的频率为0.08×0.5=0.04,同理,在[0.5,1),[1.5,2),[2,2.5),[3,3.5),[3.5,4),[4,4.5]中的频率分别为0.08,0.20,0.26,0.06,0.04,0.02.由0.04+0.08+0.5×a+0.20+0.26+0.5×a+0.06+0.04+0.02=1,解得a=0.30.(2)由(1)可知,100位居民中月均用水量不低于3吨的频率为0.06+0.04+0.02=0.12.根据样本中的频率,可以估计全市30万居民中月均用水量不低于3吨的人数为300000×0.12=36000.(3)因为前6组的频率之和为0.04+0.08+0.15+0.20+0.26+0.15=0.88>0.85,前5组的频率之和为0.04+0.08+0.15+0.20+0.26=0.73<0.85,所以2.5≤x<3.由0.30×(x-2.5)=0.85-0.73,解得x=2.9.所以估计月用水量标准为2.9吨时,85%的居民每月的用水量不超过标准. 展开更多...... 收起↑ 资源预览