资源简介 中小学教育资源及组卷应用平台第十章 统计与成对数据的统计分析专题2:用样本估计总体1.会用统计图表对总体进行估计.2.理解集中趋势参数的统计含义;理解离散程度参数的统计含义;能用样本估计总体的取值规律,理解百分位数的统计含义.3.掌握分层随机抽样的样本均值与样本方差.1.总体百分位数的估计(1) 百分位数的定义一般地,一组数据的第p百分位数是这样一个值,它使得这组数据中至少有p%的数据小于或等于这个值,且至少有(100-p)%的数据大于或等于这个值.(2)计算一组n个数据的第p百分位数的步骤第1步,按从小到大排列原始数据;第2步,计算i=n×p%;第3步,若i不是整数,而大于i的比邻整数为j,则第p百分位数为第j项数据;若i是整数,则第p百分位数为第i项与第(i+1)项数据的平均数.(3)四分位数①25%,50%,75%这三个分位数把一组由小到大排列后的数据分成四等份,因此称为四分位数.②第25百分位数又称第一四分位数或下四分位数;第75百分位数又称第三四分位数或上四分位数.提醒:一组数据的某些百分位数可能是同一个数.2.总体集中趋势的估计名称 概念平均数 如果有n个数x1,x2,…,xn,那么这组数据的平均数=(x1+x2+…+xn)中位数 将一组数据按从小到大或从大到小的顺序排列,处在最中间的一个数据(当数据个数是奇数时)或最中间两个数据的平均数(当数据个数是偶数时)叫做这组数据的中位数众数 一组数据中出现次数最多的数据(即频数最大值所对应的样本数据)叫做这组数据的众数3. 总体离散程度的估计(1)方差和标准差假设一组数据是x1,x2,…,xn,用表示这组数据的平均数,称(xi-)2为这组数据的方差,也可以写成x-2的形式;称为这组数据的标准差.(2)总体方差和标准差①一般式:如果总体中所有个体的变量值分别为Y1,Y2,…,YN,总体平均数为,则总体方差S2=(Yi-)2.②加权式:如果总体的N个变量值中,不同的值共有k(k≤N)个,不妨记为Y1,Y2,…,Yk,其中Yi出现的频数为fi(i=1,2,…,k),则总体方差为S2=fi(Yi-)2.总体标准差:S=.(3)样本方差和标准差如果一个样本中个体的变量值分别为y1,y2,…,yn,样本平均数为,则称s2=(yi-)2为样本方差,s=为样本标准差.(4)分层随机抽样的均值与方差分层随机抽样中,如果样本量是按比例分配,记总的样本平均数为,样本方差为s2.以分两层抽样的情况为例,假设第一层有m个数,分别为x1,x2,…,xm,平均数为,方差为s;第二层有n个数,分别为y1,y2,…,yn,平均数为,方差为s,则=xi,s=(xi-)2,=yi,s=(yi-)2.则①=+;②s2={m[s+(-)2]+n[s+(-)2]}.1.频率分布直方图中的常见结论(1)众数的估计值为最高矩形的中点对应的横坐标.(2)平均数的估计值等于频率分布直方图中每个小矩形的面积乘以小矩形底边中点的横坐标之和.(3)中位数的估计值的左边和右边的小矩形的面积和是相等的.2.平均数、方差的公式推广(1)若数据x1,x2,…,xn的平均数为,那么mx1+a,mx2+a,mx3+a,…,mxn+a的平均数是m+a.(2)数据x1,x2,…,xn的方差为s2.①数据x1+a,x2+a,…,xn+a的方差也为s2;②数据ax1,ax2,…,axn的方差为a2s2.考点一 总体百分位数的估计计算一组数据的第p百分位数1.(2022·重庆·高一学业考试)为做好“新冠肺炎”疫情防控工作,我市各学校坚持落实“双测温两报告”制度,以下是某宿舍6名同学某日上午的体温记录:36.3,36.1,36.4,36.7,36.5,36.6(单位:),则该组数据的第80百分位数为( )A.36.7 B.36.6 C.36.5 D.36.4【答案】B【分析】根据第百分位数的概念和计算方法可得答案.【详解】将6名同学某日上午的体温记录从小到大排列为:36.1,36.3, 36.4,36.5,36.6,36.7,因为,所以该组数据的第80百分位数为36.6.故选:B.2.(2022·全国·高一单元测试)数据11,12,13,15,16,18,19,20,25,30的40百分位数是_____________.【答案】或15.5【分析】由,再由百分位数的定义计算即可得答案.【详解】解:因为这组数据共有10个数,所以,所以这组数据的40百分位数是:.故答案为:或3.(2023·全国·高三专题练习)从某校高一年级新生中随机抽取一个容量为20的身高样本,数据如下(单位:,数据间无大小顺序要求):(1)若为这组数据的一个众数,求的取值集合;(2)若样本数据的第90百分位数是173,求的值;(3)若,试估计该校高一年级新生的平均身高.【答案】(1)(2)172(3)【分析】(1)首先排列19个数据,根据众数的定义,即可确定的取值集合;(2)首先确定第90百分位数是第18项和第19项数据的平均数,再讨论的取值,根据百分位数,列式求值;(3)根据平均数公式,列式求值.(1)其余十九个数据,中,数据出现的频数为3的数有165,170,出现频数为2的数据有164,168.因为为这组数据的一个众数,所以的取值集合为.(2)因为,所以90百分位数是第18项和第19项数据的平均数,若,则90百分位数为,矛盾.若,即,所以.若,则90百分位数为,矛盾.综上,的值为172.(3)依题意可得所以平均数为,估计该校高一年级学生的平均身高.根据频率分布直方图计算样本数据的百分位数某市为了了解人们对“中国梦”的伟大构想的认知程度,对不同年龄和不同职业的人举办了一次“一带一路”知识竞赛,满分100分(90分及以上为认知程度高),现从参赛者中抽取了x人,按年龄分成5组(第一组:[20,25),第二组:[25,30),第三组:[30,35),第四组:[35,40),第五组:[40,45]),得到如图所示的频率分布直方图,已知第一组有5人.(1)求x;(2)求抽取的x人的年龄的50%分位数(结果保留整数);(3)以下是参赛的10人的成绩:90,96,97,95,92,92,98,88,96,99,求这10人成绩的20%分位数和平均数,以这两个数据为依据,评价参赛人员对“一带一路”的认知程度.【解析】(1)第一组频率为0.01×5=0.05,所以x==100.(2)由题图可知年龄低于30岁的所占比例为40%,年龄低于35岁的所占比例为70%,所以抽取的x人的年龄的50%分位数在[30,35)内,由30+5×=≈32,所以抽取的x人的年龄的50%分位数为32.(3)把参赛的10人的成绩按从小到大的顺序排列:88,90,92,92,95,96,96,97,98,99,计算10×20%=2,所以这10人成绩的20%分位数为=91,这10人成绩的平均数为×(88+90+92+92+95+96+96+97+98+99)=94.3.评价:从第20百分位数和平均数来看,参赛人员的认知程度很高.计算一组n个数据的第p百分位数的一般步骤2.频率分布直方图中第p百分位数的计算(1)确定百分位数所在的区间[a,b).(2)确定小于a和小于b的数据所占的百分比分别为fa%,fb%,则第p百分位数为a+×(b-a).考点二 总体集中趋势的估计1.(2022·全国·高一单元测试)10名工人某天生产同一零件,生产的件数分别是15,17,14,10,15,17,17,16,14,12.设其平均数为a,中位数为b,众数为c,则有( )A. B. C. D.【答案】D【分析】将数据从小到大重新排列(也可以是从大到小),计算出的值即可比较大小.【详解】解:重新排列得:10,12,14,14,15,15,16,17,17,17.则有:.所以故选:D.2.(2022·湖南·衡阳市第六中学高一开学考试)某省旅游资源丰富,2014-2018年旅游收入不断增长,同比增速分别为14.3%,13.7%,15.5%,14.3%,17.2%关于这组数据,下列说法正确的是( )A.中位数是15.5% B.众数是14.3% C.平均数是14.5% D.方差是0【答案】B【分析】根据中位数、众数与平均数和方差的定义逐个求解辨析即可.【详解】对A,将这组数据按从小到大的顺序排列为13.7%,14.3%,14.3%,15.5%,17.2%,中位数是14.3%,故A错误;对B,14.3%出现了2次,其余数据均只出现一次,故14.3%为众数,故B正确;对C,平均数为,故C错误;对D,方差显然大于0,故D错误;故选:B3.(2022·全国·高一课时练习)有一组数据(不完全按大小顺序排列):,已知这组数据的平均数为,则这组数据的方差为( )A. B. C. D.【答案】B【分析】根据平均数已知,代入公式可计算出的值,由方差公式,计算方差得答案.【详解】由题意得,解得,所以.故答案为:.4.(2022·贵州遵义·高三开学考试(文))某同学利用暑假积极参加社会实践活动,帮助湄潭翠芽经销商进行促销,该同学在两周内的每日促销量如图所示,根据此折线图,下面结论中正确的是( )A.这14天的促销量的中位数大于200B.这14天促销量超过200的天数所占比例大于50%C.这14天内,促销量的极差小于200D.前7天促销量的方差小于后7天促销量的方差【答案】C【分析】结合图像逐项判断可得答案.【详解】促销量由图可得214,275,243,157,80,155,260,83,165,179,138,214,221,263,由小到大排列为80,83,138,155,157,165,179,214,214,221,243,260,263,275,这14天的促销量的中位数为,故A错误;这14天促销量超过200的天数有214,214,221,243,260,263,275,共7天,所占比例等于50% ,故B错误;这14天内,促销量的极差为,故C正确;前7天促销量的平均数为,后7天促销量的平均数为,前7天促销量在平均数附近摆动幅度比后7天促销量在平均数附近摆动幅度大,所以方差大于后7天促销量的方差,故D错误.故选:C.5.(2022·全国·高一课时练习)在某次高中学科知识竞赛中,从4000名考生的参赛成绩中随机选取400个成绩进行统计,可得到如图所示的频率直方图,其中60分以下视为不及格,则下列说法中正确的有( )A.成绩在分内的考生人数最多 B.4000名考生中约有1000名不及格C.估计考生竞赛成绩的平均分为70.5分 D.估计考生竞赛成绩的中位数为75分【答案】ABC【分析】结合频率分布直方图、频率、平均数、中位数等知识对选项进行分析,从而确定正确答案.【详解】由频率直方图可得,成绩在分内的频率最大,因此考生人数最多,故A正确:成绩在分内的频率为,因此不及格的人数为,故B正确;考生竞赛成绩的平均分约为,故C正确;因为成绩在分内的频率为0.45,在分内的频率为0.3,所以中位数为,故D错误.故选:ABC1.众数、中位数和平均数的意义众数描述变量的值出现次数最多的数;中位数等分样本数据所占的频率;平均数反映所有数据的平均水平.2.利用频率分布直方图估计样本的数字特征的方法(1)中位数:在频率分布直方图中,中位数左边和右边的直方图的面积相等,由此可以估计中位数的值.(2)平均数:平均数的估计值等于每个小矩形的面积乘小矩形底边中点的横坐标之和.(3)众数:最高的矩形的底边中点的横坐标.考点三 总体离散程度的估计 分层随机抽样的均值与方差(2021·越秀区期末)为了解学生的课外阅读情况,某校采用样本量比例分配的分层随机抽样对高中三个年级的学生进行平均每周课外阅读时间(单位:小时)的调查,所得样本数据如下:年级 抽样人数 样本平均数 样本方差高一 40 5 3.5高二 30 2 2高三 30 3 s已知高中三个年级学生的总样本平均数为4.1,总样本方差为3.14,则高二年级学生的样本平均数2=________,高三年级学生的样本方差s=________.【答案】4 1.5 【解析】由高中三个年级学生的总样本平均数为4.1,可得=4.1,解得2=4.因为总样本方差为3.14,所以×[3.5+(5-4.1)2]+×[2+(4-4.1)2]+×[s+(3-4.1)2]=3.14,解得s=1.5.(2021·烟台期末)为调查高一、高二学生心理健康达标情况,某学校采用分层随机抽样方法,从高一、高二学生中分别抽取了50人、40人参加心理健康测试(满分:10分).经初步统计,参加测试的高一学生成绩xi的平均分=7.4,方差s=2.6,高二学生的成绩yi的统计表如下:成绩y 4 5 6 7 8 9频数 3 7 11 9 6 4(1)计算参加测试的高二学生成绩的平均分和方差s;(2)估计该学校高一、高二全体学生的平均分和方差s.【解析】 (1)由题意,==6.5.s=[3×(4-6.5)2+7×(5-6.5)2+11×(6-6.5)2+9×(7-6.5)2+6×(8-6.5)2+4×(9-6.5)2]=1.95.(2)由(1)可得,=(50+40)=(50×7.4+40×6.5)=7,s=×[2.6+ 7.4-7 2]+×[1.95+(6.5-7)2]=.均值与方差的应用(2021·全国乙卷)某厂研制了一种生产高精产品的设备,为检验新设备生产产品的某项指标有无提高,用一台旧设备和一台新设备各生产了10件产品,得到各件产品该项指标数据如下:旧设备 9.8 10.3 10.0 10.2 9.9 9.8 10.0 10.1 10.2 9.7新设备 10.1 10.4 10.1 10.0 10.1 10.3 10.6 10.5 10.4 10.5旧设备和新设备生产产品的该项指标的样本平均数分别记为和,样本方差分别记为s和s.(1)求,,s,s;(2)判断新设备生产产品的该项指标的均值较旧设备是否有显著提高(如果-≥2,则认为新设备生产产品的该项指标的均值较旧设备有显著提高,否则不认为有显著提高).【解析】 (1)由题中的数据可得==10.0,==10.3,s=[(9.8-10.0)2+(10.3-10.0)2+(10.0-10.0)2+(10.2-10.0)2+(9.9-10.0)2+(9.8-10.0)2+(10.0-10.0)2+(10.1-10.0)2+(10.2-10.0)2+(9.7-10.0)2]=0.036,s=[(10.1-10.3)2+(10.4-10.3)2+(10.1-10.3)2+(10.0-10.3)2+(10.1-10.3)2+(10.3-10.3)2+(10.6-10.3)2+(10.5-10.3)2+(10.4-10.3)2+(10.5-10.3)2]=0.04.(2)由(1)知-=10.3-10.0=0.3,2=2=2,则0.3=>2=.所以可判断新设备生产产品的该项指标的均值较旧设备有显著提高.1.(2022·全国·高考真题(文))分别统计了甲、乙两位同学16周的各周课外体育运动时长(单位:h),得如下茎叶图:则下列结论中错误的是( )A.甲同学周课外体育运动时长的样本中位数为7.4B.乙同学周课外体育运动时长的样本平均数大于8C.甲同学周课外体育运动时长大于8的概率的估计值大于0.4D.乙同学周课外体育运动时长大于8的概率的估计值大于0.6【答案】C【分析】结合茎叶图、中位数、平均数、古典概型等知识确定正确答案.【详解】对于A选项,甲同学周课外体育运动时长的样本中位数为,A选项结论正确.对于B选项,乙同学课外体育运动时长的样本平均数为:,B选项结论正确.对于C选项,甲同学周课外体育运动时长大于的概率的估计值,C选项结论错误.对于D选项,乙同学周课外体育运动时长大于的概率的估计值,D选项结论正确.故选:C2.(2022·全国·高考真题(理))某社区通过公益讲座以普及社区居民的垃圾分类知识.为了解讲座效果,随机抽取10位社区居民,让他们在讲座前和讲座后各回答一份垃圾分类知识问卷,这10位社区居民在讲座前和讲座后问卷答题的正确率如下图:则( )A.讲座前问卷答题的正确率的中位数小于B.讲座后问卷答题的正确率的平均数大于C.讲座前问卷答题的正确率的标准差小于讲座后正确率的标准差D.讲座后问卷答题的正确率的极差大于讲座前正确率的极差【答案】B【分析】由图表信息,结合中位数、平均数、标准差、极差的概念,逐项判断即可得解.【详解】讲座前中位数为,所以错;讲座后问卷答题的正确率只有一个是个,剩下全部大于等于,所以讲座后问卷答题的正确率的平均数大于,所以B对;讲座前问卷答题的正确率更加分散,所以讲座前问卷答题的正确率的标准差大于讲座后正确率的标准差,所以C错;讲座后问卷答题的正确率的极差为,讲座前问卷答题的正确率的极差为,所以错.故选:B.3.(2021·全国·高考真题)下列统计量中,能度量样本的离散程度的是( )A.样本的标准差 B.样本的中位数C.样本的极差 D.样本的平均数【答案】AC【分析】考查所给的选项哪些是考查数据的离散程度,哪些是考查数据的集中趋势即可确定正确选项.【详解】由标准差的定义可知,标准差考查的是数据的离散程度;由中位数的定义可知,中位数考查的是数据的集中趋势;由极差的定义可知,极差考查的是数据的离散程度;由平均数的定义可知,平均数考查的是数据的集中趋势;故选:AC.一、单选题1.在一次连续10次的射击中,甲、乙两名射击运动员所射中环数的平均数一样,但方差不同,则下列说法中正确的是( )A.因为他们所射中环数的平均数一样,所以他们水平相同B.虽然射中环数的平均数一样,但方差较大的,潜力较大,更有发展前途C.虽然射中环数的平均数一样,但方差较小的,发挥较稳定,更有发展前途D.虽然射中环数的平均数一样,但方差较小的,发挥较不稳定,忽高忽低【答案】C【分析】根据方差的实际意义即可判断.【详解】由方差的意义可知,方差越小,数据越稳定;反之,方差越大,波动越大,所以C说法正确.故选:C.2.设一组样本数据的方差为,则数据,,,的方差为( )A. B. C. D.【答案】C【分析】利用方差的性质求解即可.【详解】由题意数据,,,的方差为.故选:C3.在一次英语听力测试中,甲组5名学生的成绩(单位:分)如下:9,12,,24,27,乙组5名学生的成绩如下:9,15,,18,24,其中x,y为两个不清楚的数据.若甲组数据的中位数为15,乙组数据的平均数为16.8,则x,y的值分别为( )A.2,5 B.5,5 C.5,8 D.8,8【答案】C【分析】根据中位数、平均数的定义及求法,结合甲乙组学生成绩数据求参数值即可.【详解】因为甲组数据的中位数为15,易知.因为乙组数据的平均数为16.8,所以,解得.故选:C4.高二(1)班共有40人,甲同学在一次测验中的成绩是第9名,则甲同学成绩的百分位数约是( )A.25 B.20 C.40 D.80【答案】D【分析】利用百分位数的概念进行求解即可【详解】解:设甲同学成绩的百分位数约是,依题意得,,解得,故甲同学成绩的百分位数约为80,故选:D5.为了解学生参加知识竞赛的情况,随机抽样了甲、乙两个小组各名同学的成绩,得到如图的两个频率分布直方图,记甲、乙的平均分分别为、,标准差分别为、,根据直方图估计甲、乙小组的平均分及标准差,下列描述正确的是( )A., B.,C., D.,【答案】A【分析】由频率分布直方图求平均数,再比较标准差的大小即可【详解】,,故;由频率分布直方图知甲小组数据更集中,乙小组的更分散,故;故选:A6.如图是某市连续16日的空气质量指数趋势统计图,空气质量指数(AQI)小于100表示空气质量优良,空气质量指数大于200表示空气重度污染,则下列说法不正确的是( )A.这16日空气重度污染的频率为0.5B.该市出现过连续4天空气重度污染C.这16日的空气质量指数的中位数为203D.这16日的空气质量指数的平均值大于200【答案】D【分析】通过计算可以判断选项ABC正确,选项D不正确.【详解】解:这16日空气重度污染的频率为,故A中说法正确;12日,13日,14日,15日连续4天空气重度污染,故B中说法正确:中位数为,故C中说法正确;.故D中说法不正确.故选:D7.在一个容量为5的样本5,7,8,■,■中(数据均为正整数),已算出其平均数为8,但墨水污损了后面两个数据,其中一个数据的十位数字为1,那么这组数据的方差可能的最大值是( )A. B.18 C.36 D.6【答案】C【分析】设这组数据的最后2个数分别是,y,由平均数求得的关系,然后计算出方差,由函数性质得最大值.【详解】设这组数据的最后2个数分别是,y,则,得,故.∴,当时,最大,最大值为36.故选:C.8.已知一个样本容量为7的样本的平均数为5,方差为2,现样本加入三个新数据4,5,6,若新样本的平均数为,方差为,则( )A., B.,C., D.,【答案】B【分析】根据平均数、方差公式计算可得.【详解】解:设新样本的10个数据分别为,,…,,,,,由题意得,又,所以,所以,.故选:B二、多选题9.下列数字特征一定会在原始数据中出现的是( )A.众数 B.中位数 C.平均数 D.最值【答案】AD【分析】根据众数和最值得定义即可判断AD,举出反例即可判断BC.【详解】解:众数是指出现次数最多的数,故一定会在原始数据中;对于一组数列1,2,3,4,中位数为,平均数为,都不在原始数据中;最值是指一组数据中最大或最小的数据,故一定会在原始数据中.故选:AD.10.在秋季运动会的跳远比赛中,张明是选手中跳得最远的,李华是选手中跳得最近的,总共有20名选手,则下列描述中正确的有( )A.张明跳远成绩的百分位数约为100 B.张明跳远成绩的百分位数约为20C.李华跳远成绩的百分位数约为0 D.李华跳远成绩的百分位数约为6【答案】AC【分析】根据百分位数的定义依次判断即可.【详解】由百分位数的定义知:一组数据从小到大排序,第百分位数是这样一个值,它使得这组数据中至少有%数据小于或等于这个数,至少有%的数据大于或等于这个值;对于A,跳远成绩从小到大排序,因为张明是选手中跳得最远的,即至少有100%数据小于或等于张明的成绩,至少有0%的数据大于或等于这个值,所以张明跳远成绩的百分位数约为100,故A正确;对于B,跳远成绩从小到大排序,因为张明是选手中跳得最远的,即至少有100%数据小于或等于张明的成绩,至少有0%的数据大于或等于这个值,所以张明跳远成绩的百分位数约为100,故B不正确;对于C,跳远成绩从小到大排序,因为李华是选手中跳得最近的,即有至少0%数据小于或等于李华的成绩,至少有100%的数据大于或等于这个值,所以李华跳远成绩的百分位数约为0,故C正确;对于D,跳远成绩从小到大排序,因为李华是选手中跳得最近的,即有至少0%数据小于或等于李华的成绩,至少有100%的数据大于或等于这个值,所以李华跳远成绩的百分位数约为0,故D不正确.故选:AC11.某高校土木工程系大四年级55名学生期末考试专业成绩的频率折线图如图所示,其中组距为10,且本次考试中最低分为50分,最高分为100分.根据图中所提供的信息,下列结论中错误的有( )A.75分的人数为20 B.100分的人数比50分的人数多C.成绩落在内的人数为35 D.成绩落在内的人数为35【答案】ABD【分析】根据频率折线图对选项进行逐一计算判断即可.【详解】对于A,成绩落在分内的人数为,不能说75分的人数为20,故错误;对于B,由频率折线图得不到100分的人数比50分的人数多,只能看出成绩落在分内的人数和成绩落在分内的人数相等,故错误;对于C,成绩落在分内的人数为,故正确;对于D,成绩落在分的有35人,不能说成绩落在分的有35人,故错误.故选:ABD.12.下图是甲、乙两个工厂的轮胎宽度的雷达图(虚线代表甲,实线代表乙).根据图中的信息,下列说法正确的是( )A.甲厂轮胎宽度的平均数大于乙厂轮胎宽度的平均数B.甲厂轮胎宽度的众数大于乙厂轮胎宽度的众数C.甲厂轮胎宽度的中位数与乙厂轮胎宽度的中位数相同D.甲厂轮胎宽度的极差小于乙厂轮胎宽度的极差【答案】ACD【分析】根据雷达图逐项判断可得答案.【详解】甲厂轮胎宽度分别为194, 194,194,195,196, 197,乙厂轮胎宽度分别为191, 193,194,195,195,196,甲厂轮胎宽度平均数为,乙厂轮胎宽度平均数为,,故A正确;甲厂轮胎宽度的众数是194,乙厂轮胎宽度的众数是195,,故B错误;甲厂轮胎宽度的中位数为,乙厂轮胎宽度的中位数为,故C正确;甲厂轮胎宽度的极差为,乙厂轮胎宽度极差为,,故D正确.故选:ACD.三、填空题13.在分层抽样时,如果将总体分为k层,第j层抽取的样本量为,第j层的样本平均数为,样本方差为,,.记,则所有数据的样本方差为________.【答案】【分析】在分层抽样中先计算第层抽取的样本均值,再计算总体k层的样本均值,即可得出;同理,计算第j层抽取的样本方差,进行一系列整理得到,再计算总体k层的样本方差,由此得答案.【详解】解:.∴样本均值为.又.计算总体又...故答案为:14.标准差的定义:方差的_________称为标准差.一般用表示,即样本数据的标准差为_________.标准差的性质:如果,为常数,那么的标准差为________.【答案】 算术平方根 【分析】根据标准差的定义填空即可【详解】略15.已知函数,若存在常数c,对任意的,存在唯一的,使得,则称函数在D上的算术平均数为c.已知,则在上的算术平均数为________.【答案】【分析】根据函数算术平均数的定义,结合对数函数的性质且,即可得的算术平均数.【详解】由单调递增,则,,所以,则对于任意,存在唯一使,故算术平均数为.故答案为:16.某中学高二各班三分钟跳绳比赛的成绩如下:257,311,267,301,279,296,246,287,257,323,266,293,304,269,332,270,则第75百分位数为______.【答案】302.5【分析】将数据从小到大排序,再根据百分位数的定义求第75百分位数即可.【详解】数据从小到大排序如下,246,257,257,266,267,269,270,279,287,293,296,301,304,311,323,332共16个数据,,第12、13个数据分别为301、304,则其第75百分位数为,故答案为:302.5四、解答题17.某大学艺术专业400名学生参加某次测评,根据男女学生人数比例、使用分层随机抽样的方法从中随机抽取了100名学生,记录他们的分数、将数据分成7组:,,…,,并整理得到如图的频率分布直方图.(1)估计总体400名学生中分数小于60的人数;(2)已知样本中分数小于40的学生有5人,试估计总体中分数在区间内的人数;(3)根据该大学规定、把25%的学生划定为不及格、确定本次测试的及格分数线、低于及格分数线的学生需要补考.【答案】(1)80(2)20(3)65分【分析】(1)由频率分布直方图求出分数不小于60的频率,即可得到分数小于60的频率,即可估计人数;(2)由频率分布直方图求出分数在区间内的人数,即可估计总体中分数在区间内的人数;(3)根据百分位数计算规则计算可得.(1)解:据频率分布直方图可知,样本中分数不小于60的频率为,所以样本中分数小于60的频率为,所以估计总体400名学生中分数小于60的人数为.(2)解:根据题意,样本中分数不小于50的频率为,分数在区间内的人数为,所以总体中分数在区间内的人数估计为.(3)解:设分数的第25百分位数为,分数小于70的频率为,分数小于60的频率为,所以,即,解得,则本次考试的及格分数线为65分.18.某市为了鼓励市民节约用电,实行“阶梯式”电价,将该市每户居民的月用电量划分为三档,月用电量不超过200千瓦时的部分按元/千瓦时收费,超过200千瓦时但不超过400千瓦时的部分按元/千瓦时收费,超过400千瓦时的部分按元/千瓦时收费.(1)求某户居民的用电费用(单位:元)关于月用电量(单位:千瓦时)的函数解析式;(2)为了了解居民的用电情况,通过抽样获得了今年1月份100户居民每户的用电量,统计分析后得到如图所示的频率分布直方图.若这100户居民中今年1月份用电费用小于260元的占,求的值;(3)根据(2)中求得的数据计算用电量的分位数和平均数.【答案】(1)(2)(3)电量的分位数为375千瓦时.平均数275千瓦时【分析】(1)根据题目条件,列出函数解析式即可;(2)将代入(1)中解析式得到的值,再结合频率分布直方图求的值;(3)根据百分位数和平均数的定义,结合频率分布直方图中的数据,计算即可.(1)当时,;当时,;当时,.所以与之间的函数解析式为(2)由(1)可知,当时,,即用电量小于400千瓦时的占,结合频率分布直方图可知,解得.(3)设75%分位数为,由题图知,用电量低于300千瓦时的频率为,用电量低于400千瓦时的频率为,所以分位数在内,所以,解得,即用电量的分位数为375千瓦时.平均数= 千瓦时.中小学教育资源及组卷应用平台第十章 统计与成对数据的统计分析专题2:用样本估计总体1.会用统计图表对总体进行估计.2.理解集中趋势参数的统计含义;理解离散程度参数的统计含义;能用样本估计总体的取值规律,理解百分位数的统计含义.3.掌握分层随机抽样的样本均值与样本方差.1.总体百分位数的估计(1) 百分位数的定义一般地,一组数据的第p百分位数是这样一个值,它使得这组数据中至少有p%p%的数据小于或等于这个值,且至少有 的数据大于或等于这个值.(2)计算一组n个数据的第p百分位数的步骤第1步,按从 到 排列原始数据;第2步,计算i= ;第3步,若i不是整数,而大于i的比邻整数为j,则第p百分位数为第 项数据;若i是整数,则第p百分位数为第 项与第 项数据的平均数.(3)四分位数① 这三个分位数把一组由小到大排列后的数据分成四等份,因此称为四分位数.②第 百分位数又称第一四分位数或下四分位数;第 百分位数又称第三四分位数或上四分位数.提醒:一组数据的某些百分位数可能是同一个数.2.总体集中趋势的估计名称 概念平均数 如果有n个数x1,x2,…,xn,那么这组数据的平均数=(x1+x2+…+xn)中位数 将一组数据按从小到大或从大到小的顺序排列,处在最中间的一个数据(当数据个数是奇数时)或 (当数据个数是偶数时)叫做这组数据的中位数众数 一组数据中出现次数最 的数据(即频数最大值所对应的样本数据)叫做这组数据的众数3. 总体离散程度的估计(1)方差和标准差假设一组数据是x1,x2,…,xn,用表示这组数据的平均数,称(xi-)2为这组数据的方差,也可以写成x-2的形式;称为这组数据的标准差.(2)总体方差和标准差①一般式:如果总体中所有个体的变量值分别为Y1,Y2,…,YN,总体平均数为,则总体方差S2=(Yi-)2.②加权式:如果总体的N个变量值中,不同的值共有k(k≤N)个,不妨记为Y1,Y2,…,Yk,其中Yi出现的频数为fi(i=1,2,…,k),则总体方差为S2=fi(Yi-)2.总体标准差:S=.(3)样本方差和标准差如果一个样本中个体的变量值分别为y1,y2,…,yn,样本平均数为,则称s2=(yi-)2为样本方差,s=为样本标准差.(4)分层随机抽样的均值与方差分层随机抽样中,如果样本量是按比例分配,记总的样本平均数为,样本方差为s2.以分两层抽样的情况为例,假设第一层有m个数,分别为x1,x2,…,xm,平均数为,方差为s;第二层有n个数,分别为y1,y2,…,yn,平均数为,方差为s,则=xi,s=(xi-)2,=yi,s=(yi-)2.则①=+;②s2= .1.频率分布直方图中的常见结论(1)众数的估计值为最高矩形的中点对应的横坐标.(2)平均数的估计值等于频率分布直方图中每个小矩形的面积乘以小矩形底边中点的横坐标之和.(3)中位数的估计值的左边和右边的小矩形的面积和是相等的.2.平均数、方差的公式推广(1)若数据x1,x2,…,xn的平均数为,那么mx1+a,mx2+a,mx3+a,…,mxn+a的平均数是m+a.(2)数据x1,x2,…,xn的方差为s2.①数据x1+a,x2+a,…,xn+a的方差也为s2;②数据ax1,ax2,…,axn的方差为a2s2.考点一 总体百分位数的估计计算一组数据的第p百分位数1.(2022·重庆·高一学业考试)为做好“新冠肺炎”疫情防控工作,我市各学校坚持落实“双测温两报告”制度,以下是某宿舍6名同学某日上午的体温记录:36.3,36.1,36.4,36.7,36.5,36.6(单位:),则该组数据的第80百分位数为( )A.36.7 B.36.6 C.36.5 D.36.4【答案】B【分析】根据第百分位数的概念和计算方法可得答案.【详解】将6名同学某日上午的体温记录从小到大排列为:36.1,36.3, 36.4,36.5,36.6,36.7,因为,所以该组数据的第80百分位数为36.6.故选:B.2.(2022·全国·高一单元测试)数据11,12,13,15,16,18,19,20,25,30的40百分位数是_____________.【答案】或15.5【分析】由,再由百分位数的定义计算即可得答案.【详解】解:因为这组数据共有10个数,所以,所以这组数据的40百分位数是:.故答案为:或3.(2023·全国·高三专题练习)从某校高一年级新生中随机抽取一个容量为20的身高样本,数据如下(单位:,数据间无大小顺序要求):(1)若为这组数据的一个众数,求的取值集合;(2)若样本数据的第90百分位数是173,求的值;(3)若,试估计该校高一年级新生的平均身高.【答案】(1)(2)172(3)【分析】(1)首先排列19个数据,根据众数的定义,即可确定的取值集合;(2)首先确定第90百分位数是第18项和第19项数据的平均数,再讨论的取值,根据百分位数,列式求值;(3)根据平均数公式,列式求值.(1)其余十九个数据,中,数据出现的频数为3的数有165,170,出现频数为2的数据有164,168.因为为这组数据的一个众数,所以的取值集合为.(2)因为,所以90百分位数是第18项和第19项数据的平均数,若,则90百分位数为,矛盾.若,即,所以.若,则90百分位数为,矛盾.综上,的值为172.(3)依题意可得所以平均数为,估计该校高一年级学生的平均身高.根据频率分布直方图计算样本数据的百分位数某市为了了解人们对“中国梦”的伟大构想的认知程度,对不同年龄和不同职业的人举办了一次“一带一路”知识竞赛,满分100分(90分及以上为认知程度高),现从参赛者中抽取了x人,按年龄分成5组(第一组:[20,25),第二组:[25,30),第三组:[30,35),第四组:[35,40),第五组:[40,45]),得到如图所示的频率分布直方图,已知第一组有5人.(1)求x;(2)求抽取的x人的年龄的50%分位数(结果保留整数);(3)以下是参赛的10人的成绩:90,96,97,95,92,92,98,88,96,99,求这10人成绩的20%分位数和平均数,以这两个数据为依据,评价参赛人员对“一带一路”的认知程度.【解析】(1)第一组频率为0.01×5=0.05,所以x==100.(2)由题图可知年龄低于30岁的所占比例为40%,年龄低于35岁的所占比例为70%,所以抽取的x人的年龄的50%分位数在[30,35)内,由30+5×=≈32,所以抽取的x人的年龄的50%分位数为32.(3)把参赛的10人的成绩按从小到大的顺序排列:88,90,92,92,95,96,96,97,98,99,计算10×20%=2,所以这10人成绩的20%分位数为=91,这10人成绩的平均数为×(88+90+92+92+95+96+96+97+98+99)=94.3.评价:从第20百分位数和平均数来看,参赛人员的认知程度很高.计算一组n个数据的第p百分位数的一般步骤2.频率分布直方图中第p百分位数的计算(1)确定百分位数所在的区间[a,b).(2)确定小于a和小于b的数据所占的百分比分别为fa%,fb%,则第p百分位数为a+×(b-a).考点二 总体集中趋势的估计1.(2022·全国·高一单元测试)10名工人某天生产同一零件,生产的件数分别是15,17,14,10,15,17,17,16,14,12.设其平均数为a,中位数为b,众数为c,则有( )A. B. C. D.【答案】D【分析】将数据从小到大重新排列(也可以是从大到小),计算出的值即可比较大小.【详解】解:重新排列得:10,12,14,14,15,15,16,17,17,17.则有:.所以故选:D.2.(2022·湖南·衡阳市第六中学高一开学考试)某省旅游资源丰富,2014-2018年旅游收入不断增长,同比增速分别为14.3%,13.7%,15.5%,14.3%,17.2%关于这组数据,下列说法正确的是( )A.中位数是15.5% B.众数是14.3% C.平均数是14.5% D.方差是0【答案】B【分析】根据中位数、众数与平均数和方差的定义逐个求解辨析即可.【详解】对A,将这组数据按从小到大的顺序排列为13.7%,14.3%,14.3%,15.5%,17.2%,中位数是14.3%,故A错误;对B,14.3%出现了2次,其余数据均只出现一次,故14.3%为众数,故B正确;对C,平均数为,故C错误;对D,方差显然大于0,故D错误;故选:B3.(2022·全国·高一课时练习)有一组数据(不完全按大小顺序排列):,已知这组数据的平均数为,则这组数据的方差为( )A. B. C. D.【答案】B【分析】根据平均数已知,代入公式可计算出的值,由方差公式,计算方差得答案.【详解】由题意得,解得,所以.故答案为:.4.(2022·贵州遵义·高三开学考试(文))某同学利用暑假积极参加社会实践活动,帮助湄潭翠芽经销商进行促销,该同学在两周内的每日促销量如图所示,根据此折线图,下面结论中正确的是( )A.这14天的促销量的中位数大于200B.这14天促销量超过200的天数所占比例大于50%C.这14天内,促销量的极差小于200D.前7天促销量的方差小于后7天促销量的方差【答案】C【分析】结合图像逐项判断可得答案.【详解】促销量由图可得214,275,243,157,80,155,260,83,165,179,138,214,221,263,由小到大排列为80,83,138,155,157,165,179,214,214,221,243,260,263,275,这14天的促销量的中位数为,故A错误;这14天促销量超过200的天数有214,214,221,243,260,263,275,共7天,所占比例等于50% ,故B错误;这14天内,促销量的极差为,故C正确;前7天促销量的平均数为,后7天促销量的平均数为,前7天促销量在平均数附近摆动幅度比后7天促销量在平均数附近摆动幅度大,所以方差大于后7天促销量的方差,故D错误.故选:C.5.(2022·全国·高一课时练习)在某次高中学科知识竞赛中,从4000名考生的参赛成绩中随机选取400个成绩进行统计,可得到如图所示的频率直方图,其中60分以下视为不及格,则下列说法中正确的有( )A.成绩在分内的考生人数最多 B.4000名考生中约有1000名不及格C.估计考生竞赛成绩的平均分为70.5分 D.估计考生竞赛成绩的中位数为75分【答案】ABC【分析】结合频率分布直方图、频率、平均数、中位数等知识对选项进行分析,从而确定正确答案.【详解】由频率直方图可得,成绩在分内的频率最大,因此考生人数最多,故A正确:成绩在分内的频率为,因此不及格的人数为,故B正确;考生竞赛成绩的平均分约为,故C正确;因为成绩在分内的频率为0.45,在分内的频率为0.3,所以中位数为,故D错误.故选:ABC1.众数、中位数和平均数的意义众数描述变量的值出现次数最多的数;中位数等分样本数据所占的频率;平均数反映所有数据的平均水平.2.利用频率分布直方图估计样本的数字特征的方法(1)中位数:在频率分布直方图中,中位数左边和右边的直方图的面积相等,由此可以估计中位数的值.(2)平均数:平均数的估计值等于每个小矩形的面积乘小矩形底边中点的横坐标之和.(3)众数:最高的矩形的底边中点的横坐标.考点三 总体离散程度的估计 分层随机抽样的均值与方差(2021·越秀区期末)为了解学生的课外阅读情况,某校采用样本量比例分配的分层随机抽样对高中三个年级的学生进行平均每周课外阅读时间(单位:小时)的调查,所得样本数据如下:年级 抽样人数 样本平均数 样本方差高一 40 5 3.5高二 30 2 2高三 30 3 s已知高中三个年级学生的总样本平均数为4.1,总样本方差为3.14,则高二年级学生的样本平均数2=________,高三年级学生的样本方差s=________.【答案】4 1.5 【解析】由高中三个年级学生的总样本平均数为4.1,可得=4.1,解得2=4.因为总样本方差为3.14,所以×[3.5+(5-4.1)2]+×[2+(4-4.1)2]+×[s+(3-4.1)2]=3.14,解得s=1.5.(2021·烟台期末)为调查高一、高二学生心理健康达标情况,某学校采用分层随机抽样方法,从高一、高二学生中分别抽取了50人、40人参加心理健康测试(满分:10分).经初步统计,参加测试的高一学生成绩xi的平均分=7.4,方差s=2.6,高二学生的成绩yi的统计表如下:成绩y 4 5 6 7 8 9频数 3 7 11 9 6 4(1)计算参加测试的高二学生成绩的平均分和方差s;(2)估计该学校高一、高二全体学生的平均分和方差s.【解析】(1)由题意,==6.5.s=[3×(4-6.5)2+7×(5-6.5)2+11×(6-6.5)2+9×(7-6.5)2+6×(8-6.5)2+4×(9-6.5)2]=1.95.(2)由(1)可得,=(50+40)=(50×7.4+40×6.5)=7,s=×[2.6+ 7.4-7 2]+×[1.95+(6.5-7)2]=.均值与方差的应用(2021·全国乙卷)某厂研制了一种生产高精产品的设备,为检验新设备生产产品的某项指标有无提高,用一台旧设备和一台新设备各生产了10件产品,得到各件产品该项指标数据如下:旧设备 9.8 10.3 10.0 10.2 9.9 9.8 10.0 10.1 10.2 9.7新设备 10.1 10.4 10.1 10.0 10.1 10.3 10.6 10.5 10.4 10.5旧设备和新设备生产产品的该项指标的样本平均数分别记为和,样本方差分别记为s和s.(1)求,,s,s;(2)判断新设备生产产品的该项指标的均值较旧设备是否有显著提高(如果-≥2,则认为新设备生产产品的该项指标的均值较旧设备有显著提高,否则不认为有显著提高).【解析】 (1)由题中的数据可得==10.0,==10.3,s=[(9.8-10.0)2+(10.3-10.0)2+(10.0-10.0)2+(10.2-10.0)2+(9.9-10.0)2+(9.8-10.0)2+(10.0-10.0)2+(10.1-10.0)2+(10.2-10.0)2+(9.7-10.0)2]=0.036,s=[(10.1-10.3)2+(10.4-10.3)2+(10.1-10.3)2+(10.0-10.3)2+(10.1-10.3)2+(10.3-10.3)2+(10.6-10.3)2+(10.5-10.3)2+(10.4-10.3)2+(10.5-10.3)2]=0.04.(2)由(1)知-=10.3-10.0=0.3,2=2=2,则0.3=>2=.所以可判断新设备生产产品的该项指标的均值较旧设备有显著提高.1.(2022·全国·高考真题(文))分别统计了甲、乙两位同学16周的各周课外体育运动时长(单位:h),得如下茎叶图:则下列结论中错误的是( )A.甲同学周课外体育运动时长的样本中位数为7.4B.乙同学周课外体育运动时长的样本平均数大于8C.甲同学周课外体育运动时长大于8的概率的估计值大于0.4D.乙同学周课外体育运动时长大于8的概率的估计值大于0.62.(2022·全国·高考真题(理))某社区通过公益讲座以普及社区居民的垃圾分类知识.为了解讲座效果,随机抽取10位社区居民,让他们在讲座前和讲座后各回答一份垃圾分类知识问卷,这10位社区居民在讲座前和讲座后问卷答题的正确率如下图:则( )A.讲座前问卷答题的正确率的中位数小于B.讲座后问卷答题的正确率的平均数大于C.讲座前问卷答题的正确率的标准差小于讲座后正确率的标准差D.讲座后问卷答题的正确率的极差大于讲座前正确率的极差3.(2021·全国·高考真题)下列统计量中,能度量样本的离散程度的是( )A.样本的标准差 B.样本的中位数C.样本的极差 D.样本的平均数一、单选题1.在一次连续10次的射击中,甲、乙两名射击运动员所射中环数的平均数一样,但方差不同,则下列说法中正确的是( )A.因为他们所射中环数的平均数一样,所以他们水平相同B.虽然射中环数的平均数一样,但方差较大的,潜力较大,更有发展前途C.虽然射中环数的平均数一样,但方差较小的,发挥较稳定,更有发展前途D.虽然射中环数的平均数一样,但方差较小的,发挥较不稳定,忽高忽低2.设一组样本数据的方差为,则数据,,,的方差为( )A. B. C. D.3.在一次英语听力测试中,甲组5名学生的成绩(单位:分)如下:9,12,,24,27,乙组5名学生的成绩如下:9,15,,18,24,其中x,y为两个不清楚的数据.若甲组数据的中位数为15,乙组数据的平均数为16.8,则x,y的值分别为( )A.2,5 B.5,5 C.5,8 D.8,84.高二(1)班共有40人,甲同学在一次测验中的成绩是第9名,则甲同学成绩的百分位数约是( )A.25 B.20 C.40 D.805.为了解学生参加知识竞赛的情况,随机抽样了甲、乙两个小组各名同学的成绩,得到如图的两个频率分布直方图,记甲、乙的平均分分别为、,标准差分别为、,根据直方图估计甲、乙小组的平均分及标准差,下列描述正确的是( )A., B.,C., D.,6.如图是某市连续16日的空气质量指数趋势统计图,空气质量指数(AQI)小于100表示空气质量优良,空气质量指数大于200表示空气重度污染,则下列说法不正确的是( )A.这16日空气重度污染的频率为0.5B.该市出现过连续4天空气重度污染C.这16日的空气质量指数的中位数为203D.这16日的空气质量指数的平均值大于2007.在一个容量为5的样本5,7,8,■,■中(数据均为正整数),已算出其平均数为8,但墨水污损了后面两个数据,其中一个数据的十位数字为1,那么这组数据的方差可能的最大值是( )A. B.18 C.36 D.68.已知一个样本容量为7的样本的平均数为5,方差为2,现样本加入三个新数据4,5,6,若新样本的平均数为,方差为,则( )A., B.,C., D.,二、多选题9.下列数字特征一定会在原始数据中出现的是( )A.众数 B.中位数 C.平均数 D.最值10.在秋季运动会的跳远比赛中,张明是选手中跳得最远的,李华是选手中跳得最近的,总共有20名选手,则下列描述中正确的有( )A.张明跳远成绩的百分位数约为100 B.张明跳远成绩的百分位数约为20C.李华跳远成绩的百分位数约为0 D.李华跳远成绩的百分位数约为611.某高校土木工程系大四年级55名学生期末考试专业成绩的频率折线图如图所示,其中组距为10,且本次考试中最低分为50分,最高分为100分.根据图中所提供的信息,下列结论中错误的有( )A.75分的人数为20 B.100分的人数比50分的人数多C.成绩落在内的人数为35 D.成绩落在内的人数为3512.下图是甲、乙两个工厂的轮胎宽度的雷达图(虚线代表甲,实线代表乙).根据图中的信息,下列说法正确的是( )A.甲厂轮胎宽度的平均数大于乙厂轮胎宽度的平均数B.甲厂轮胎宽度的众数大于乙厂轮胎宽度的众数C.甲厂轮胎宽度的中位数与乙厂轮胎宽度的中位数相同D.甲厂轮胎宽度的极差小于乙厂轮胎宽度的极差三、填空题13.在分层抽样时,如果将总体分为k层,第j层抽取的样本量为,第j层的样本平均数为,样本方差为,,.记,则所有数据的样本方差为________.14.标准差的定义:方差的_________称为标准差.一般用表示,即样本数据的标准差为_________.标准差的性质:如果,为常数,那么的标准差为________.15.已知函数,若存在常数c,对任意的,存在唯一的,使得,则称函数在D上的算术平均数为c.已知,则在上的算术平均数为________.16.某中学高二各班三分钟跳绳比赛的成绩如下:257,311,267,301,279,296,246,287,257,323,266,293,304,269,332,270,则第75百分位数为______.四、解答题17.某大学艺术专业400名学生参加某次测评,根据男女学生人数比例、使用分层随机抽样的方法从中随机抽取了100名学生,记录他们的分数、将数据分成7组:,,…,,并整理得到如图的频率分布直方图.(1)估计总体400名学生中分数小于60的人数;(2)已知样本中分数小于40的学生有5人,试估计总体中分数在区间内的人数;(3)根据该大学规定、把25%的学生划定为不及格、确定本次测试的及格分数线、低于及格分数线的学生需要补考.18.某市为了鼓励市民节约用电,实行“阶梯式”电价,将该市每户居民的月用电量划分为三档,月用电量不超过200千瓦时的部分按元/千瓦时收费,超过200千瓦时但不超过400千瓦时的部分按元/千瓦时收费,超过400千瓦时的部分按元/千瓦时收费.(1)求某户居民的用电费用(单位:元)关于月用电量(单位:千瓦时)的函数解析式;(2)为了了解居民的用电情况,通过抽样获得了今年1月份100户居民每户的用电量,统计分析后得到如图所示的频率分布直方图.若这100户居民中今年1月份用电费用小于260元的占,求的值;(3)根据(2)中求得的数据计算用电量的分位数和平均数. 展开更多...... 收起↑ 资源列表 【备战2023】高考一轮学案 第十章专题2:用样本估计总体(学生版).docx 【备战2023】高考一轮学案 第十章专题2:用样本估计总体(教师版).docx