资源简介 第二节 用样本估计总体一、基础知识1.频率分布直方图频率 频率(1)纵轴表示 ,即小长方形的高= ;组距 组距频率(2)小长方形的面积=组距× =频率;组距(3)各个小方形的面积总和等于 1 .2.频率分布表的画法极差第一步:求极差,决定组数和组距,组距= ;组数第二步:分组,通常对组内数值所在区间取左闭右开区间,最后一组取闭区间;第三步:登记频数,计算频率,列出频率分布表.3.茎叶图茎叶图是统计中用来表示数据的一种图,茎是指中间的一列数,叶就是从茎的旁边生长出来的数.4.中位数、众数、平均数的定义(1)中位数将一组数据按大小依次排列,处于最中间位置的一个数据(或最中间两个数据的平均数)叫做这组数据的中位数.(2)众数一组数据中出现次数最多的数据叫做这组数据的众数.(3)平均数一组数据的算术平均数即为这组数据的平均数,n 个数据 x1,x2,…,xn的平均数 x =1(x1+x +…+xn 2 n).5.样本的数字特征如果有 n 个数据 x1,x2,…,xn,那么这 n 个数的1(1)平均数 x = (x1+x2+…+xn n).1(2)标准差 s= [(x1- x )2+(x 2 2n 2- x ) +…+(xn- x ) ].第 793页/共1004页1(3)方差 s2= [(x1- x )2+(x2- x )2+…+(xn- x )2]. n二、常用结论1.频率分布直方图中的常见结论(1)众数的估计值为最高矩形的中点对应的横坐标.(2)平均数的估计值等于频率分布直方图中每个小矩形的面积乘以小矩形底边中点的横坐标之和.(3)中位数的估计值的左边和右边的小矩形的面积和是相等的.2.平均数、方差的公式推广(1)若数据 x1,x2,…,xn的平均数为 x ,则 mx1+a,mx2+a,mx3+a,…,mxn+a 的平均数是 m x +a.(2)若数据 x1,x2,…,xn 的方差为 s2,则数据 ax1+b,ax2+b,…,ax 2 2n+b 的方差为 a s .考点一 茎叶图[典例] (2017·山东高考)如图所示的茎叶图记录了甲、乙两组各 5名工人某日的产量数据(单位:件).若这两组数据的中位数相等,且平均值也相等,则 x 和 y 的值分别为( )A.3,5 B.5,5C.3,7 D.5,7[解析] 由两组数据的中位数相等可得 65=60+y,解得 y=5,又它们的平均值相等,1 1所以 ×[56+62+65+74+(70+x)]= ×(59+61+67+65+78),解得 x=3.5 5[答案] A[解题技法] 茎叶图的应用(1)茎叶图通常用来记录两位数的数据,可以用来分析单组数据,也可以用来比较两组数据.通过茎叶图可以确定数据的中位数,数据大致集中在哪个茎,数据是否关于该茎对称,数据分布是否均匀等.(2)给定两组数据的茎叶图,比较数字特征时,“重心”下移者平均数较大,数据集中者方差较小.[题组训练]第 794页/共1004页1.在如图所示一组数据的茎叶图中,有一个数字被污染后模糊不清,但曾计算得该组数据的极差与中位数之和为 61,则被污染的数字为( )A.1 B.2C.3 D.4解析:选 B 由图可知该组数据的极差为 48-20=28,则该组数据的中位数为 61-28=33,易得被污染的数字为 2.2.甲、乙两名篮球运动员 5 场比赛得分的原始记录如茎叶图所示,若甲、乙两人的平均得分分别为 x 甲, x 乙,则下列结论正确的是( )A. x 甲< x 乙;乙比甲得分稳定B. x 甲> x 乙;甲比乙得分稳定C. x 甲> x 乙;乙比甲得分稳定D. x 甲< x 乙;甲比乙得分稳定2+7+8+16+22 8+12+18+21+25解析:选 A 因为 x 甲= =11, x5 乙= =16.8,所5以 x 甲< x 乙且乙比甲成绩稳定.考点二 频率分布直方图[典例] 某城市 100 户居民的月平均用电量(单位:千瓦时),以[160,180),[180,200),[200,220),[220,240),[240,260),[260,280),[280,300]分组的频率分布直方图如图.(1)求直方图中 x 的值;(2)求月平均用电量的众数和中位数.[解] (1)由(0.002+0.009 5+0.011+0.012 5+x+0.005+0.002 5)×20=1,解得 x=0.0075.即直方图中 x 的值为 0.007 5.220+240(2)月平均用电量的众数是 =230.2第 795页/共1004页∵(0.002+0.009 5+0.011)×20=0.45<0.5,(0.002+0.009 5+0.011+0.012 5)×20=0.7>0.5,∴月平均用电量的中位数在[220,240)内.设中位数为 a,则 0.45+0.012 5×(a-220)=0.5,解得 a=224,即中位数为 224.[变透练清]1.某校随机抽取 20 个班,调查各班有出国意向的人数,所得数据的茎叶图如图所示.以5 为组距将数据分组为[0,5),[5,10),…,[30,35),[35,40],所作的频率分布直方图是( )解析:选 A 以 5 为组距将数据分组为[0,5),[5,10),…,[30,35),[35,40],各组的频数依次为 1,1,4,2,4,3,3,2,可知画出的频率分布直方图为选项 A 中的图.2.(变结论)在本例条件下,在月平均电量为[220,240),[240,260),[260,280),[280,300]的四组用户中,用分层抽样的方法抽取 11 户居民,则月平均用电量在[220,240)的用户中应抽取________户.解析:月平均用电量在[220,240)的用户有 0.012 5×20×100=25(户).同理可得月平均用电量在[240,260)的用户有 15 户,月平均用电量在[260,280]的用户有 10 户,月平均用电量在11 1[280,300]的用户有 5 户,故抽取比例为 = .25+15+10+5 51所以月平均用电量在[220,240)的用户中应抽取 25× =5(户).5答案:53.我国是世界上严重缺水的国家,某市为了制定合理的节水方案,对居民用水情况进行了调查,通过抽样,获得了某年 100 位居民每人的月均用水量(单位:吨),将数据按照[0,0.5),[0.5,1),…,[4,4.5]分成 9 组,制成了如图所示的频率分布直方图.第 796页/共1004页(1)求直方图中 a 的值;(2)设该市有 30 万居民,估计全市居民中月均用水量不低于 3 吨的人数,说明理由.解:(1)由频率分布直方图可知,月均用水量在[0,0.5)的频率为 0.08×0.5=0.04.同理,在[0.5,1),[1.5,2),[2,2.5),[3,3.5),[3.5,4),[4,4.5]6 组的频率分别为 0.08,0.21,0.25,0.06,0.04,0.02.由 1-(0.04+0.08+0.21+0.25+0.06+0.04+0.02)=0.5×a+0.5×a,解得 a=0.30.(2)估计全市居民中月均用水量不低于 3 吨的人数为 3.6 万.理由如下:由(1)知,100 位居民中月均用水量不低于 3 吨的频率为 0.06+0.04+0.02=0.12.由以上样本的频率分布,可以估计 30 万居民中月均用水量不低于 3 吨的人数为 300 000×0.12=36 000=3.6(万).考点三 样本的数字特征考法(一) 样本的数字特征与频率分布直方图交汇[典例] (2019·辽宁师范大学附属中学模拟)某校初三年级有 400 名学生,随机抽查了 40名学生测试 1 分钟仰卧起坐的成绩(单位:次),将数据整理后绘制成如图所示的频率分布直方图.用样本估计总体,下列结论正确的是( )A.该校初三学生 1 分钟仰卧起坐的次数的中位数为 25B.该校初三学生 1 分钟仰卧起坐的次数的众数为 24C.该校初三学生 1 分钟仰卧起坐的次数超过 30 的人数约有 80D.该校初三学生 1 分钟仰卧起坐的次数少于 20 的人数约为 8[解析] 第一组数据的频率为 0.02×5=0.1,第二组数据的频率为 0.06×5=0.3,第三组数据的频率为 0.08×5=0.4,∴中位数在第三组内,设中位数为 25+x,则 x×0.08=0.5第 797页/共1004页-0.1-0.3=0.1,∴x=1.25,∴中位数为 26.25,故 A 错误;第三组数据所在的矩形最高,第三组数据的中间值为 27.5,∴众数为 27.5,故 B 错误;1 分钟仰卧起坐的次数超过 30 的频率为 0.2,∴超过 30 次的人数为 400×0.2=80,故 C 正确;1 分钟仰卧起坐的次数少于20 的频率为 0.1,∴1 分钟仰卧起坐的次数少于 20 的人数为 400×0.1=40,故 D 错误.故选 C.[答案] C[解题技法]频率分布直方图与众数、中位数、平均数的关系(1)最高的小长方形底边中点的横坐标为众数;(2)中位数左边和右边的小长方形的面积和是相等的;(3)平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面积乘以小长方形底边中点的横坐标之和.考法(二) 样本的数字特征与茎叶图交汇[典例] 将某选手的 9 个得分去掉 1 个最高分,去掉 1 个最低分,7 个剩余分数的平均分为 91.现场作的 9 个分数的茎叶图后来有 1 个数据模糊,无法辨认,在图中以 x 表示,则7 个剩余分数的方差为________.[解析] 由茎叶图可知去掉的两个数是 87,99,所以 87+90×2+91×2+94+90+x=1 3691×7,解得 x=4.故 s2= [(87-91)2+(90-91)2×2+(91-91)2×2+(94-91)2×2]= .7 736[答案]7[解题技法]样本的数字特征与茎叶图综合问题的注意点(1)在使用茎叶图时,一定要观察所有的样本数据,弄清楚这个图中数字的特点,不要漏掉了数据,也不要混淆茎叶图中茎与叶的含义.(2)茎叶图既可以表示两组数据,也可以表示一组数据,用它表示的数据是完整的数据,因此可以从茎叶图中看出数据的众数(数据中出现次数最多的数)、中位数(中间位置的一个数,或中间两个数的平均数)等.考法(三) 样本的数字特征与优化决策问题交汇[典例] (2018·周口调研)甲、乙两人在相同条件下各射击 10 次,每次中靶环数情况如第 798页/共1004页图所示.(1)请填写下表(写出计算过程):平均数 方差 命中 9 环及 9 环以上的次数甲乙(2)从下列三个不同的角度对这次测试结果进行分析:①从平均数和方差相结合看(分析谁的成绩更稳定);②从平均数和命中 9 环及 9 环以上的次数相结合看(分析谁的成绩好些);③从折线图上两人射击命中环数的走势看(分析谁更有潜力).[解] 由题图,知甲射击 10 次中靶环数分别为 9,5,7,8,7,6,8,6,7,7.将它们由小到大排列为 5,6,6,7,7,7,7,8,8,9.乙射击 10 次中靶环数分别为 2,4,6,8,7,7,8,9,9,10.将它们由小到大排列为 2,4,6,7,7,8,8,9,9,10.1(1) x 甲= ×(5+6×2+7×4+8×2+9)=7(环), 101x 乙= ×(2+4+6+7×2+8×2+9×2+10)=7(环), 102 1 1s 2 2 2 2 2甲= ×[(5-7) +(6-7) ×2+(7-7) ×4+(8-7) ×2+(9-7) ]= ×(4+2+0+2+4)=10 101.2,2 1s乙= ×[(2-7)2+(4-7)2+(6-7)2+(7-7)2×2+(8-7)2×2+(9-7)2×2+(10-7)2] 101= ×(25+9+1+0+2+8+9)=5.4.10填表如下:平均数 方差 命中 9 环及 9 环以上的次数甲 7 1.2 1乙 7 5.4 3第 799页/共1004页(2)①∵平均数相同,s2 <s2甲 乙,∴甲成绩比乙稳定.②∵平均数相同,命中 9 环及 9 环以上的次数甲比乙少,∴乙成绩比甲好些.③∵甲成绩在平均数上下波动,而乙处于上升势头,从第三次以后就没有比甲少的情况发生,∴乙更有潜力.[解题技法]利用样本的数字特征解决优化决策问题的依据(1)平均数反映了数据取值的平均水平;标准差、方差描述了一组数据围绕平均数波动的大小.标准差、方差越大,数据的离散程度越大,越不稳定;标准差、方差越小,数据的离散程度越小,越稳定.(2)用样本估计总体就是利用样本的数字特征来描述总体的数字特征.[题组训练]1.对某商店一个月内每天的顾客人数进行统计,得到样本的茎叶图(如图所示),则该样本中的中位数、众数、极差分别是( )A.46,45,56 B.46,45,53C.47,45,56 D.45,47,5345+47解析:选 A 样本共 30 个,中位数为 =46;显然样本数据出现次数最多的为 45,2故众数为 45;极差为 68-12=56,故选 A.2.甲、乙、丙、丁四人参加某运动会射击项目选拔赛,四人的平均成绩和方差如下表所示:甲 乙 丙 丁平均环数 x 8.3 8.8 8.8 8.7方差 s2 3.5 3.6 2.2 5.4第 800页/共1004页从这四个人中选择一人参加该运动会射击项目比赛,最佳人选是( )A.甲 B.乙C.丙 D.丁解析:选 C 由表格中数据可知,乙、丙平均环数最高,但丙方差最小,说明成绩好,且技术稳定,选 C.3.某仪器厂从新生产的一批零件中随机抽取 40 个进行检测,如图是根据抽样检测得到的零件的质量(单位:克)绘制的频率分布直方图,样本数据按照[80,82),[82,84),[84,86),[86,88),[88,90),[90,92),[92,94),[94,96]分成 8 组,将其按从左到右的顺序分别记为第一组,第二组,……,第八组.则样本数据的中位数在第________组.解析:由题图可得,前四组的频率为(0.037 5+0.062 5+0.075 0+0.100 0)×2=0.55,则其频数为 40×0.55=22,且第四组的频数为 40×0.100 0×2=8,故中位数在第四组.答案:四[课时跟踪检测]A 级1.一个频数分布表(样本容量为 30)不小心被损坏了一部分,只记得样本中数据在[20,60)上的频率为 0.8,则估计样本在[40,60)内的数据个数为( )A.14 B.15C.16 D.17解析:选 B 由题意,样本中数据在[20,60)上的频数为 30×0.8=24,所以估计样本在[40,60)内的数据个数为 24-4-5=15.2.(2019·长春质检)如图所示是某学校某年级的三个班在一学期内的六次数学测试的平均成绩 y 关于测试序号 x 的函数图象,为了容易看出一个班级的成绩变化,将离散的点用虚线连接,根据图象,给出下列结论:①一班成绩始终高于年级平均水平,整体成绩比较好;第 801页/共1004页②二班成绩不够稳定,波动程度较大;③三班成绩虽然多数时间低于年级平均水平,但在稳步提升.其中正确结论的个数为( )A.0 B.1C.2 D.3解析:选 D ①由图可知一班每次考试的平均成绩都在年级平均成绩之上,故①正确. ②由图可知二班平均成绩的图象高低变化明显,可知成绩不稳定,波动程度较大,故②正确.③由图可知三班平均成绩的图象呈上升趋势,并且图象的大部分都在年级平均成绩图象的下方,故③正确.故选 D.3.(2018·贵阳检测)在某中学举行的环保知识竞赛中,将三个年级参赛学生的成绩进行整理后分为 5 组,绘制如图所示的频率分布直方图,图中从左到右依次为第一、第二、第三、第四、第五小组,已知第二小组的频数是 40,则成绩在 80~100 分的学生人数是( )A.15 B.18C.20 D.25解析:选 A 根据频率分布直方图,得第二小组的频率是 0.04×10=0.4,∵频数是 40,40∴样本容量是 =100,又成绩在 80~100 分的频率是(0.01+0.005)×10=0.15,∴成绩在0.480~100 分的学生人数是 100×0.15=15.故选 A.4.2017 年 4 月,泉州有四处湿地被列入福建省首批重要湿地名录,某同学决定从其中 A,B 两地选择一处进行实地考察.因此,他通过网站了解上周去过这两个地方的人对它们的综合评分,并将评分数据记录为右图的茎叶图,记 A,B 两地综合评分数据的均值分别为 x A, x B,方差分别为 s2A,s2B.若以备受好评为依据,则下述判断较合理的是( )第 802页/共1004页A.因为 x > x ,s2>s2A B A B,所以应该去 A 地B.因为 x A> x 2 2B,sA<sB,所以应该去 A 地C.因为 x 2A< x B,sA>s2B,所以应该去 B 地D.因为 x < x ,s2A B A<s2B,所以应该去 B 地1 1解析:选 B 因为 x A= ×(72+86+87+89+92+94)≈86.67, x B= ×(74+73+886 6+86+95+94)=85,1s2A≈ [(72-86.67)2+(86-86.67)2+(87-86.67)2+(89-86.67)2+(92-86.67)2+(94-686.67)2]≈50.56,2 1s 2 2 2 2 2B= [(74-85) +(73-85) +(88-85) +(86-85) +(95-85) +(94-85)2]=76, 6所以 x A> x ,s2 2B A<sB(A 数据集中,B 数据分散),所以 A 地好评分高,且评价稳定.故选 B.5.(2018·青岛三中期中)已知数据 x 21,x2,…,xn的平均数 x =5,方差 s =4,则数据3x1+7,3x2+7,…,3xn+7 的平均数和标准差分别为( )A.15,36 B.22,6C.15,6 D.22,36解析:选 B ∵x1,x2,x3,…,xn 的平均数为 5,x1+x2+…+xn 3x1+3x2+…+3xn 3(x1+x2+…+xn)∴ =5,∴ +7= +7=3×5+7=22.n n n∵x1,x2,x3,…,xn 的方差为 4,∴3x1+7,3x2+7,3x3+7,…,3xn+7 的方差是 32×4=36,故数据 3x1+7,3x2+7,…,3xn+7 的平均数和标准差分别为 22,6,故选 B.6.(2018·江苏高考)已知5位裁判给某运动员打出的分数的茎叶图如图所示,那么这 5 位裁判打出的分数的平均数为________.解析:这 5 位裁判打出的分数分别是 89,89,90,91,91,因此这 5 位裁判打出的分数的平89+89+90+91+91均数为 =90.5答案:907.为了了解某校高三美术生的身体状况,抽查了部分美术生的体重,将所得数据整理后,作出了如图所示的频率分布直方图.已知图中从左到右的前 3 个小组的频率之比为 1∶3∶5,第 2 个小组的频数为 15,则被抽查的美术生的人数是________.第 803页/共1004页解析:设被抽查的美术生的人数为 n,因为后 2个小组的频率之和为(0.037 5+ 0.0125)×5=0.25,所以前 3 个小组的频率之和为 0.75.又前 3 个小组的频率之比为 1∶3∶5,第 25+15+25个小组的频数为 15,所以前 3 个小组的频数分别为 5,15,25,所以 n= =60.0.75答案:608.某人 5 次上班途中所花的时间(单位:分钟)分别为 x,y,10,11,9.已知这组数据的平均数为 10,方差为 2,则|x-y|的值为________.解析:由题意知这组数据的平均数为 10,方差为 2,可得 x+y=20,(x-10)2+(y-10)2=8,设 x=10+t,y=10-t,由(x-10)2+(y-10)2=8 得 t2=4,所以|x-y|=2|t|=4.答案:49.某班 100 名学生期中考试语文成绩的频率分布直方图如图所示,其中成绩分组区间是[50,60),[60,70),[70,80),[80,90),[90,100].(1)求图中 a 的值;(2)根据频率分布直方图,估计这 100 名学生语文成绩的平均分;(3)若这 100 名学生语文成绩某些分数段的人数(x)与数学成绩相应分数段的人数(y)之比如表所示,求数学成绩在[50,90)之外的人数.分数段 [50,60) [60,70) [70,80) [80,90)x∶y 1∶1 2∶1 3∶4 4∶5解:(1)由频率分布直方图知(0.04+0.03+0.02+2a)×10=1,因此 a=0.005.(2)因为55×0.05+65×0.4+75×0.3+85×0.2+95×0.05=73.所以这100名学生语文成绩的平均分为 73 分.(3)分别求出语文成绩在分数段[50,60),[60,70),[70,80),[80,90)的人数依次为 0.05×100=5,0.4×100=40,0.3×100=30,0.2×100=20.第 804页/共1004页所以数学成绩分数段在[50,60),[60,70),[70,80),[80,90)的人数依次为 5,20,40,25.所以数学成绩在[50,90)之外的人数有 100-(5+20+40+25)=10.B 级1.某车间将 10 名技工平均分成甲、乙两组加工某种零件,在单位时间内每个技工加工的合格零件数的统计数据的茎叶图如图所示,已知两组技工在单位时间内加工的合格零件的平均数都为 10.(1)求出 m,n 的值;(2)求出甲、乙两组技工在单位时间内加工的合格零件的方差 s2 2甲和 s乙,并由此分析两组技工的加工水平.1 1解:(1)根据题意可知: x 甲= (7+8+10+12+10+m)=10, x 乙= (9+n+10+11+5 512)=10,所以 m=3,n=8.(2)s212 2 2 2 2甲= [(7-10) +(8-10) +(10-10) +(12-10) +(13-10) ]=5.2, 5s21= [(8-10)2乙 +(9-10)2+(10-10)2+(11-10)2+(12-10)2]=2, 5因为 x 甲= x 乙,s2 >s2甲 乙,所以甲、乙两组的整体水平相当,乙组更稳定一些.2.某大学艺术专业的 400 名学生参加某次测评,根据男女学生人数比例,使用分层抽样的方法从中随机抽取了 100 名学生,记录他们的分数,将数据按[20,30),[30,40),…,[80,90]分成 7 组,并整理得到如图所示的频率分布直方图.(1)估计总体的众数;(2)已知样本中分数小于 40 的学生有 5 人,试估计总体中分数在区间[40,50)内的人数;(3)已知样本中有一半男生的分数不小于 70,且样本中分数不小于 70 的男女学生人数相等.试估计总体中男生和女生人数的比例.70+80解:(1)由频率分布直方图可估计总体的众数为 =75.2(2)由频率分布直方图可知,样本中分数在区间[50,90]内的人数为(0.01+0.02+0.04+第 805页/共1004页0.02)×10×100=90.因为样本中分数小于 40 的学生有 5 人,所以样本中分数在区间[40,50)内的人数为 100-90-5=5.5 x设总体中分数在区间[40,50)内的人数为 x,则 = ,解得 x=20,100 400故估计总体中分数在区间[40,50)内的人数为 20.(3)由频率分布直方图可知,样本中分数不小于 70 的人数为(0.04+0.02)×10×100=60.因为样本中分数不小于 70 的男女学生人数相等,所以样本中分数不小于 70 的男生人数为 30.因为样本中有一半男生的分数不小于 70,所以样本中男生的人数为 60,女生的人数为 40.由样本估计总体,得总体中男生和女生人数的比例约为 3∶2.第 806页/共1004页 展开更多...... 收起↑ 资源预览