资源简介 考点四十七 用样本估计总体及样本的数字特征知识梳理1.统计图表统计图表是表达和分析数据的重要工具,常用的统计图表有条形统计图、扇形统计图、折线统计图、茎叶图等.2.频率分布直方表(1)含义:把反映总体频率分布的表格称为频率分布表.(2)频率分布表的画法步骤:第一步:求极差,决定组数和组距,组距=;第二步:分组,通常对组内数值所在区间取左闭右开区间,最后一组取闭区间;第三步:登记频数,计算频率,列出频率分布表.3. 频率分布直方图利用直方图反映样本的频率分布规律,这样的直方图称为频率分布直方图.(1)作频率分布直方图的方法①先制作频率分布表,然后作直角坐标系.②把横轴分成若干段,每一线段对应一个组的组距,然后以此线段为底作一矩形,它的高等于该组的,这样得出一系列的矩形.③每个矩形的面积恰好是该组的频率,这些矩形就构成了频率分布直方图.(2)频率分布直方图的特征①从频率分布直方图可以清楚地看出数据分布的总体趋势;②从频率分布直方图中得不出原始的数据内容,把数据表示为频率分布直方图后,原有的数据信息就丢失了;③直方图中各小长方形的面积之和为1.④直方图中纵轴表示,故每组样本的频率为组距×,即矩形的面积.⑤直方图中每组样本的频数为频率×总体数.4.频率分布折线图将频率分布直方图中各相邻的矩形的上底边的中点顺次连接起来,就得到频率分布折线图.5.总体密度曲线如果将样本容量取得足够大,分组的组距足够小,则相应的频率折线图将趋于一条光滑曲线,即总体密度曲线.6.茎叶图茎相同者共用一个茎(如两位数中的十位数),茎按从小到大的顺序从上向下列出,共茎的叶(如两位数中的个位数),一般按从小到大(或从大到小)的顺序同行列出.这样将样本数据有条理地列出来的图形叫做茎叶图.其优点是当样本数据较少时,茎叶图可以保留样本数据的所有信息,直观反映出数据的水平状况、稳定程度,且便于记录和表示;缺点是对差异不大的两组数据不易分析,且样本数据很多时效果不好.茎叶图的画法步骤第一步:将每个数据分为茎(高位)和叶(低位)两部分;第二步:将最小茎与最大茎之间的数按大小次序排成一列;第三步:将各个数据的叶依次写在其茎的两侧.7.样本的数字特征:众数、中位数、平均数、方差、标准差(1)众数:一组数据中出现次数最多的那个数据,叫做这组数据的众数.(2)中位数:把n个数据按大小顺序排列,处于最中间位置的一个数据叫做这组数据的中位数.在频率分布直方图中,中位数左边和右边的直方图的面积应该相等.(3)平均数:样本数据的算术平均数,即=(x1+x2+…+xn).(4)标准差与方差:设一组数据x1,x2,x3,…,xn的平均数为x,则这组数据的标准差和方差分别是s= ,s2=[(x1-)2+(x2-)2+…+(xn-)2]标准差是反映总体波动大小的特征数,样本方差是标准差的平方.通常用样本方差估计总体方差,当样本容量接近总体容量时,样本方差很接近总体方差.(5)标准差和方差的一些结论若取值x1,x2,…,xn的频率分别为p1,p2,…,pn,则其平均值为x1p1+x2p2+…+xnpn;若x1,x2,…,xn的平均数为,方差为s2,则ax1+b,ax2+b,…,axn+b的平均数为a+b,方差为a2s2.典例剖析题型一 频率分布直方图例1 为了研究某药品的疗效,选取若干名志愿者进行临床试验,所有志愿者的舒张压数据(单位:kPa)的分组区间为[12,13),[13,14),[14,15),[15,16),[16,17],将其按从左到右的顺序分别编号为第一组,第二组,…,第五组,如图是根据试验数据制成的频率分布直方图.已知第一组与第二组共有20人,第三组中没有疗效的有6人,则第三组中有疗效的人数为________.答案 12解析 志愿者的总人数为=50,所以第三组人数为50×0.36=18,有疗效的人数为18-6=12.变式训练 某中学为了了解学生数学课程的学习情况,在3 000名学生中随机抽取200名,并统计这200名学生的某次数学考试成绩,得到了样本的频率分布直方图(如图).根据频率分布直方图推测,这3 000名学生在该次数学考试中成绩小于60分的学生数是________.答案 600解析 由直方图易得数学考试中成绩小于60分的频率为(0.002+0.006+0.012)×10=0.2,所以所求分数小于60分的学生数为3 000×0.2=600.解题要点 解决频率分布直方图时要明确频率分布直方图的意义,即图中的每一个小矩形的面积是数据落在该区间上的频率,所有小矩形的面积和为1. 常用的结论有:③直方图中各小长方形的面积之和为1.④直方图中纵轴表示,故每组样本的频率为组距×,即矩形的面积.⑤直方图中每组样本的频数为频率×总体数.题型二 茎叶图例2 在如图所示的茎叶图中,甲、乙两组数据的中位数分别是________,________.答案 45 46解析 甲组数据为:28,31,39,42,45,55,58,57,66,中位数为45.乙组数据为:29,34,35,42,46,48,53,55,67,中位数为46.变式训练 若某校高一年级8个班参加合唱比赛的得分茎叶图如图所示,则这组数据的中位数和平均数分别是________.答案 91.5和91.5解析 这组数据由小到大排列为87,89,90,91,92,93,94,96,∴中位数为×(91+92)=91.5.平均数为×(87+89+90+91+92+93+94+96)=91.5.解题要点 求解茎叶图的习题,要读懂图,弄清楚“茎”和“叶”分别是什么,从而还原出具体的数据.题型三 用样本的数字特征估计总体的数字特征例3 (2014·高考陕西卷)某公司10位员工的月工资(单位:元)为x1,x2,…,x10,其均值和方差分别为和s2,若从下月起每位员工的月工资增加100元,则这10位员工下月工资的均值和方差分别为________.答案 +100,s2解析 =,yi=xi+100,所以y1,y2,…,y10的均值为+100,方差不变.变式训练 甲、乙两台机床同时加工直径为100 mm的零件,为了检验产品质量,从产品中各随机抽出6件进行测量,测得数据如下:(单位:mm)甲:99,100,98,100,100,103;乙:99,100,102,99,100,100.(1) 分别计算上述两组数据的平均数和方差;(2) 根据(1)的计算结果,说明哪一台机床加工的这种零件更符合要求.解析 (1) 甲=100+(-1+0-2+0+0+3)=100;乙=100+(-1+0+2-1+0+0)=100.s=[(-1)2+02+(-2)2+02+02+32]=,s=[(-1)2+02+22+(-1)2+02+02]=1.(2) 由(1)知,甲=乙,s>s,∴ 乙机床加工的这种零件更符合要求.解题要点 1.熟记一些常用结论:若取值x1,x2,…,xn的频率分别为p1,p2,…,pn,则其平均值为x1p1+x2p2+…+xnpn;若x1,x2,…,xn的平均数为,方差为s2,则ax1+b,ax2+b,…,axn+b的平均数为a+b,方差为a2s2.2. 平均数与方差都是重要的数字特征,是对总体的一种简明的描述,它们所反映的情况有着重要的实际意义,平均数、中位数、众数描述其集中趋势,方差和标准差描述其波动大小.当堂练习1.(2015安徽理)若样本数据x1,x2,…,x10的标准差为8,则数据2x1-1,2x2-1,…,2x10-1的标准差为________.答案 16解析 已知样本数据x1,x2,…,x10的标准差为s=8,则s2=64,数据2x1-1,2x2-1,…,2x10-1的方差为22s2=22×64,所以其标准差为=2×8=16.2.(2015江苏)已知一组数据4,6,5,8,7,6,那么这组数据的平均数为________.答案 6解析 这组数据的平均数为(4+6+5+8+7+6)=6.3. (2015重庆文)重庆市2013年各月的平均气温(℃)数据的茎叶图如下:则这组数据的中位数是________.答案 20解析 由茎叶图,把数据由小到大排列,处于中间的数为20,20,所以这组数据的中位数为20.4.(2015山东文)为比较甲、乙两地某月14时的气温情况,随机选取该月中的5天,将这5天中14时的气温数据(单位:℃)制成如图所示的茎叶图.考虑以下结论:甲 乙9 8 6 2 8 91 1 3 0 1 2①甲地该月14时的平均气温低于乙地该月14时的平均气温;②甲地该月14时的平均气温高于乙地该月14时的平均气温;③甲地该月14时的气温的标准差小于乙地该月14时的气温的标准差;④甲地该月14时的气温的标准差大于乙地该月14时的气温的标准差.其中根据茎叶图能得到的统计结论的编号为________.答案 ①④解析 甲地5天的气温为:26,28,29,31,31,其平均数为甲==29;方差为s=[(26-29)2+(28-29)2+(29-29)2+(31-29)2+(31-29)2]=3.6;标准差为s甲=.乙地5天的气温为:28,29,30,31,32,其平均数为乙==30;方差为s=[(28-30)2+(29-30)2+(30-30)2+(31-30)2+(32-30)2]=2;标准差为s乙=.∴甲<乙,s甲>s乙.5.如图所示的茎叶图记录了甲、乙两组各五名学生在一次英语听力测试中的成绩(单位:分),已知甲组数据的中位数为15,乙组数据的平均数为16.8,则x,y的值分别为________.答案 5,8解析 因为甲组数据的中位数为15,由茎叶图可得x=5,因乙组数据的平均数为16.8,则=16.8,解得y=8.课后作业填空题1.样本中有五个个体,其值分别为a,0,1,2,3,若该样本的平均值为1,则样本方差为________.答案 2解析 由题意知该组数据的平均值为(a+0+1+2+3)=1,解得a=-1,所以样本方差为s2=[(-1-1)2+(0-1)2+(1-1)2+(2-1)2+(3-1)2]=2.2.学校为了调查学生在课外读物方面的支出情况,抽出了一个容量为n且支出在[20,60)元的样本,其频率分布直方图如图所示,其中支出在[50,60)元的同学有30人,则n的值为______.答案 100解析 支出在[50,60)元的频率为1-0.36-0.24-0.1=0.3,因此=0.3,故n=100.3.如图是某公司10个销售店某月销售某产品数量(单位:台)的茎叶图,则数据落在区间[22,30)内的频率为________.答案 0.4解析 落在[22,30)的频数为4,则所求频率为P==0.4.4.已知一组数据按从小到大的顺序排列,得到-1,0,4,x,7,14,中位数为5,则这组数据的平均数和方差分别为________.答案 5,245.对某商店一个月内每天的顾客人数进行了统计,得到样本的茎叶图(如图所示),则该样本的中位数、众数、极差分别是________. 1 2 5 2 0 2 3 3 3 1 2 4 4 8 9 4 5 5 5 7 7 8 8 9 5 0 0 1 1 4 7 9 6 1 7 8答案 46,45,56解析 样本中数据共30个,中位数为=46;显然样本数据中出现次数最多的为45,故众数为45;极差为68-12=56.6.一组数据的平均数是2.8,方差是3.6,若将这组数据中的每一个数据都加上60,得到一组新数据,则所得新数据的平均数和方差分别是________.答案 62.8,3.6解析 平均数增加60,即为62.8.方差=[(ai+60)-(+60)]2= (ai-)2=3.6.7.某校甲、乙两个班级各有编号为1,2,3,4,5的五名学生进行投篮练习,每人投10次,投中的次数如表:学生 1号 2号 3号 4号 5号甲班 6 7 7 8 7乙班 6 7 6 7 9则以上两组数据的方差中较小的一个为s2,则s2=________.答案解析 甲班的平均数为甲==7,甲班的方差为s==;乙班的平均数为乙==7,乙班的方差为s==.∵>,∴s2=.8.(2013·福建)某校从高一年级学生中随机抽取部分学生,将他们的模块测试成绩分成6组:[40,50),[50,60),[60,70),[70,80),[80,90),[90,100]加以统计,得到如图所示的频率分布直方图.已知高一年级共有学生600名,据此估计,该模块测试成绩不少于60分的学生人数为________.答案 480解析 少于60分的学生人数600×(0.05+0.15)=120(人),∴不少于60分的学生人数为480人.9.某学校高一年级男生人数占该年级学生人数的40%.在一次考试中,男、女生平均分数分别为75、80,则这次考试该年级学生平均分数为________.答案 78解析 由题意得75×0.4+80×0.6=30+48=78,∴平均分为78.10. (2015湖北文)某电子商务公司对10 000名网络购物者2014年度的消费情况进行统计,发现消费金额(单位:万元)都在区间[0.3,0.9]内,其频率分布直方图如图所示.(1)直方图中的a=________;(2)在这些购物者中,消费金额在区间[0.5,0.9]内的购物者的人数为________.答案 (1)3 (2)6 000解析 由频率分布直方图及频率和等于1可得0.2×0.1+0.8×0.1+1.5×0.1+2×0.1+2.5×0.1+a×0.1=1,解得a=3.于是消费金额在区间[0.5,0.9]内频率为0.2×0.1+0.8×0.1+2×0.1+3×0.1=0.6,所以消费金额在区间[0.5,0.9]内的购物者的人数为:0.6×10 000=6 000,故应填3,6 000.11.下面茎叶图是甲、乙两人在5次综合测评中成绩的茎叶图,其中一个数字被污损,则甲的平均成绩超过乙的平均成绩的概率为________.答案 解析 设被污损的数字为a(0≤a≤9且a∈N),则由甲的平均成绩超过乙的平均成绩得88+89+90+91+92>83+83+87+99+90+a,解得8>a,即得0≤a≤7且a∈N,∴甲的平均成绩超过乙的平均成绩的概率为P==.二、解答题12. (2015广东理)某工厂36名工人的年龄数据如下表.工人编号 年龄 工人编号 年龄 工人编号 年龄 工人编号 年龄 1 40 10 36 19 27 28 34 2 44 11 31 20 43 29 39 3 40 12 38 21 41 30 43 4 41 13 39 22 37 31 38 5 33 14 43 23 34 32 42 6 40 15 45 24 42 33 53 7 45 16 39 25 37 34 37 8 42 17 38 26 44 35 49 9 43 18 36 27 42 36 39(1)用系统抽样法从36名工人中抽取容量为9的样本,且在第一分段里用随机抽样法抽到的年龄数据为44,列出样本的年龄数据;(2)计算(1)中样本的均值和方差s2;(3)36名工人中年龄在-s与+s之间的有多少人?所占的百分比是多少(精确到0.01%) 解析 (1)44,40,36,43,36,37,44,43,37.(2)==40.s2=[(44-40)2+(40-40)2+(36-40)2+(43-40)2+(36-40)2+(37-40)2+(44-40)2+(43-40)2+(37-40)2]=.(3)40-=,40+=在的有23个,占63.89%.13.(2015广东文)某城市100户居民的月平均用电量(单位:度),以[160,180),[180,200),[200,220),[220,240),[240,260),[260,280),[280,300]分组的频率分布直方图如图.(1)求直方图中x的值;(2)求月平均用电量的众数和中位数;(3)在月平均用电量为[220,240),[240,260),[260,280),[280,300]的四组用户中,用分层抽样的方法抽取11户居民,则月平均用电量在[220,240)的用户中应抽取多少户?解析 (1)由(0.002+0.009 5+0.011+0.012 5+x+0.005+0.002 5)×20=1得:x=0.007 5,所以直方图中x的值是0.007 5.(2)月平均用电量的众数是=230.因为(0.002+0.009 5+0.011)×20=0.45<0.5,所以月平均用电量的中位数在[220,240)内,设中位数为a,由(0.002+0.009 5+0.011)×20+0.012 5×(a-220)=0.5得:a=224,所以月平均用电量的中位数是224.(3)月平均用电量为[220,240]的用户有0.012 5×20×100=25户,月平均用电量为[240,260)的用户有0.007 5×20×100=15户,月平均用电量为[260,280)的用户有0.005×20×100=10户,月平均用电量为[280,300]的用户有0.002 5×20×100=5户,抽取比例==,所以月平均用电量在[220,240)的用户中应抽取25×=5户. 展开更多...... 收起↑ 资源预览