2023届高考数学一轮复习计划 第二节 用样本的数字特征估计总体 学案

资源下载
  1. 二一教育资源

2023届高考数学一轮复习计划 第二节 用样本的数字特征估计总体 学案

资源简介

第二节 用样本的数字特征估计总体
(1)结合实例,能用样本估计总体的集中趋势参数(平均数、中位数、众数),理解集中趋势参数的统计含义;(2)结合实例,能用样本估计总体的离散程度参数(标准差、方差、极差),理解离散程度参数的统计含义;(3)结合实例,能用样本估计总体的取值规律;(4)结合实例,能用样本估计百分位数,理解百分位数的统计含义. 
重点一 总体百分位数的估计
定义 意义
百分位数 一组数据的第p百分位数是这样一个值,它使得这组数据中至少有p%的数据小于或等于这个值,且至少有(100-p)%的数据大于或等于这个值 反映该组数中小于或等于该百分位数的分布特点
[逐点清]
1.(必修第二册202页例2改编)为了弘扬体育精神,某校组织秋季运动会,在一项比赛中,学生甲进行了8组投篮,得分分别为10,8,a,8,7,9,6,8,如果学生甲的平均得分为8分,那么这组数据的第75百分位数为(  )
A.8          B.9
C.8.5 D.9.5
解析:C 由题意可得=8,解得a=8,将这组数据从小到大的顺序排列为6,7,8,8,8,8,9,10,因为8×75%=6,为整数,所以这组数据的第75百分位数为=8.5,故选C.
重点二 总体集中趋势的估计
1.中位数:将一组数据按大小依次排列,处于最中间位置的一个数据(或最中间两个数据的平均数)叫做这组数据的中位数.
2.众数:一组数据中出现次数最多的数据叫做这组数据的众数.
3.平均数:一组数据的算术平均数即为这组数据的平均数,n个数据x1,x2,…,xn的平均数 =(x1+x2+…+xn).
[逐点清]
2.(多选)已知某班10名男生引体向上的测试成绩统计如下表所示:
成绩 10 9 8 7
人数 1 4 3 2
则下列说法正确的有(  )
A.这10名男生引体向上测试成绩的平均数为7.4
B.这10名男生引体向上的测试成绩没有众数
C.这10名男生引体向上测试成绩的中位数8.5
D.这10名男生引体向上测试成绩的第20百分位数为7.5
解析:CD 对于A,10名男生引体向上测试成绩的平均数为×(10+4×9+3×8+2×7)=8.4,所以A错误;对于B,这10名男生引体向上的测试成绩的众数为9,所以B错误;对于C,这10名男生引体向上测试成绩的中位数为=8.5,所以C正确;对于D,这10名男生引体向上测试成绩的第20百分位数为=7.5,所以D正确;故选C、D.
重点三 总体离散程度的估计
1.假设一组数据是x1,x2,…,xn,用表示这组数据的平均数,那么这n个数的:
(1)标准差
s= ;
(2)方差
s2=[(x1-)2+(x2-)2+…+(xn-)2].
2.分层随机抽样的均值与方差
分层随机抽样中,如果样本量是按比例分配,记总的样本平均数为,样本方差为s2.
以分两层抽样的情况为例.假设第一层有m个数分别为x1,x2,…,xm,平均数为,方差为s;第二层有n个数,分别为y1,y2,…,yn,平均数为,方差为s.则=xi,s=(xi-)2,=i,s=(yi-)2.
(1)则=+;
(2)s2={m[s+(-)2]+n[s+(-)2]}.
[逐点清]
3.(易错题)某人5次上班途中所花的时间(单位:分钟)分别为x,y,10,11,9.已知这组数据的平均数为10,方差为2,则|x-y|的值为________.
解析:由=10,得x+y=20,即y-10=10-x.由[(x-10)2+(y-10)2+2]=2,得(x-10)2+(y-10)2=8,即2(x-10)2=8,∴(x-10)2=4,x-10=±2.∴或∴|x-y|=4.
答案:4
[记结论]
1.简单随机抽样样本平均数、方差的公式推广
(1)若数据x1,x2,…,xn的平均数为,则mx1+a,mx2+a,mx3+a,…,mxn+a的平均数是m+a;
(2)若数据x1,x2,…,xn的方差为s2,则数据ax1+b,ax2+b,…,axn+b的方差为a2s2.
2.分层随机抽样样本均值、方差的计算公式的推广
如果将总体分为k层,第j层抽取的样本为xj1,xj2,…,x,第j层的样本量为nj,样本均值为j,样本方差为s,j=1,2,…,k.记n=j,所有数据的样本均值和方差s2为:=(njj),s2=njs+nj(j-)2].
[提速度]
1.已知一组数据的频率分布直方图如下.则众数是________,中位数是________,平均数是________.
解析:因为最高矩形横坐标的中点为65,所以众数为65;设中位数为60+x,则0.030×10+0.04x=0.5,解得x=5,所以中位数为65;平均数=(55×0.030+65×0.040+75×0.015+85×0.010+95×0.005)×10=67.
答案:65 65 67
2.(2022·本溪模拟)某学校有高中学生500人.其中男生320人,女生180人.为了获得全体高中生身高的信息,按照分层随机抽样原则抽取样本,男生样本量为32,女生样本量为18,通过计算得男生身高样本均值为173.5 cm,方差为17,女生身高样本均值为163.83 cm,方差为30.03,则所有数据的样本均值为________cm,方差为________.
解析:由题意得=×173.5+×163.83≈170.02(cm),s2=×{[32×17+32×(173.5-170.02)2]+[18×30.03+18×(163.83-170.02)2]}≈43.24.
答案:170.02 43.24
总体百分位数的估计
 某大学艺术专业400名学生参加某次测评,根据男女学生人数比例,使用比例分配的分层随机抽样的方法从中随机抽取了100名学生,记录他们的分数,将数据分成7组:[20,30),[30,40),…,[80,90],并整理得到如下频率分布直方图:
(1)根据频率分布直方图估计分数的样本数据的70%分位数;
(2)已知样本中有一半男生的分数不小于70,且样本中分数不小于70的男女生人数相等.试估计总体中女生的人数.
[解] (1)由频率分布直方图可知,样本中分数不小于70的频率为(0.02+0.04)×10=0.6,
从而样本中分数小于70的频率为1-0.6=0.4,
又由频率分布直方图可得样本中分数小于80的频率为0.8,
所以样本数据的70%分位数必定位于[70,80)之间.
由70+10×=77.5.
所以其分数的样本数据的70%分位数估计值为77.5.
(2)由题知,样本中分数不小于70的学生人数为(0.02+0.04)×10×100=60,
所以样本中分数不小于70的男生人数为60×=30,
所以样本中的男生人数为30×2=60,女生人数为100-60=40,
所以总体中女生人数为400×=160(人).
1.总体百分位数的估计需要注意的两个问题
(1)总体百分位数的估计的基础是样本百分位数的计算,因此计算准确是关键;
(2)由于样本量比较少,因此对总体的估计可能存在误差,因此对总体百分位数的估计一般是估计值而非精确值.
2.确定要求的p%分位数所在分组[A,B),由频率分布表或频率分布直方图可知,样本中小于A的频率为a,小于B的频率为b,所以p%分位数=A+组距×. 
某市为了鼓励市民节约用电,实行“阶梯式”电价,将该市每户居民的月用电量划分为三档,月用电量不超过200千瓦时的部分按0.5元/千瓦时收费,超过200千瓦时但不超过400千瓦时的部分按0.8元/千瓦时收费,超过400千瓦时的部分按1.0元/千瓦时收费.
(1)求某户居民用电费用y(单位:元)关于月用电量x(单位:千瓦时)的函数解析式;
(2)为了了解居民的用电情况,通过抽样获得了今年1月份100户居民每户的用电量,统计分析后得到如图所示的频率分布直方图.若这100户居民中,今年1月份用电费用不超过260元的占80%,求a,b的值;
(3)根据(2)中求得的数据计算用电量的75%分位数.
解:(1)当0≤x≤200时,y=0.5x;
当200当x>400时,y=0.5×200+0.8×200+1.0×(x-400)=x-140.
所以y关于x的函数解析式为
y=
(2)由(1)可知,当y=260时,x=400,若用电量不超过400千瓦时的占80%,
结合频率分布直方图可知
解得a=0.001 5,b=0.002 0.
(3)设75%分位数为m,
因为用电量低于300千瓦时的所占比例为(0.001+0.002+0.003)×100×100%=60%,
用电量不超过400千瓦时的占80%,
所以75%分位数m在[300,400)内,
所以0.6+(m-300)×0.002=0.75,
解得m=375,即用电量的75%分位数为375.
总体集中趋势的估计
1.十名工人某天生产同一零件,生产的件数是:15,17,14,10,15,17,17,16,14,12,设其平均数为a,中位数为b,众数为c,则有(  )
A.a>b>c B.c>b>a
C.c>a>b D.b>c>a
解析:B 从小到大排列此数据为:10,12,14,14,15,15,16,17,17,17.平均数为×(10+12+14×2+15×2+16+17×3)=14.7;数据17出现了三次,17为众数;第5位、第6位均是15,故15为中位数.所以这组数据的平均数是14.7,中位数是15,众数是17.
2.(多选)(2021·新高考Ⅰ卷)有一组样本数据x1,x2,…,xn,由这组数据得到新样本数据y1,y2,…,yn,其中yi=xi+c(i=1,2,…,n),c为非零常数,则(  )
A.两组样本数据的样本平均数相同
B.两组样本数据的样本中位数相同
C.两组样本数据的样本标准差相同
D.两组样本数据的样本极差相同
解析:CD 设样本数据x1,x2,…,xn的平均数、中位数、标准差、极差分别为,m,σ,t,依题意得,新样本数据y1,y2,…,yn的平均数、中位数、标准差、极差分别为+c,m+c,σ,t,因为c≠0,所以C、D正确,故选C、D.
3.(多选)空气质量指数大小分为五级,指数越大说明污染的情况越严重,对人体危害越大,指数范围为[0,50],[51,100],[101,200],[201,300],[301,500],对应“优”“良”“轻度污染”“中度污染”“重度污染”五个等级,下面是某市连续14天的空气质量指数变化趋势图,下列说法中正确的是(  )
A.从2日到5日空气质量越来越好
B.这14天中空气质量指数的极差为195
C.这14天中空气质量指数的中位数是103.5
D.这14天中空气质量指数为“良”的频率为
解析:BC 从2日到5日空气质量指数越来越高,故空气质量越来越差,故A不对;
这14天中空气质量指数的极差为220-25=195,故B正确;
14天空气质量指数由小到大排列,中间为86,121,故中位数为=103.5,故C正确;
14天中有:1日,3日,12日,13日空气质量指数为良,共4天,所以空气质量指数为“良”的频率为=,故D不对.故选B、C.
1.求平均数时要注意数据的个数,不要重计或漏计.
2.求中位数时一定要先对数据按大小排序,若最中间有两个数据,则中位数是这两个数据的平均数.
3.若有两个或两个以上的数据出现得最多,且出现的次数一样,则这些数据都叫众数;若一组数据中每个数据出现的次数一样多,则没有众数. 
总体离散程度的估计
考向1 方差与标准差
 (2021·全国乙卷)某厂研制了一种生产高精产品的设备,为检验新设备生产产品的某项指标有无提高,用一台旧设备和一台新设备各生产了10件产品,得到各件产品该项指标数据如下:
旧设备 9.8 10.3 10.0 10.2 9.9 9.8 10.0 10.1 10.2 9.7
新设备 10.1 10.4 10.1 10.0 10.1 10.3 10.6 10.5 10.4 10.5
旧设备和新设备生产产品的该项指标的样本平均数分别记为和,样本方差分别记为s和s.
(1)求,,s,s;
(2)判断新设备生产产品的该项指标的均值较旧设备是否有显著提高.
[解] (1)由表格中的数据易得:
=+10.0=10.0,
=+10.0=10.3,
s=×[(9.7-10.0)2+2×(9.8-10.0)2+(9.9-10.0)2+2×(10.0-10.0)2+(10.1-10.0)2+2×(10.2-10.0)2+(10.3-10.0)2]=0.036,
s=×[(10.0-10.3)2+3×(10.1-10.3)2+(10.3-10.3)2+2×(10.4-10.3)2+2×(10.5-10.3)2+(10.6-10.3)2]=0.04.
(2)由(1)中数据可得-=10.3-10.0=0.3,而2==,显然有->2成立,所以认为新设备生产产品的该项指标的均值较旧设备有显著提高.
利用样本的方差(标准差)解决优化决策问题的依据
(1)标准差、方差描述了一组数据围绕平均数波动的大小.标准差、方差越大,数据的离散程度越大,越不稳定;标准差、方差越小,数据的离散程度越小,越稳定;
(2)用样本估计总体就是利用样本的数字特征来描述总体的数字特征. 
 (2020·全国Ⅲ卷)设一组样本数据x1,x2,…,xn的方差为0.01,则数据10x1,10x2,…,10xn的方差为(  )
A.0.01 B.0.1
C.1 D.10
解析:C ∵样本数据x1,x2,…,xn的方差为0.01,∴样本数据10x1,10x2,…,10xn的方差为102×0.01=1,故选C.
考向2 分层随机抽样的方差与标准差
 (2022·深圳高三月考)某学校统计教师职称及年龄,中级职称教师的人数为50,其平均年龄为38岁,方差是2,高级职称的教师中有3人58岁,5人40岁,2人38岁,求该校中级职称和高级职称教师年龄的平均数和方差.
[解] 由已知条件可知高级职称教师的平均年龄为高==45(岁),
年龄的方差为s=×[3×(58-45)2+5×(40-45)2+2×(38-45)2]=73,
所以该校中级职称和高级职称教师的平均年龄为=×38+×45≈39(岁),
该校中级职称和高级职称教师的年龄的方差为s2=×[2+(38-39)2]+×[73+(45-39)2]≈20.67.
计算分层随机抽样的方差的步骤
(1)确定1,2,s,s;
(2)确定;
(3)应用公式s2=[s+(1-)2]+[s+(2-)2],计算s2. 
 某班成立了A,B两个数学兴趣小组,A组10人,B组30人,经过一周的补习后进行了一次测试,在该测试中,A组的平均成绩为130分,方差为115,B组的平均成绩为110分,方差为215.求在这次测试中全班学生的平均成绩和方差.
解:依题意A=130,s=115,B=110,s=215,
∴=×130+×110=115(分),
∴全班学生的平均成绩为115分.
全班学生成绩的方差为s2=[s+(A-)2]+[s+(B-)2]=×(115+225)+×(215+25)=85+180=265.
[课时过关检测]
A级——基础达标
1.数据1,2,3,4,5,6的60%分位数为(  )
A.3           B.3.5
C.3.6 D.4
解析:D 由6×60%=3.6,所以数据1,2,3,4,5,6的60%分位数是第四个数,故选D.
2.若数据x1,x2,…,xn的平均数为 ,方差为s2,则2x1+3,2x2+3,…,2xn+3的平均数和方差分别为(  )
A.和s2 B.2+3和4s2
C.2+3和s2 D.2+3和4s2+12s+9
解析:B 原数据乘以2加上3得到一组新数据,则由平均数、方差的性质可知得到的新数据的平均数和方差分别是2+3和4s2.
3.为了反映各行业对仓储物流业务需求变化的情况,以及重要商品库存变化的动向,中国物流与采购联合会和中储发展股份有限公司通过联合调查,制定了中国仓储指数.由2019年1月至2020年7月的调查数据得出的中国仓储指数,绘制出如下折线图.
根据该折线图,下列结论正确的是(  )
A.2019年各月的仓储指数最大值是在3月份
B.2020年1月至7月的仓储指数的中位数为55
C.2020年1月与4月的仓储指数的平均数为52
D.2019年1月至4月的仓储指数相对于2020年1月至4月,波动性更大
解析:D 2019年各月的仓储指数最大值是在11月份,所以A错误;由题图可知,2020年1月至7月的仓储指数的中位数约为53,所以B错误;2020年1月与4月的仓储指数的平均数约为=53,所以C错误;由题图可知,2019年1月至4月的仓储指数比2020年1月至4月的仓储指数波动更大,故选D.
4.已知样本甲:x1,x2,x3,…,xn与样本乙:y1,y2,y3,…,yn,满足yi=2x+1(i=1,2,…,n),则下列叙述中一定正确的是(  )
A.样本乙的极差等于样本甲的极差
B.样本乙的众数大于样本甲的众数
C.若某个xi为样本甲的中位数,则yi是样本乙的中位数
D.若某个xi为样本甲的平均数,则yi是样本乙的平均数
解析:C ∵yi=2x+1,∴yi关于xi单调递增,甲样本极差为xn-x1,乙样本极差为yn-y1=2(x-x)=2(xn-x1)(x+xnx1+x),两个数据大小关系不定,∴样本乙的极差不一定等于样本甲的极差,A错误;样本乙的众数不一定大于样本甲的众数,B错误;若xi为样本甲的平均数,yi不一定是样本乙的平均数,D错误;若xi为样本甲的中位数时,则yi一定是样本乙的中位数,C正确.
5.已知样本x1,x2,…,xn的平均数为x,样本y1,y2,…,ym的平均数为y(x≠y),若样本x1,x2,…,xn,y1,y2,…,ym的平均数z=ax+(1-a)y,其中0<a<,则n,m(n,m∈N*)的大小关系为(  )
A.n=m B.n≥m
C.n<m D.n>m
解析:C 由题意得z=(nx+my)=x+y,∴a=,∵0<a<,∴0<<,又n,m∈N*,∴2n<n+m,∴n<m.故选C.
6.(多选)甲、乙两班举行电脑汉字录入比赛,参赛学生每分钟录入汉字的个数经统计计算后填入下表:
班级 参加人数 中位数 方差 平均数
甲 55 149 191 135
乙 55 151 110 135
下列结论中,正确的是(  )
A.甲、乙两班学生成绩的平均水平相同
B.乙班优秀的人数多于甲班优秀的人数(每分钟输入汉字数≥150个为优秀)
C.甲班的成绩波动情况比乙班的成绩波动大
D.甲班成绩的众数小于乙班成绩的众数
解析:ABC 甲、乙两班成绩的平均数都是135,故两班成绩的平均水平相同,∴A正确;s=191>110=s,∴甲班成绩不如乙班稳定,即甲班成绩波动较大,∴C正确;甲、乙两班人数相同,但甲班成绩的中位数为149,乙班成绩的中位数为151,从而易知乙班每分钟输入汉字数≥150个的人数要多于甲班,∴B正确;由题表看不出两班学生成绩的众数,∴D错误.
7.(多选)某篮球爱好者在一次篮球训练中,需进行五轮投篮,每轮投篮5次.统计各轮投进球的个数,获知其前四轮投中的个数分别为2,3,4,4,则第五轮结束后,下列数字特征有可能发生的是(  )
A.平均数为3,极差是3
B.中位数是3,极差是3
C.平均数为3,方差是0.8
D.中位数是3,方差是0.56
解析:BCD 2+3+4+4=13,①若平均数为3,则第五轮投中的个数为2,所以极差为4-2=2,方差为×[(2-3)2×2+(3-3)2+(4-3)2×2]=0.8,即选项A错误,C正确;
②若中位数为3,则第五轮投中的个数为0或1或2或3,
当投中的个数为0时,极差为4,平均数为2.6,方差为×[(0-2.6)2+(2-2.6)2+(3-2.6)2+(4-2.6)2×2]=2.24;
当投中的个数为1时,极差为3,平均数为2.8,方差为×[(1-2.8)2+(2-2.8)2+(3-2.8)2+(4-2.8)2×2]=1.36;
当投中的个数为2时,极差为2,方差为0.8;
当投中的个数为3时,极差为2,平均数为3.2,方差为×[(2-3.2)2+(3-3.2)2×2+(4-3.2)2×2]=0.56,即选项B和D均正确.故选B、C、D.
8.已知一组数据按从小到大的顺序排列,得到-1,0,4,x,7,14,中位数为5,则这组数据的平均数为________,方差为_________.
解析:∵-1,0,4,x,7,14的中位数为5,∴=5,∴x=6,∴这组数据的平均数是=5,这组数据的方差是×(36+25+1+1+4+81)=.
答案:5 
9.某经销商从外地一水殖厂购进一批小龙虾,并随机抽取40只进行统计,按重量分类统计结果如图:
(1)估计这批小龙虾重量的第10百分位数与第90百分位数;
(2)该经销商将这批小龙虾分成三个等级,如表:
等级 三等品 二等品 一等品
重量/克 [5,25) [25,45) [45,55]
试估计这批小龙虾划为几等品比较合理?
解:(1)因为40×10% =4,所以第10百分位数为第4项与第5项的平均数,在[5,15)范围内约为=10.
因为40×90%=36,所以第90百分位数为第36项与第37项的平均数,在[35,55]范围内,约为=45,
所以估计这批小龙虾重量的第10百分位数为10,第90百分位数为45.
(2)由(1)知,这批小龙虾重量集中在[10,45]范围内,所以划为二等品比较合理.
B级——综合应用
10.(多选)2020年2月8日,在韩国首尔举行的四大洲花样滑冰锦标赛双人自由滑比赛中,中国组合隋文静/韩聪以总分217.51分拿下四大洲赛冠军,这也是他们第六次获得四大洲冠军.中国另一对组合彭程/金杨以213.29分摘得银牌.花样滑冰锦标赛有9位评委进行评分,首先这9位评委给出某对选手的原始分数,评定该队选手的成绩时从9个原始评分中去掉一个最高分、一个最低分,得到7个有效评分,则7个有效评分与9个原始评分相比,可能变化的数字特征是(  )
A.中位数 B.平均数
C.方差 D.极差
解析:BCD 因为7个有效评分是9个原始评分中去掉一个最高分、一个最低分,所以中位数不变,平均数、方差、极差可能发生变化,所以可能变化的数字特征是平均数、方差、极差,故选B、C、D.
11.(多选)随着人民生活水平的提高,对城市空气质量的关注度也逐步增大,如图是某城市1月至8月的空气质量检测情况,图中一、二、三、四级是空气质量等级,一级空气质量最好,一级和二级都是质量合格天气,下面四种说法正确的是(  )
A.1月至8月空气质量合格天数超过20天的月份有5个
B.第二季度与第一季度相比,空气质量合格天数的比重下降了
C.8月是空气质量最好的一个月
D.6月的空气质量最差
解析:ABC 1月至8月空气质量合格天数超过20天的月份有:1月,2月,6月,7月,8月,共5个,所以A是正确的;第一季度合格天数的比重为≈0.736 3,第二季度合格天数的比重为≈0.626 4,所以第二季度与第一季度相比,空气质量合格的天数的比重下降了,所以B是正确的;8月空气质量合格天气达到30天,是空气质量最好的一个月,所以C是正确的;5月空气质量合格天气只有13天,5月份的空气质量最差,所以D是错误的,故选A、B、C.
12.某快递网点收取快递费用的标准是重量不超过1 kg的包裹收费10元,重量超过1 kg的包裹,除收费10元之外,超过1 kg的部分,每超出1 kg(不足1 kg,按1 kg计算)需要再收费5元.该公司近60天每天揽件数量的频率分布直方图如图所示(同一组数据用该区间的中点值作代表).
(1)求这60天每天包裹数量的平均数和中位数;
(2)该快递网点负责人从收取的每件快递的费用中抽取5元作为工作人员的工资和网点的利润,剩余的作为其他费用.已知该网点有工作人员3人,每人每天工资100元,以样本估计总体,试估计该网点每天的利润有多少元?
解:(1)每天包裹数量的平均数为0.1×50+0.1×150+0.5×250+0.2×350+0.1×450=260(件),
因为[0,200)的频率为0.2,[200,300)的频率为0.5,
中位数为200+ ×100=260(件),
所以该网点每天包裹的平均数和中位数都为260件.
(2)由(1)可知平均每天的揽件数为260件,
利润为260×5-3×100=1 000(元),
所以该网点平均每天的利润有1 000元.
C级——迁移创新
13.记样本x1,x2,…,xm的平均数为,样本y1,y2,…,yn的平均数为(≠).若样本x1,x2,…,xm,y1,y2,…,yn的平均数为=+,则的值为(  )
A.3 B.4
C. D.
解析:D 由题意知x1+x2+…+xm=m,y1+y2+…+yn=n,===+=+,所以=,=,可得3m=n,所以=.
14.某校有高中生2 000人,其中男女生比例约为5∶4,为了获得该校全体高中生的身高信息,采取了以下两种方案:方案一:采用比例分配的分层随机抽样方法,抽收了样本量为n的样本,得到如图所示的频数分布表和频率分布直方图.方案二:采用分层随机抽样方法,抽取了男、女生样本量均为25的样本,计算得到男生样本的均值为170,方差为16,女生样本的均值为160,方差为20.
身高(单位:cm) [145,155) [155,165) [165,175) [175,185) [185,195]
频数 m p q 6 4
(1)根据图表信息,求n,q并补充完整频率分布直方图,估计该校高中生的身高均值;(同一组中的数据以这组数据所在区间中点的值为代表)
(2)计算方案二中总样本的均值及方差;
(3)计算两种方案总样本均值的差,并说明用方案二总样本的均值作为总体均值的估计合适吗?为什么?
解:(1)因为身高在区间[185,195]的频率为0.008×10=0.08,频数为4,
所以样本量n==50,m=0.008×10×50=4,p=0.04×10×50=20,q=50-4-20-6-4=16,
所以身高在[165,175)的频率为=0.32,小矩形的高为0.032,
所以身高在[175,185)的频率为=0.12,小矩形的高为0.012,
由此补全频率分布直方图:
由频率分布直方图可知样本的身高均值为(150×0.008+160×0.04+170×0.032+180×0.012+190×0.008)×10=167.2,
所以由样本估计总体可知,估计该校高中生的身高均值为167.2.
(2)把男生样本记为x1,x2,x3,…,x25,其均值为,方差为s,
把女生样本记为y1,y2,y3,…,y25,其均值为,方差为s,
总体样本均值记为,方差记为s2,
所以=+==165,
s2=={25[16+(170-165)2]+25[20+(160-165)2]}=43.
(3)两种方案总样本均值的差为167.2-165=2.2,所以用方案二总体样本均值作为总体均值的估计不合适,原因是没有进行等比例的分层随机抽样,每个个体被抽到的可能性不同,因此代表性较差.

展开更多......

收起↑

资源预览