专题39 随机抽样、用样本估计总体——备战2023年高考数学一轮复习讲义(Word版含解析)

资源下载
  1. 二一教育资源

专题39 随机抽样、用样本估计总体——备战2023年高考数学一轮复习讲义(Word版含解析)

资源简介

<备战2023年高考数学一轮复习讲义>
专题39 随机抽样、用样本估计总体
1.(2022·全国乙卷)分别统计了甲、乙两位同学16周的各周课外体育运动时长(单位:h),得如下茎叶图:
则下列结论中错误的是(  )
A.甲同学周课外体育运动时长的样本中位数为7.4
B.乙同学周课外体育运动时长的样本平均数大于8
C.甲同学周课外体育运动时长大于8的概率的估计值大于0.4
D.乙同学周课外体育运动时长大于8的概率的估计值大于0.6
【答案】C
【解析】对于A:甲同学周课外体育运动时长的样本中位数为 ,故A正确;
对于B:乙同学课外体育运动时长的样本平均数为:
,故B正确;
对于C:甲同学周课外体育运动时长大于 的概率的估计值 ,故C错误;
对于D:乙同学周课外体育运动时长大于 的概率的估计值 ,
故D正确.
故选:C
2.(2022·全国甲卷)某社区通过公益讲座以普及社区居民的垃圾分类知识.为了解讲座效果,随机抽取10位社区居民,让他们在讲座前和讲座后各回答一份垃圾分类知识问卷,这10位社区居民在讲座前和讲座后问卷答题的正确率如下图:
则(  )
A.讲座前问卷答题的正确率的中位数小于70%
B.讲座后问卷答题的正确率的平均数大于85%
C.讲座前问卷答题的正确率的标准差小于讲座后正确率的标准差
D.讲座后问卷答题的正确率的极差大于讲座前正确率的极差
【答案】B
【解析】解:对于A,讲座前中位数为, 所以A错;
对于B,讲座后问卷答题的正确率只有1个是80%,4个85%,剩下全部大于等于90%, 所以讲座后问卷答题的正确率的平均数大于85% ,所以B对;
对于C,讲座前问卷答题的正确率更加分散,所以讲座前问卷答题的正确率的标准差大于讲座后正确率的标准差,所以C错;
对于D,讲座后问卷答题的正确率的极差为100%-80%=20% ,
讲座前问卷答题的正确率的极差为95%-60%=35%>20% ,所以D错.
故选:B.
1.简单随机抽样
抽签法和随机数法是比较常用的两种方法.
2.分层随机抽样
一般地,按一个或多个变量把总体划分成若干个子总体,每个个体属于且仅属于一个子总体,在每个子总体中独立地进行简单随机抽样,再把所有子总体中抽取的样本合在一起作为总样本,这样的抽样方法称为分层随机抽样,每一个子总体称为层.
3.统计图表
(1)常见的统计图表有条形图、扇形图、折线图、频率分布直方图等.
(2)作频率分布直方图的步骤
①求极差;
②决定组距与组数;
③将数据分组;
④列频率分布表;
⑤画频率分布直方图.
4.百分位数
一般地,一组数据的第p百分位数是这样一个值,它使得这组数据中至少有p%的数据小于或等于这个值,且至少有(100-p)%的数据大于或等于这个值.
5.平均数、中位数和众数
(1)平均数:=(x1+x2+…+xn).
(2)中位数:将一组数据按从小到大或从大到小的顺序排列,处在最中间的一个数据(当数据个数是奇数时)或最中间两个数据的平均数(当数据个数是偶数时).
(3)众数:一组数据中出现次数最多的数据(即频数最大值所对应的样本数据).
6.方差和标准差
(1)方差:s2=或.
(2)标准差:s=.
7.总体(样本)方差和总体(样本)标准差
(1)一般式:如果总体中所有个体的变量值分别为Y1,Y2,…,YN,总体平均数为,则总体方差S2=.
(2)加权式:如果总体的N个变量值中,不同的值共有k(k≤N)个,不妨记为Y1,Y2,…,Yk,其中Yi出现的频数为fi(i=1,2,…,k),则总体方差为S2=.
【常用结论】
1.简单随机抽样和分层随机抽样在抽样过程中每个个体被抽取的机会相等,分层随机抽样中各层抽样时采用简单随机抽样.
2.利用分层随机抽样要注意按比例抽取,若各层应抽取的个体数不都是整数,可以进行一定的技术处理,比如将结果取成整数等.
3.在分层随机抽样中,以层数是2层为例,如果第1层和第2层包含的个体数分别为M和N,抽取的样本量分别为m和n,第1层和第2层的样本平均数分别为,,样本平均数为,则=+=+.
4.频率分布直方图中纵轴上的数据是各组的频率除以组距,不要和条形图混淆.
5.巧用三个有关的结论
(1)若x1,x2,…,xn的平均数为1,那么mx1+a,mx2+a,…,mxn+a的平均数为m+a;
(2)数据x1,x2,…,xn与数据x1′=x1+a,x2′=x2+a,…,xn′=xn+a 的方差相等,即数据经过平移后方差不变;
(3)若x1,x2,…,xn的方差为s2,那么ax1+b,ax2+b,…,axn+b的方差为a2s2.
考点一 抽样方法
【方法总结】(1)简单随机抽样需满足:①被抽取的样本总体的个体数有限;②逐个抽取;③等可能抽取.
(2)在分层随机抽样中,抽样比==.
(3)在分层随机抽样中,如果第一层的样本量为m,平均值为;第二层的样本量为n,平均值为,则样本的平均值为.
1.总体由编号为00,01,…,28,29的30个个体组成.利用下面的随机数表选取5个个体,选取方法是从随机数表第1行的第6列和第7列开始由左到右依次选取两个数字.则选出来的第5个个体的编号为(  )
0842 2689 5319 6450 9303 2320 9025 6015 9901 9025
2909 0937 6707 1528 3113 1165 0280 7999 7080 1573
A.19 B.02 C.11 D.16
【答案】C
【解析】从随机数表的第1行的第6列和第7列开始从左往右依次选取两个数字,得到的在00~29范围之内的两位数依次是09,09,02,01,19,02,11,其中09和02各重复了一次,去掉重复的数字后,前5个编号是09,02,01,19,11,则选出来的第5个个体的编号为11.
2.我国施行个人所得税专项附加扣除办法,涉及子女教育、继续教育、大病医疗、住房贷款利息、住房租金、赡养老人等六项专项附加扣除.某单位老年、中年、青年员工分别有80人、100人、120人,现采用分层随机抽样的方法,从该单位上述员工中抽取30人调查专项附加扣除的享受情况,则应该从青年员工中抽取的人数为(  )
A.8 B.10 C.12 D.18
【答案】C
【解析】由题意可得抽取的30人中青年员工有×30=12(人).
考点二 统计图表
【方法总结】统计图表的主要应用
扇形图:直观描述各类数据占总数的比例;
折线图:描述数据随时间的变化趋势;
条形图和直方图:直观描述不同类别或分组数据的频数和频率.
3.(多选)某企业2021年12个月的收入与支出数据的折线图如图,
已知:利润=收入-支出,根据该折线图,下列说法正确的是(  )
A.该企业2021年1月至6月的总利润低于2021年7月至12月的总利润
B.该企业2021年1月至6月的平均收入低于2021年7月至12月的平均收入
C.该企业2021年8月至12月的支出持续增长
D.该企业2021年11月份的月利润最大
【答案】ABC
【解析】因为图中的实线与虚线的相对高度表示当月利润.由折线统计图可知1月至6月的相对高度的总量要比7月至12月的相对高度总量少,故A正确;由折线统计图可知1月至6月的收入都普遍低于7月至12月的收入,故B正确;由折线统计图可知2021年8月至12月的虚线是上升的,所以支出持续增长,故C正确;由折线统计图可知11月的相对高度比7月、8月都要小,故D错误.
考点三 频率分布直方图
【考点总结】频率分布直方图的相关结论
(1)频率分布直方图中各小长方形的面积之和为1.
(2)频率分布直方图中纵轴表示,故每组样本的频率为组距×,即矩形的面积.
(3)频率分布直方图中每组样本的频数为频率×总数.
4.随机抽取100名学生,测得他们的身高(单位:cm),按照区间[160,165),[165,170),[170,175),[175,180),[180,185]分组,得到样本身高的频率分布直方图如图所示.
(1)求频率分布直方图中x的值及身高在170 cm及以上的学生人数;
(2)将身高在[170,175),[175,180),[180,185]区间内的学生依次记为A,B,C三个组,用分层随机抽样的方法从这三个组中抽取6人,求这三个组分别抽取的学生人数.
【答案】(1)由频率分布直方图可知
5×(0.07+x+0.04+0.02+0.01)=1,
解得x=0.06,
身高在170 cm及以上的学生人数为
100×5×(0.06+0.04+0.02)=60.
(2)A组人数为100×5×0.06=30,
B组人数为100×5×0.04=20,
C组人数为100×5×0.02=10,
由题意可知A组抽取人数为30×=3,
B组抽取人数为20×=2,
C组抽取人数为10×=1.
考点四 样本的数字特征和百分位数的估计
【方法总结】计算一组n个数据第p百分位数的步骤
5.从某中学抽取10名同学,他们的数学成绩如下:82,85,88,90,92,92,92,96,96,98(单位:分),则这10名同学数学成绩的众数、第25百分位数分别为(  )
A.92,85 B.92,88
C.95,88 D.96,85
【答案】B
【解析】数据92出现了3次,出现的次数最多,所以众数是92;将一组数据按照由小到大的顺序排列,计算10×25%=2.5,取第三个数,第25百分位数是88.
6.已知某7个数的平均数为4,方差为2,现加入一个新数据4,此时这8个数的平均数为,方差为s2,则(  )
A.=4,s2<2 B.=4,s2=2
C.>4,s2<2 D.>4,s2>2
【答案】A
【解析】设7个数为x1,x2,x3,x4,x5,x6,x7,
则=4,
=2,
所以x1+x2+x3+x4+x5+x6+x7=28,
(x1-4)2+(x2-4)2+(x3-4)2+(x4-4)2+(x5-4)2+(x6-4)2+(x7-4)2=14,
则这8个数的平均数为=(x1+x2+x3+x4+x5+x6+x7+4)=×(28+4)=4,
方差为s2=×[(x1-4)2+(x2-4)2+(x3-4)2+(x4-4)2+(x5-4)2+(x6-4)2+(x7-4)2+(4-4)2]
=×(14+0)=<2.
考点五 总体集中趋势的估计
【方法总结】频率分布直方图的数字特征
(1)众数:最高矩形的底边中点的横坐标.
(2)中位数:中位数左边和右边的矩形的面积和应该相等.
(3)平均数:平均数在频率分布直方图中等于各组区间的中点值与对应频率之积的和.
7.棉花是我国纺织工业重要的原料.新疆作为我国最大的产棉区,对国家棉花产业发展、确保棉粮安全以及促进新疆农民增收、实现乡村振兴战略都具有重要意义.准确掌握棉花质量现状、动态,可以促进棉花产业健康和稳定的发展.在新疆某地收购的一批棉花中随机抽测了100根棉花的纤维长度(单位:mm),得到样本的频数分布表如下:
纤维长度 频数 频率
[0,50) 4 0.04
[50,100) 8 0.08
[100,150) 10 0.10
[150,200) 10 0.10
[200,250) 16 0.16
[250,300) 40 0.40
[300,350] 12 0.12
(1)在图中作出样本的频率分布直方图;
(2)根据(1)中作出的频率分布直方图求这一棉花样本的众数、中位数与平均数,并对这批棉花的众数、中位数和平均数进行估计.
【答案】(1)样本的频率分布直方图如图所示.
(2)由样本的频率分布直方图,
得众数为=275(mm);
设中位数为x,(x-250)×0.008=50%-48%,
解得x=252.5,即中位数为252.5 mm;
设平均数为,则
=25×0.04+75×0.08+125×0.1+175×0.1+225×0.16+275×0.4+325×0.12
=222(mm),
故平均数为222 mm.由样本的这些数据,可得购进的这批棉花的众数、中位数和平均数分别约为275 mm、252.5 mm和222 mm.
考点六 总体离散程度的估计
【方法总结】总体离散程度的估计:标准差(方差)反映了数据的离散与集中、波动与稳定的程度.标准差(方差)越大,数据的离散程度越大;标准差(方差)越小,数据的离散程度越小.
8.从某企业生产的某种产品中抽取100件,测量这些产品的一项质量指标值,由测量结果得如下频数分布表:
质量指标值分组 [75,85) [85,95) [95,105) [105,115) [115,125]
频数 6 26 38 22 8
(1)根据上表补全如图所示的频率分布直方图;
(2)估计这种产品质量指标值的平均数及方差(同一组中的数据用该组区间的中点值作代表);
(3)根据以上抽样调查数据,能否认为该企业生产的这种产品符合“质量指标值不低于95的产品至少要占全部产品的80%”的规定?
【答案】(1)补全后的频率分布直方图如图所示.
(2)质量指标值的样本平均数为=80×0.06+90×0.26+100×0.38+110×0.22+120×0.08=100.
质量指标值的样本方差为s2=(-20)2×0.06+(-10)2×0.26+02×0.38+102×0.22+202×0.08=104.
所以这种产品质量指标值的平均数约为100,方差约为104.
(3)质量指标值不低于95的产品所占比例约为0.38+0.22+0.08=0.68.
由于该估计值小于0.8,故不能认为该企业生产的这种产品符合“质量指标值不低于95的产品至少要占全部产品的80%”的规定.
一、单选题
1.(2022·马鞍山模拟)新冠疫情防控期间,某市中小学实行线上教学,停课不停学.某校对240名职工线上数学期间的办公情况进行了调查统计,结果如图所示,下列表述错误的是(  )
A.x=5.0
B.从该校任取一名职工,该职工不在家办公的概率为0.525
C.不到10名职工休假
D.该校在家办公或在校办公的职工不超过200名
【答案】C
【解析】A:因为,所以本选项正确;
B:因为不在家办公占比为,所以该职工不在家办公的概率为0.525,因此本选项正确;
C:因为,所以本选项不正确;
D:因为,所以本选项正确,
故答案为:C
2.(2022·射洪模拟)某高校调查了400名学生每周的自习时间(单位:小时),绘制成如图所示的频率分布直方图,其中自习时间的范围是,样本数据分组为,,,,.则根据直方图这400名学生中每周的自习时间不足22.5小时的人数是(  )
A.60 B.90 C.130 D.150
【答案】B
【解析】由图可得自习时间不足22.5小时的频率为
则人数为
故答案为:B
3.(2022·昆明模拟)为了鼓励学生锻炼身体,强健体魄,增强抵抗病毒能力,某校决定加强体育活动并对体育成绩进行定期统计,下表是该校高三年级某次体育测试成绩的样本频率分布表:
500名高三学生体育成绩的频率分布表
分组
频率 0.1 0.15 0.4 0.25 0.1
该次高三年级体育测试成绩中位数的估计值位于区间(  )
A. B. C. D.
【答案】C
【解析】解:设中位数为,
因为,
所以中位数在区间内,
则,解得,
所以该次高三年级体育测试成绩中位数的估计值位于区间.
故答案为:C.
4.(2022·西安模拟)北京2022年冬奥会吉祥物“冰墩墩”和冬残奥会吉祥物“雪容融”一亮相,好评不断,这是一次中国文化与奥林匹克精神的完美结合,现工厂决定从20只相同的“冰墩墩”,15只相同的“雪容融”和10个相同的北京2022年冬奥会会徽中,采用分层随机抽样的方法,抽取一个容量为n的样本进行质量检测,若“冰墩墩”抽取了4只,则n为(  )
A.12 B.8 C.5 D.9
【答案】D
【解析】,由于“冰墩墩”抽取了4只,所以“雪容融”抽取了3只,“冬奥会会徽”抽取了2只.所以.
故答案为:D
5.(2022·南开模拟)为了解某地区老年人体育运动情况,随机抽取了200名老年人进行调查.根据调查结果绘制了下面日均体育运动时间的频率分布直方图,则日均体育运动时间的众数和中位数分别是(  )
A.35,35 B.40,35 C.30,30 D.35,30
【答案】D
【解析】由频率分布直方图可得第四组的频率最大,故众数为35,
前三组的频率之和为,
故中位数为30,
故答案为:D
6.(2022·广东模拟)如图是甲、乙两人高考前10次数学模拟成绩的折线图,则下列说法错误的是(  )
A.甲的数学成绩最后3次逐渐升高
B.甲的数学成绩在130分以上的次数多于乙的数学成绩在130分以上的次数
C.甲有5次考试成绩比乙高
D.甲数学成绩的极差小于乙数学成绩的极差
【答案】C
【解析】对于A,由折线图可知最后三次数学成绩逐渐升高,A说法正确;
对于B,甲的数学成绩在130分以上的次数为6次,乙的数学成绩在130分以上的次数为5次,B说法正确;
对于C, 甲有7次考试成绩比乙高,C的说法错误;
对于D,由折线图可知,甲乙两人的数学成绩的最高成绩相同,甲的最低成绩为120分,
乙的最低成绩为110分,因此甲数学成绩的极差小于乙数学成绩的极差,D说法正确,
故答案为:C
7.(2022·内江模拟)四川省现在的高考模式仍要分文理科,某中学在统计高一学生文理科选择意愿时,抽取了部分男、女学生意愿的一份样本,制作出如下两个等高条形图:
根据这两幅图中的信息,下列结论中正确的是(  )
A.样本中的女生数量少于男生数量
B.样本中有文科意愿的学生数量多于有理科意愿的学生数量
C.样本中的男生偏爱理科
D.样本中的女生偏爱文科
【答案】C
【解析】由图1知,样本中的女生数量多于男生数量,A不符合题意;
由图2知,样本中有理科意愿的学生数量多于有文科意愿的学生数量,B不符合题意;
由图2知,样本中的男生、女生均偏爱理科,C符合题意,D不符合题意;
故答案为:C
8.(2022·天津市模拟)耀华中学全体学生参加了主题为“致敬建党百年,传承耀华力量”的知识竞赛,随机抽取了400名学生进行成绩统计,发现抽取的学生的成绩都在50分至100分之间,进行适当分组后(每组为左闭右开的区间),画出频率分布直方图如图所示,下列说法正确的是(  )
A.直方图中的值为0.004
B.在被抽取的学生中,成绩在区间的学生数为30人
C.估计全校学生的平均成绩为84分
D.估计全校学生成绩的样本数据的80%分位数约为93分
【答案】C
【解析】由直方图可得: ,解得 ,A不符合题意,
在被抽取的学生中,成绩在区间的学生数为人,B不符合题意
估计全校学生的平均成绩为分,C符合题意
全校学生成绩的样本数据的 分位数约为分,D不符合题意
故答案为:C
9.(2022·平江模拟)已知一组数据: 的平均数是5,方差是4,则由 , , 和11 这四个数据组成的新数据组的方差是(  )
A.16 B.14 C.12 D.11
【答案】C
【解析】由已知得 , ,
则新数据的平均数为 ,
所以方差为 ,

故答案为:C.
10.(2022高三下·安徽期中)2022年2月28日,国家统计局发布了我国国民经济和社会发展统计公报,下面两图分别显示的是2017~2021全国居民人均可支配收入及其增长速度和2021年全国居民人均消费支出及其构成,则下列说法正确的是(  )
A.2021年全国居民人均可支配收入为35128元,比上年实际增长6%
B.2017年~2021年五年时间,全国居民人均可支配收入逐年增加,比上年实际增长先减小后增大
C.2021年全国居民人均消费支出,食品烟酒和居住占比不足50%
D.2021年全国居民人均消费支出,教育文化娱乐占比最小
【答案】B
【解析】对于A,2021年全国居民人均可支配收入为35128元,2020年全国居民人均可支配收入为32189元,所以2021年比2020年增长,所以A不符合题意,
对于B,由统计图可知2018全国居民人均可支配收入比2017增长,
2019全国居民人均可支配收入比2018增长,
2020全国居民人均可支配收入比2019增长,
2021全国居民人均可支配收入比2020增长,
所以2017年~2021年五年时间,全国居民人均可支配收入逐年增加,比上年实际增长先减小后增大,所以B符合题意,
对于C,2021年全国居民人均消费支出,食品烟酒和居住占比为,所以C不符合题意,
对于D,由右图可知,2021年全国居民人均消费支出,其他用品及服务占比最小,为2.4¥,所以D不符合题意,
故答案为:B
二、填空题
11.(2022·如皋模拟)某学习兴趣小组的某学生的10次测试成绩如下:130,135,126,123,145,146,150,131,143,144,则该学生的10次测验成绩的45百分位数是   .
【答案】135
【解析】10个数据从小到大排序123,126,130,131,135,143,144,145,146,
150,,∴45百分位数是135.
故答案为:135.
12.(2022·呼和浩特模拟)3月12日是植树节,某地组织青年志愿者进行植树活动,植树的树种及其数量的折线图,如图所示.后期,该地区农业局根据树种采用分层抽样的方法抽取150棵树,请专业人士查看树种的成活情况,则被抽取的梧桐树的棵数为   .
【答案】10
【解析】由分层抽样法,被抽取的梧桐树的棵数为: .
故答案为:10.
13.(2022·南开模拟)为了抗击新冠肺炎疫情,现在从A医院200人和B医院100人中,按分层抽样的方法,选出6人加入“援鄂医疗队”,再从此6人中选出两人作为联络员,则这两名联络员中B医院至少有一人的概率是   .设两名联络员中B医院的人数为,则随机变量的数学期望为   .
【答案】;
【解析】因为采用分层抽样的方式,所以自A医院的人数为:,
来自B医院的人数为:.
空一:两名联络员中没有来自B医院的概率是,
所以这两名联络员中B医院至少有一人的概率是;
空二:由题意可知:,
,,,
所以,
故答案为:;
14.(2021高三上·武功月考)满分为100分的测试卷,60分为及格线.若100人参加测试,将这100人的卷面分数按照 , ,…, 分组后绘制的频率分布直方图如图所示,由于及格人数较少,某老师准备将每位学生的卷面得分采用“开方乘以10取整”的方法进行换算以提高及格率(实数a的取整等于不超过a的最大整数).如:某位学生卷面49分,则换算成70分作为他的最终考试成绩.则按照这种方式,这次测试的不及格的人数变为   人.
【答案】18
【解析】设考生实际得分为 ,若经过换算后还是不及格,则 ,
于是, ,即小于36分的同学,换算后仍不及格.
根据直方图,即小于36分的同学有 .
故答案为:18.
15.(2021·昆明模拟)甲、乙两个样本茎叶图如下,将甲中的一个数据调入乙,使调整后两组数据的平均值都比调整前增大,则这个数据可以是   .(填一个数据即可)
【答案】76、77、78填一个即可
【解析】数据调整前,甲组的数据之和为 ,平均数为 ,
乙组的数据之和为 ,平均数为 .
设甲中的一个数据调入乙的数据为 ,由已知条件可得 ,解得 .
故答案为:76、77、78填一个即可.
三、解答题
16.(2022·张家口模拟)港珠澳大桥东起香港国际机场附近的香港口岸人工岛,向西横跨南海伶仃洋水域接珠海和澳门人工岛,止于珠海洪湾立交;桥隧全长55千米,桥面为双向六车道高速公路,设计速度100千米/小时,限制速度为千米/小时,通车后由桥上监控显示每辆车行车和通关时间的频率分布直方图如图所示:
附:若,则,.
(1)估计车辆通过港珠澳大桥的平均时间(精确到0.1)
(2)以(1)中的平均时间作为,车辆通过港珠澳大桥的时间X近似服从正态分布,任意取通过大桥的1000辆汽车,求所用时间少于39.5分钟的大致车辆数目(精确到整数).
【答案】(1)解:由频率分布直方图可得 .
(2)解:由题知,,
所以,故所用时间少于39.5分钟的大致车辆数目为159.
【解析】(1)根据题意由频率分布直方图中的数据,结合题意计算出结果即可。
(2)利用正太分布的几何性质以及数据代入数值计算出结果,再进行比较即可得出结论。
17.(2022·江西模拟)为迎接2022年9月在杭州举办的第19届亚运会,亚组委志愿者部对所有报名参加志愿者工作的人员进行了首场通用知识培训,并进行了通用知识培训在线测试,不合格者不得被录用,并在所有测试成绩中随机抽取了男、女各50名预录用志愿者的测试成绩(满分100分),将他们的成绩分为4组:[60,70),[70,80),[80,90),[90,100],整理得到如下频数分布表.
成绩分 [60,70) [70,80) [80,90) [90,100]
预录用男志愿者 15 5 15 15
预录用女志愿者 10 10 20 10
(1)试从均值和方差的角度分析,样本成绩较好的是预录用男志愿者还是预录用女志愿者(同一组中的数据用该组区间的中点值作代表);
(2)将频率作为概率,现从所有预录用志愿者成绩在[80,90)的人中随机抽取4人试用,记其中男志愿者的人数为X,求X的数学期望与方差.
【答案】(1)解:这50名预录用男志愿者的平均成绩为

方差,
这50名预录用女志愿者的平均成绩为

方差,
因为,,
所以样本成绩较好的是预录用女志愿者.
(2)解:从所有预录用志愿者成绩在[80,90)的人中随机抽取1人,
是男志愿者的概率为.
由题意可知,
所以.
【解析】(1)根据题意把数值代入到平均值和方差的公式,由此计算出结果,然后进行对比即可得出结论。
(2)由二项分布的几何性质,代入数值计算出结果并代入到期望和方差的公式,计算出结果即可。
18.(2022·新高考Ⅱ卷)在某地区进行流行病调查,随机调查了100名某种疾病患者的年龄,得到如下的样本数据频率分布直方图.
(1)估计该地区这种疾病患者的平均年龄(同一组中的数据用该组区间的中点值作代表);
(2)估计该地区一人患这种疾病年龄在区间 的概率;
(3)已知该地区这种疾病的患病率为0.1%,该地区年龄位于区间 的人口占该地区总人口的16%,从该地区任选一人,若此人年龄位于区间 ,求此人患该种疾病的概率.(样本数据中的患者年龄位于各区间的频率作为患者年龄位于该区间的概率,精确到0.0001)
【答案】(1)解:平均年龄 (岁)
(2)解:设A={一人患这种疾病的年龄在区间[20,70)},则
(3)设B={任选一人年龄位于区间 },C={任选一人患这种族病},
则由条件概率公式,得
【解析】(1)根据平均值等于各矩形的面积乘以对应区间的中点值的和即可求出;
(2)设 A= {一人患这种疾病的年龄在区间 [20,70) },根据对立事件的概率公式即可解出;
(3)根据条件概率公式即可求出.
19.(2022·北京)在校运动会上,只有甲、乙、丙三名同学参加铅球比赛,比赛成绩达到9.50m以上(含9.50m)的同学将获得优秀奖,为预测获得优秀奖的人数及冠军得主,收集了甲、乙、丙以往的比赛成绩,并整理得到如下数据(单位:m):
甲:9.80, 9.70, 9.55, 9.54, 9.48, 9.42, 9.40, 9.35, 9.30, 9.25;
乙:9.78, 9.56, 9.51, 9.36, 9.32, 9.23;
丙:9.85, 9.65, 9.20, 9.16.
假设用频率估计概率,且甲、乙、丙的比赛成绩相互独立
(I)估计甲在校运动会铅球比赛中获得优秀奖的概率;
(II)设X是甲、乙、丙在校运动会铅球比赛中获得优秀奖的总人数,估计 的数学期望 ;
(III)在校运动会铅球比赛中,甲、乙、丙谁获得冠军的概率估计值最大?(结论不要求证明)
【答案】(I)由题意得:设甲在校运会铅球比赛中获优秀奖为事件A:
比赛成绩达到9.50m以上获优秀奖,甲的比赛成绩达到9.50以上的有: 9.80,9.70,9.55,9.54 四个,所以甲在校运会铅球比赛中获优秀奖的概率为 ;
(II)X所有可能取值为0,1,2,3
甲在校运会铅球比赛中获优秀奖的概率为
乙在校运会铅球比赛中获优秀奖的概率为事件B,则
丙在校运会铅球比赛中获优秀奖的概率为事件C,则
0 1 2 3
0.15 0.4 0.35 0.1
(III)甲的平均数:
乙的平均数:
丙的平均数:
甲的方差:
乙的方差:
丙的方差:
在校运动会铅球比赛中,乙获得冠军的概率估计值最大.
【解析】(1)根据古典概型概率公式计算即可;
(2)由题意 X 的可能取值为0,1,2,3,先分别求得 甲、乙、丙在校运会铅球比赛中获优秀奖的概率,再分别求取X取值的相应概率,由此得分布列和数学期望;
(3)根据甲、乙、丙的比赛成绩的平均值和方差即可判断.
20.(2022·河南模拟)疫情逐渐缓解,学校教学从线上上课形式回归到线下上课形式.为了检验网课学习的成果,某学校进行了一场开学考试.某年级实验班共有学生50人,数学考试成绩的频率分布直方图如下图所示.分布区间分别为,,,,,,数学考试成绩不低于120分为优秀.
(1)求该实验班数学考试成绩达到优秀的人数;
(2)从实验班所有学生的数学试卷中,按考试成绩是否优秀,利用分层抽样的方法随机抽取10人的试卷,再在这10人的试卷中,随机抽取3份试卷,记X为这3份试卷中考试成绩达到优秀的试卷份数.求X的分布列和数学期望.
【答案】(1)解:由直方图可得数学成绩大于120的频率为,
故数学成绩大于120的人数为人.
(2)解:利用分层抽样的方法随机抽取10人的试卷,其中共有6人数学成绩达到优秀,
而可取,
,,
,,
故的分布列如下:
0 1 2 3
.
【解析】(1)根据频率分布直方图直接求解出该实验班数学考试成绩达到优秀的人数;
(2)先由分层抽样求出抽取10人中,优秀的人数为6人,不优秀的人数为4人,所以X的所有可能取值为0,1,2, 3,再利用古典概型的概率公式求出对应的概率,即可得到X的分布列和期望.<备战2023年高考数学一轮复习讲义>
专题39 随机抽样、用样本估计总体
1.(2022·全国乙卷)分别统计了甲、乙两位同学16周的各周课外体育运动时长(单位:h),得如下茎叶图:
则下列结论中错误的是(  )
A.甲同学周课外体育运动时长的样本中位数为7.4
B.乙同学周课外体育运动时长的样本平均数大于8
C.甲同学周课外体育运动时长大于8的概率的估计值大于0.4
D.乙同学周课外体育运动时长大于8的概率的估计值大于0.6
2.(2022·全国甲卷)某社区通过公益讲座以普及社区居民的垃圾分类知识.为了解讲座效果,随机抽取10位社区居民,让他们在讲座前和讲座后各回答一份垃圾分类知识问卷,这10位社区居民在讲座前和讲座后问卷答题的正确率如下图:
则(  )
A.讲座前问卷答题的正确率的中位数小于70%
B.讲座后问卷答题的正确率的平均数大于85%
C.讲座前问卷答题的正确率的标准差小于讲座后正确率的标准差
D.讲座后问卷答题的正确率的极差大于讲座前正确率的极差
1.简单随机抽样
抽签法和随机数法是比较常用的两种方法.
2.分层随机抽样
一般地,按一个或多个变量把总体划分成若干个子总体,每个个体属于且仅属于一个子总体,在每个子总体中独立地进行简单随机抽样,再把所有子总体中抽取的样本合在一起作为总样本,这样的抽样方法称为分层随机抽样,每一个子总体称为层.
3.统计图表
(1)常见的统计图表有条形图、扇形图、折线图、频率分布直方图等.
(2)作频率分布直方图的步骤
①求极差;
②决定组距与组数;
③将数据分组;
④列频率分布表;
⑤画频率分布直方图.
4.百分位数
一般地,一组数据的第p百分位数是这样一个值,它使得这组数据中至少有p%的数据小于或等于这个值,且至少有(100-p)%的数据大于或等于这个值.
5.平均数、中位数和众数
(1)平均数:=(x1+x2+…+xn).
(2)中位数:将一组数据按从小到大或从大到小的顺序排列,处在最中间的一个数据(当数据个数是奇数时)或最中间两个数据的平均数(当数据个数是偶数时).
(3)众数:一组数据中出现次数最多的数据(即频数最大值所对应的样本数据).
6.方差和标准差
(1)方差:s2=或.
(2)标准差:s=.
7.总体(样本)方差和总体(样本)标准差
(1)一般式:如果总体中所有个体的变量值分别为Y1,Y2,…,YN,总体平均数为,则总体方差S2=.
(2)加权式:如果总体的N个变量值中,不同的值共有k(k≤N)个,不妨记为Y1,Y2,…,Yk,其中Yi出现的频数为fi(i=1,2,…,k),则总体方差为S2=.
【常用结论】
1.简单随机抽样和分层随机抽样在抽样过程中每个个体被抽取的机会相等,分层随机抽样中各层抽样时采用简单随机抽样.
2.利用分层随机抽样要注意按比例抽取,若各层应抽取的个体数不都是整数,可以进行一定的技术处理,比如将结果取成整数等.
3.在分层随机抽样中,以层数是2层为例,如果第1层和第2层包含的个体数分别为M和N,抽取的样本量分别为m和n,第1层和第2层的样本平均数分别为,,样本平均数为,则=+=+.
4.频率分布直方图中纵轴上的数据是各组的频率除以组距,不要和条形图混淆.
5.巧用三个有关的结论
(1)若x1,x2,…,xn的平均数为1,那么mx1+a,mx2+a,…,mxn+a的平均数为m+a;
(2)数据x1,x2,…,xn与数据x1′=x1+a,x2′=x2+a,…,xn′=xn+a 的方差相等,即数据经过平移后方差不变;
(3)若x1,x2,…,xn的方差为s2,那么ax1+b,ax2+b,…,axn+b的方差为a2s2.
考点一 抽样方法
【方法总结】(1)简单随机抽样需满足:①被抽取的样本总体的个体数有限;②逐个抽取;③等可能抽取.
(2)在分层随机抽样中,抽样比==.
(3)在分层随机抽样中,如果第一层的样本量为m,平均值为;第二层的样本量为n,平均值为,则样本的平均值为.
1.总体由编号为00,01,…,28,29的30个个体组成.利用下面的随机数表选取5个个体,选取方法是从随机数表第1行的第6列和第7列开始由左到右依次选取两个数字.则选出来的第5个个体的编号为(  )
0842 2689 5319 6450 9303 2320 9025 6015 9901 9025
2909 0937 6707 1528 3113 1165 0280 7999 7080 1573
A.19 B.02 C.11 D.16
2.我国施行个人所得税专项附加扣除办法,涉及子女教育、继续教育、大病医疗、住房贷款利息、住房租金、赡养老人等六项专项附加扣除.某单位老年、中年、青年员工分别有80人、100人、120人,现采用分层随机抽样的方法,从该单位上述员工中抽取30人调查专项附加扣除的享受情况,则应该从青年员工中抽取的人数为(  )
A.8 B.10 C.12 D.18
考点二 统计图表
【方法总结】统计图表的主要应用
扇形图:直观描述各类数据占总数的比例;
折线图:描述数据随时间的变化趋势;
条形图和直方图:直观描述不同类别或分组数据的频数和频率.
3.(多选)某企业2021年12个月的收入与支出数据的折线图如图,
已知:利润=收入-支出,根据该折线图,下列说法正确的是(  )
A.该企业2021年1月至6月的总利润低于2021年7月至12月的总利润
B.该企业2021年1月至6月的平均收入低于2021年7月至12月的平均收入
C.该企业2021年8月至12月的支出持续增长
D.该企业2021年11月份的月利润最大
考点三 频率分布直方图
【考点总结】频率分布直方图的相关结论
(1)频率分布直方图中各小长方形的面积之和为1.
(2)频率分布直方图中纵轴表示,故每组样本的频率为组距×,即矩形的面积.
(3)频率分布直方图中每组样本的频数为频率×总数.
4.随机抽取100名学生,测得他们的身高(单位:cm),按照区间[160,165),[165,170),[170,175),[175,180),[180,185]分组,得到样本身高的频率分布直方图如图所示.
(1)求频率分布直方图中x的值及身高在170 cm及以上的学生人数;
(2)将身高在[170,175),[175,180),[180,185]区间内的学生依次记为A,B,C三个组,用分层随机抽样的方法从这三个组中抽取6人,求这三个组分别抽取的学生人数.
考点四 样本的数字特征和百分位数的估计
【方法总结】计算一组n个数据第p百分位数的步骤
5.从某中学抽取10名同学,他们的数学成绩如下:82,85,88,90,92,92,92,96,96,98(单位:分),则这10名同学数学成绩的众数、第25百分位数分别为(  )
A.92,85 B.92,88
C.95,88 D.96,85
6.已知某7个数的平均数为4,方差为2,现加入一个新数据4,此时这8个数的平均数为,方差为s2,则(  )
A.=4,s2<2 B.=4,s2=2
C.>4,s2<2 D.>4,s2>2
考点五 总体集中趋势的估计
【方法总结】频率分布直方图的数字特征
(1)众数:最高矩形的底边中点的横坐标.
(2)中位数:中位数左边和右边的矩形的面积和应该相等.
(3)平均数:平均数在频率分布直方图中等于各组区间的中点值与对应频率之积的和.
7.棉花是我国纺织工业重要的原料.新疆作为我国最大的产棉区,对国家棉花产业发展、确保棉粮安全以及促进新疆农民增收、实现乡村振兴战略都具有重要意义.准确掌握棉花质量现状、动态,可以促进棉花产业健康和稳定的发展.在新疆某地收购的一批棉花中随机抽测了100根棉花的纤维长度(单位:mm),得到样本的频数分布表如下:
纤维长度 频数 频率
[0,50) 4 0.04
[50,100) 8 0.08
[100,150) 10 0.10
[150,200) 10 0.10
[200,250) 16 0.16
[250,300) 40 0.40
[300,350] 12 0.12
(1)在图中作出样本的频率分布直方图;
(2)根据(1)中作出的频率分布直方图求这一棉花样本的众数、中位数与平均数,并对这批棉花的众数、中位数和平均数进行估计.
考点六 总体离散程度的估计
【方法总结】总体离散程度的估计:标准差(方差)反映了数据的离散与集中、波动与稳定的程度.标准差(方差)越大,数据的离散程度越大;标准差(方差)越小,数据的离散程度越小.
8.从某企业生产的某种产品中抽取100件,测量这些产品的一项质量指标值,由测量结果得如下频数分布表:
质量指标值分组 [75,85) [85,95) [95,105) [105,115) [115,125]
频数 6 26 38 22 8
(1)根据上表补全如图所示的频率分布直方图;
(2)估计这种产品质量指标值的平均数及方差(同一组中的数据用该组区间的中点值作代表);
(3)根据以上抽样调查数据,能否认为该企业生产的这种产品符合“质量指标值不低于95的产品至少要占全部产品的80%”的规定?
一、单选题
1.(2022·马鞍山模拟)新冠疫情防控期间,某市中小学实行线上教学,停课不停学.某校对240名职工线上数学期间的办公情况进行了调查统计,结果如图所示,下列表述错误的是(  )
A.x=5.0
B.从该校任取一名职工,该职工不在家办公的概率为0.525
C.不到10名职工休假
D.该校在家办公或在校办公的职工不超过200名
2.(2022·射洪模拟)某高校调查了400名学生每周的自习时间(单位:小时),绘制成如图所示的频率分布直方图,其中自习时间的范围是,样本数据分组为,,,,.则根据直方图这400名学生中每周的自习时间不足22.5小时的人数是(  )
A.60 B.90 C.130 D.150
3.(2022·昆明模拟)为了鼓励学生锻炼身体,强健体魄,增强抵抗病毒能力,某校决定加强体育活动并对体育成绩进行定期统计,下表是该校高三年级某次体育测试成绩的样本频率分布表:
500名高三学生体育成绩的频率分布表
分组
频率 0.1 0.15 0.4 0.25 0.1
该次高三年级体育测试成绩中位数的估计值位于区间(  )
A. B. C. D.
4.(2022·西安模拟)北京2022年冬奥会吉祥物“冰墩墩”和冬残奥会吉祥物“雪容融”一亮相,好评不断,这是一次中国文化与奥林匹克精神的完美结合,现工厂决定从20只相同的“冰墩墩”,15只相同的“雪容融”和10个相同的北京2022年冬奥会会徽中,采用分层随机抽样的方法,抽取一个容量为n的样本进行质量检测,若“冰墩墩”抽取了4只,则n为(  )
A.12 B.8 C.5 D.9
5.(2022·南开模拟)为了解某地区老年人体育运动情况,随机抽取了200名老年人进行调查.根据调查结果绘制了下面日均体育运动时间的频率分布直方图,则日均体育运动时间的众数和中位数分别是(  )
A.35,35 B.40,35 C.30,30 D.35,30
6.(2022·广东模拟)如图是甲、乙两人高考前10次数学模拟成绩的折线图,则下列说法错误的是(  )
A.甲的数学成绩最后3次逐渐升高
B.甲的数学成绩在130分以上的次数多于乙的数学成绩在130分以上的次数
C.甲有5次考试成绩比乙高
D.甲数学成绩的极差小于乙数学成绩的极差
7.(2022·内江模拟)四川省现在的高考模式仍要分文理科,某中学在统计高一学生文理科选择意愿时,抽取了部分男、女学生意愿的一份样本,制作出如下两个等高条形图:
根据这两幅图中的信息,下列结论中正确的是(  )
A.样本中的女生数量少于男生数量
B.样本中有文科意愿的学生数量多于有理科意愿的学生数量
C.样本中的男生偏爱理科
D.样本中的女生偏爱文科
8.(2022·天津市模拟)耀华中学全体学生参加了主题为“致敬建党百年,传承耀华力量”的知识竞赛,随机抽取了400名学生进行成绩统计,发现抽取的学生的成绩都在50分至100分之间,进行适当分组后(每组为左闭右开的区间),画出频率分布直方图如图所示,下列说法正确的是(  )
A.直方图中的值为0.004
B.在被抽取的学生中,成绩在区间的学生数为30人
C.估计全校学生的平均成绩为84分
D.估计全校学生成绩的样本数据的80%分位数约为93分
9.(2022·平江模拟)已知一组数据: 的平均数是5,方差是4,则由 , , 和11 这四个数据组成的新数据组的方差是(  )
A.16 B.14 C.12 D.11
10.(2022高三下·安徽期中)2022年2月28日,国家统计局发布了我国国民经济和社会发展统计公报,下面两图分别显示的是2017~2021全国居民人均可支配收入及其增长速度和2021年全国居民人均消费支出及其构成,则下列说法正确的是(  )
A.2021年全国居民人均可支配收入为35128元,比上年实际增长6%
B.2017年~2021年五年时间,全国居民人均可支配收入逐年增加,比上年实际增长先减小后增大
C.2021年全国居民人均消费支出,食品烟酒和居住占比不足50%
D.2021年全国居民人均消费支出,教育文化娱乐占比最小
二、填空题
11.(2022·如皋模拟)某学习兴趣小组的某学生的10次测试成绩如下:130,135,126,123,145,146,150,131,143,144,则该学生的10次测验成绩的45百分位数是   .
12.(2022·呼和浩特模拟)3月12日是植树节,某地组织青年志愿者进行植树活动,植树的树种及其数量的折线图,如图所示.后期,该地区农业局根据树种采用分层抽样的方法抽取150棵树,请专业人士查看树种的成活情况,则被抽取的梧桐树的棵数为   .
13.(2022·南开模拟)为了抗击新冠肺炎疫情,现在从A医院200人和B医院100人中,按分层抽样的方法,选出6人加入“援鄂医疗队”,再从此6人中选出两人作为联络员,则这两名联络员中B医院至少有一人的概率是   .设两名联络员中B医院的人数为,则随机变量的数学期望为   .
14.(2021高三上·武功月考)满分为100分的测试卷,60分为及格线.若100人参加测试,将这100人的卷面分数按照 , ,…, 分组后绘制的频率分布直方图如图所示,由于及格人数较少,某老师准备将每位学生的卷面得分采用“开方乘以10取整”的方法进行换算以提高及格率(实数a的取整等于不超过a的最大整数).如:某位学生卷面49分,则换算成70分作为他的最终考试成绩.则按照这种方式,这次测试的不及格的人数变为   人.
15.(2021·昆明模拟)甲、乙两个样本茎叶图如下,将甲中的一个数据调入乙,使调整后两组数据的平均值都比调整前增大,则这个数据可以是   .(填一个数据即可)
三、解答题
16.(2022·张家口模拟)港珠澳大桥东起香港国际机场附近的香港口岸人工岛,向西横跨南海伶仃洋水域接珠海和澳门人工岛,止于珠海洪湾立交;桥隧全长55千米,桥面为双向六车道高速公路,设计速度100千米/小时,限制速度为千米/小时,通车后由桥上监控显示每辆车行车和通关时间的频率分布直方图如图所示:
附:若,则,.
(1)估计车辆通过港珠澳大桥的平均时间(精确到0.1)
(2)以(1)中的平均时间作为,车辆通过港珠澳大桥的时间X近似服从正态分布,任意取通过大桥的1000辆汽车,求所用时间少于39.5分钟的大致车辆数目(精确到整数).
17.(2022·江西模拟)为迎接2022年9月在杭州举办的第19届亚运会,亚组委志愿者部对所有报名参加志愿者工作的人员进行了首场通用知识培训,并进行了通用知识培训在线测试,不合格者不得被录用,并在所有测试成绩中随机抽取了男、女各50名预录用志愿者的测试成绩(满分100分),将他们的成绩分为4组:[60,70),[70,80),[80,90),[90,100],整理得到如下频数分布表.
成绩分 [60,70) [70,80) [80,90) [90,100]
预录用男志愿者 15 5 15 15
预录用女志愿者 10 10 20 10
(1)试从均值和方差的角度分析,样本成绩较好的是预录用男志愿者还是预录用女志愿者(同一组中的数据用该组区间的中点值作代表);
(2)将频率作为概率,现从所有预录用志愿者成绩在[80,90)的人中随机抽取4人试用,记其中男志愿者的人数为X,求X的数学期望与方差.
18.(2022·新高考Ⅱ卷)在某地区进行流行病调查,随机调查了100名某种疾病患者的年龄,得到如下的样本数据频率分布直方图.
(1)估计该地区这种疾病患者的平均年龄(同一组中的数据用该组区间的中点值作代表);
(2)估计该地区一人患这种疾病年龄在区间 的概率;
(3)已知该地区这种疾病的患病率为0.1%,该地区年龄位于区间 的人口占该地区总人口的16%,从该地区任选一人,若此人年龄位于区间 ,求此人患该种疾病的概率.(样本数据中的患者年龄位于各区间的频率作为患者年龄位于该区间的概率,精确到0.0001)
19.(2022·北京)在校运动会上,只有甲、乙、丙三名同学参加铅球比赛,比赛成绩达到9.50m以上(含9.50m)的同学将获得优秀奖,为预测获得优秀奖的人数及冠军得主,收集了甲、乙、丙以往的比赛成绩,并整理得到如下数据(单位:m):
甲:9.80, 9.70, 9.55, 9.54, 9.48, 9.42, 9.40, 9.35, 9.30, 9.25;
乙:9.78, 9.56, 9.51, 9.36, 9.32, 9.23;
丙:9.85, 9.65, 9.20, 9.16.
假设用频率估计概率,且甲、乙、丙的比赛成绩相互独立
(I)估计甲在校运动会铅球比赛中获得优秀奖的概率;
(II)设X是甲、乙、丙在校运动会铅球比赛中获得优秀奖的总人数,估计 的数学期望 ;
(III)在校运动会铅球比赛中,甲、乙、丙谁获得冠军的概率估计值最大?(结论不要求证明)
20.(2022·河南模拟)疫情逐渐缓解,学校教学从线上上课形式回归到线下上课形式.为了检验网课学习的成果,某学校进行了一场开学考试.某年级实验班共有学生50人,数学考试成绩的频率分布直方图如下图所示.分布区间分别为,,,,,,数学考试成绩不低于120分为优秀.
(1)求该实验班数学考试成绩达到优秀的人数;
(2)从实验班所有学生的数学试卷中,按考试成绩是否优秀,利用分层抽样的方法随机抽取10人的试卷,再在这10人的试卷中,随机抽取3份试卷,记X为这3份试卷中考试成绩达到优秀的试卷份数.求X的分布列和数学期望.

展开更多......

收起↑

资源列表