专题突破练14 统计与成对数据的统计分析(含解析)--2026高考数学第二轮专题复习练

资源下载
  1. 二一教育资源

专题突破练14 统计与成对数据的统计分析(含解析)--2026高考数学第二轮专题复习练

资源简介

中小学教育资源及组卷应用平台
2026高考数学第二轮专题
专题突破练14 统计与成对数据的统计分析
必备知识夯实练
1.(2025北京东城模拟)如图所示的频率分布直方图显示了三种不同的分布形态,图1形成对称形态,图2形成“右拖尾”形态,图3形成“左拖尾”形态,根据所给图作出以下判断,不正确的是(  )
图1
图2
图3
A.图1的平均数=中位数=众数
B.图2的平均数<众数<中位数
C.图2的众数<中位数<平均数
D.图3的平均数<中位数<众数
2.(2025江西九江二模)植物的根是吸收水分和矿物养分的主要器官.已知在一定范围内,小麦对氮元素的吸收量与它的根长度具有线性相关关系.某盆栽小麦实验中,在确保土壤肥力及灌溉条件相对稳定的情况下,统计了根长度x(单位:cm)与氮元素吸收量y(单位:mg/天)的相关数据,如下表所示:
x 9.9 12.1 14.8 18.2 19.9 21.8 25.1 27.7 30.4 32.1
y 0.30 0.34 0.42 0.50 0.55 0.60 0.71 0.74 0.78 0.86
根据表中数据可得=21.2,=0.58及经验回归方程为=0.025x+a,则(  )
A.a=-0.05
B.变量y与x的样本相关系数r<0
C.在一定范围内,小麦的根长度每增加1 cm,它一天的氮元素吸收量平均增加0.025 mg
D.若对小麦的根长度与钾元素吸收量的相关数据进行统计,则对应回归方程不变
3.(多选题)(2025山东名校联考)某小区共有2 000名20~60岁的居民进行消防知识有奖答题,满分100分.答题完成后,工作人员从中随机抽取100人的答卷,并根据成绩绘制了频率分布直方图(如图),则下列结论正确的是(  )
A.频率分布直方图中a=0.015
B.小区2 000名20~60岁居民答题成绩的平均数约为70.5,极差约为60
C.估计这100名居民答题成绩的第60百分位数为70
D.被抽取的100人中答题成绩在[70,90)的有45人
4.(2025河北衡水模拟)加密运算在信息传送中具有重大作用.对于一组数据a1,a2,…,an,其密钥s=ai,定义算法bi=ai s=其中i=1,2,…,n.将数据a1,a2,…,an加密为b1,b2,…,bn的过程称为I型单向加密.现将一组数据4,1,6,8,4,7进行I型单向加密,则加密后的新数据的第60百分位数为(  )
A.2 B.3
C.6 D.9
5.(多选题)(2025北京海淀模拟)如图是根据一组观测数据得到海拔6~15 km的大气压强散点图,根据一元线性回归模型得到经验回归方程为=-4.0x+68.5,决定系数为=0.99.根据非线性回归模型得到经验回归方程为=132.9e-0.163x,决定系数为=0.99,则下列说法正确的是(  )
A.由散点图可知,大气压强与海拔高度负相关
B.由方程=-4.0x+68.5可知,海拔每升高1 km,大气压强必定降低4.0 kPa
C.由方程=-4.0x+68.5可知,样本点(11,22.6)的残差为-1.9
D.对比两个回归模型,结合实际情况,方程=132.9e-0.163x的预报效果更好
6.(2025云南昆明模拟)某研究性学习小组针对“使用某APP的用户是否存在性别差异”,向40n(n∈N*)个人进行调查.用Ω表示所有调查对象构成的集合.以Ω为样本空间建立古典概型,并定义一对分类变量X和Y如下:对于Ω中的每一名学生, X=
Y=现得到下表
X Y
1 0
1 8n 12n
0 12n 8n
若根据α=0.05的独立性检验,认为P(Y=1|X=0)>P(Y=1|X=1)(其中x0.05=3.841),则n的最小值为     .(参考公式:χ2=,其中n=a+b+c+d)
7.(2025北京西城模拟)南丁格尔玫瑰图是由近代护理学和护士教育创始人南丁格尔设计的,图中每个扇形圆心角都是相等的,半径长短表示数量大小.某机构统计了近几年某国知识付费用户数量(单位:亿人次,数据为年末数据),并绘制成南丁格尔玫瑰图(如图所示),根据此图,则下列正确结论的序号是     .
①2016年至2023年,知识付费用户数量逐年增加
②2017年至2023年,知识付费用户数量逐年增加量2018年最多
③2017年至2023年,知识付费用户数量的逐年增加量逐年递增
④2023年知识付费用户数量超过2016年知识付费用户数量的10倍
关键能力提升练
8.(多选题)(2025福建福州模拟)有一组成对样本数据(x1,y1),(x2,y2),…,(xn,yn),设xi,yi.由这组数据得到新成对样本数据(x1+,y1+),(x2+,y2+),…,(xn+,yn+).利用一元线性回归模型,根据最小二乘法,下列结论一定正确的是(  )
附:经验回归直线的斜率和截距的最小二乘估计公式分别为.样本相关系数r=,决定系数R2=1-(其中xi+).
A.两条经验回归直线都过点()
B.两条经验回归直线的截距相同
C.两组数据的样本相关系数相同
D.两组数据的决定系数相同
9.(多选题)(2025安徽合肥二模)从某校高一和高二年级分别随机抽取100名学生进行知识竞赛,按得分(满分100分)绘制如图所示的频率分布直方图,根据频率分布直方图,并用频率估计概率记高一年级学生得分平均数的估计值为x,高二年级学生得分中位数与平均数的估计值分别为y,z.从高一和高二年级各随机抽取一名学生,记事件M=“高一年级学生得分不低于60分,高二年级学生得分不低于80分”,事件N=“高一年级学生得分不低于80分,高二年级学生得分不低于60分”,则(  )
高一年级学生得分
高二年级学生得分
A.xz
C.事件M,N互斥 D.P(M)=P(N)
10.(2025广东汕头一模)在政府发布的光伏发电补贴政策的引导下,西北某地光伏发电装机量急剧上升,现对2016年至2023年的新增光伏装机量进行调查,根据散点图选择了两个模型进行拟合,并得到相应的经验回归方程.为判断模型的拟合效果,甲、乙、丙三位同学进行了如下分析:
(1)甲同学通过计算残差作出了两个模型的残差图,如图所示;
(2)乙同学求出模型①的残差平方和为0.417 5、模型②的残差平方和为1.562 5;
(3)丙同学分别求出模型①的决定系数=0.952 0、模型②的决定系数为=0.978 1.
经检验,模型①拟合效果最佳,则甲、乙、丙三位同学中,运算结果肯定出错的同学是     .(填“甲”或“乙”或“丙”)
11.(15分)(2025湖南长沙模拟)乒乓球被称为中国的“国球”,是一种球类体育项目.某学校为了丰富学生的课后活动内容,增强学生体质,决定组织乒乓球活动社.以下是接下来7个星期(用x=1表示第1个星期,用x=2表示第二个星期,以此类推)参加活动的累计人数y(单位:人)的统计数据.
x 1 2 3 4 5 6 7
y/人 6 14 20 37 74 108 203
(1)根据表中数据可以判断y与x大致满足回归模型=cdx,试建立y与x的回归方程(精确到0.01);
(2)为了更好地开展体育类型活动,学校继续调查全校同学的身高情况.采用按比例分层抽样抽取了男生30人,其身高的平均数和方差分别为171.5和13.0;抽取了女生20人,其身高的平均数和方差分别为161.5和27.0,试求全体学生身高的平均数和方差.
参考数据:=66,≈1.57,xiyi=2 681,xizi≈50.95,其中zi=lg yi,zi.
参考公式:对于一组数据(u1,v1),(u2,v2),…,(un,vn),其经验回归直线u的斜率和截距的最小二乘估计公式分别为.
核心素养创新练
12.(17分)(2025南京师大附中模拟)在测试中,客观题难度的计算公式为Pi=,其中Pi为第i题的难度,Ri为答对该题的人数,N为参加测试的总人数.现对某校高三年级240名学生进行一次测试,共5道客观题.测试前根据对学生的了解,预估了每道题的难度,如表所示:
题号 1 2 3 4 5
考前预估难度Pi 0.9 0.8 0.7 0.6 0.4
测试后,随机抽取了20名学生的答题数据进行统计,结果如下
题号 1 2 3 4 5
实测答对人数 16 16 14 14 8
(1)根据题中数据,估计这240名学生中第5题的实测答对人数;
(2)从抽取的20名学生中再随机抽取2名学生,记这2名学生中第5题答对的人数为X,求X的分布列和数学期望;
(3)定义统计量S=[(P1'-P1)2+(P2'-P2)2+…+(Pn'-Pn)2],其中Pi'为第i题的实测难度,Pi为第i题的预估难度(i=1,2,…,n).规定:若S<0.05,则称该次测试的难度预估合理,否则为不合理.试据此判断本次测试的难度预估是否合理.
答案:
1.B 解析 对一个单峰的频率分布直方图来说,如果直方图的形状是对称的,那么平均数和中位数应该大体上差不多.如果直方图在右边“拖尾”,那么平均数大于中位数.如果直方图在左边“拖尾”,那么平均数小于中位数.也就是说,和中位数相比,平均数总是在“长尾巴”那边.
题图1的频率分布直方图是对称的,所以平均数=中位数=众数,故A正确;题图2众数最小,平均数大于中位数,故B错误,C正确;题图3众数最大,平均数小于中位数,故D正确.故选B.
2.C 解析 由经验回归直线过样本点的中心()知,a=0.58-0.025×21.2=0.05,故A错误;小麦对氮元素的吸收量与它的根长度具有正相关关系,故样本相关系数r>0,故B错误;由经验回归方程=0.025x+a可得,在一定范围内,小麦的根长度每增加1 cm,它一天的氮元素吸收量平均增加0.025 mg,故C正确;若研究小麦的根长度与钾元素吸收量的相关关系,回归方程可能发生改变,故D错误.故选C.
3.ABD 解析 由图可知(0.01×2+2a+0.02+0.03)×10=1,所以a=0.015,故A正确;记平均数的估计值为,则=(45×0.01+55×0.015+65×0.02+75×0.03+85×0.015+95×0.01)×10=70.5,极差约为100-40=60,故B正确;设第60百分位数的估计值为x,(0.01+0.015+0.020)×10=0.45<0.6,(0.01+0.015+0.020+0.030)×10=0.75>0.6,所以x∈(70,80),故C错误;成绩在[70,90)的频率为0.3+0.15=0.45,所以有0.45×100=45人,故D正确.故选ABD.
4.C 解析 依题意,密钥s==5,则加密后的新数据依次为9,6,1,3,9,2,将加密后的新数据按从小到大的顺序排列为1,2,3,6,9,9,由6×60%=3.6,得加密后的新数据的第60百分位数为6.故选C.
5.ACD 解析 对于A,由图象知,海拔高度越高,大气压强越低,所以大气压强与海拔高度负相关,故A正确;
对于B,经验回归方程得到的数据为估计值,而非精确值,故B错误;
对于C,当x=11时,=-4.0×11+68.5=24.5,所以样本点(11,22.6)的残差为22.6-24.5=-1.9,故C正确;
对于D,随着海拔高度的增加,大气压强越来越小,但不可能为负数,因此方程=132.9e-0.163x的预报效果更好,故D正确.故选ACD.
6.3 解析 因为P(Y=1|X=0)>P(Y=1|X=1),所以用该APP的用户存在性别差异,
所以χ2=n>x0.05=3.841,即n>3.841=2.400 625,所以n的最小值为3.
7.①② 解析 对于①,由图可知,2016年至2023年,知识付费用户数量逐年增加,故①正确;
对于②和③,知识付费用户数量的逐年增加量分别为2017年,1.88-0.96=0.92;
2018年,2.95-1.88=1.07;
2019年,3.56-2.95=0.61;
2020年,4.15-3.56=0.59;
2021年,4.77-4.15=0.62;
2022年,5.27-4.77=0.5;
2023年,5.72-5.27=0.45.
则知识付费用户数量逐年增加量2018年最多,知识付费用户数量的逐年增加量不是逐年递增,故②正确,③错误;
对于④,由5.72<10×0.96,则2023年知识付费用户数量未超过2016年知识付费用户数量的10倍,故④错误.故答案为①②.
8.CD 解析 对于A,设新数据的样本点的中心为(),
因为===2,
=2,所以新成对样本数据的经验回归直线过点(2,2),故A错误;
对于B,因为==,所以新成对样本数据的经验回归直线的截距为=22=2()=2,故B错误;
对于C,因为新成对样本数据的样本相关系数r'==r,所以两组数据的样本相关系数相同,故C正确;
对于D,因为新成对样本数据的决定系数R'2=1-=1-
其中,,
所以R'2=1-=R2,所以两组数据的决定系数相同,故D正确.
故选CD.
9.AB 解析 x=(35×0.01+45×0.02+55×0.03+65×0.02+75×0.01+85×0.005+95×0.005)×10=58.5,
z=(35×0.005+45×0.01+55×0.015+65×0.02+75×0.03+85×0.015+95×0.005)×10=67.5,
∵0.05+0.1+0.15+0.2=0.5,∴y=70,∴xy>z,故B选项正确;∵M∩N=“高一年级学生得分不低于80分,高二年级学生得分不低于80分”≠ ,故C选项错误;
由频率估计概率得P(M)=(0.2+0.1+0.05+0.05)×(0.15+0.05)=0.08,
P(N)=(0.05+0.05)×(0.2+0.3+0.15+0.05)=0.07,故D选项错误.
故选AB.
10.丙 解析 甲的残差图中,模型①的残差点更均匀地分布在以横轴为对称轴的水平带状区域内,且水平带状区域更窄,说明模型①拟合效果更好;残差平方和越大,即决定系数越小,说明数据点越离散,所以乙的计算结果显示模型①的拟合效果更好,而丙的计算结果显示模型②的拟合效果更好.故答案为丙.
11.解 (1)对于y=cdx,两边取常用对数可得lg y=lg(cdx)=lg c+xlg d,设z=lg y,a=lg c,b=lg d,则回归方程变为x.
=12+22+32+42+52+62+72=1+4+9+16+25+36+49=140,n=7,=4.
根据参考公式,,将xizi≈50.95,1.57,=140,=4代入,可得0.25.
1.57-0.25×4=1.57-1=0.57.
则=0.25x+0.57,
因为a=lg c,b=lg d,
所以lg c≈0.57,则c≈100.57;
lg d≈0.25,则d≈100.25.
所以y与x的回归方程为=100.57·100.25x.
即y=100.25x+0.57.
(2)全体学生身高的平均数===167.5.
根据方差公式s2=
(其中n1,n2为各层人数,为各层方差,为各层平均数,为总平均数).
将n1=30,=13.0,=171.5,n2=20,=27.0,=161.5,=167.5代入,可得s2={30×[13.0+(171.5-167.5)2]+20×[27.0+(161.5-167.5)2]}==42.6,则全体学生身高的平均数为167.5,方差为42.6.
12.解 (1)因为20人中答对第5题的人数为8,因此第5题的实测难度为=0.4,所以估计240人中有240×0.4=96人实测答对第5题.
(2)X的可能取值是0,1,2,
P(X=0)=,P(X=1)=,P(X=2)=
X的分布列为
X 0 1 2
P
E(X)=0+1+2
(3)将抽样的20名学生中第i题的实测难度,作为240名学生第i题的实测难度.各题的实测难度如下表:
题号 1 2 3 4 5
实测难度 0.8 0.8 0.7 0.7 0.4
所以S=[(0.8-0.9)2+(0.8-0.8)2+(0.7-0.7)2+(0.7-0.6)2+(0.4-0.4)2]=0.004,
因为S=0.004<0.05,所以该次测试的难度预估是合理的.
21世纪教育网 www.21cnjy.com 精品试卷·第 2 页 (共 2 页)
21世纪教育网(www.21cnjy.com)

展开更多......

收起↑

资源预览