2026年高考数学二轮复习高效培优讲义(全国通用)专题15统计与统计案例(易错专练)(学生版+解析)

资源下载
  1. 二一教育资源

2026年高考数学二轮复习高效培优讲义(全国通用)专题15统计与统计案例(易错专练)(学生版+解析)

资源简介

专题15 统计与统计案例
易错点1 混淆总体与总体容量、样本与样本容量
易错典题
【例1】(25-26高二上·安徽·月考)某高中为了了解高一年级1200名学生的视力情况,抽查了其中200名学生的视力,并进行统计分析.下列叙述正确的是( )
A.上述调查属于普查 B.每名学生是总体的一个个体
C.200名学生的视力是总体的一个样本 D.1200名学生是总体
【答案】C
【解析】对于A,因为抽取一部分对象的调查方式是抽查,对全体对象进行研究的调查方式是普查,所以此调查为抽样调查,所以A错误;
对于B,每名学生的视力是总体的一个个体,所以B错误;
对于C,200名学生的视力是总体的一个样本,所以C正确;
对于D,1200名学生的视力是总体,所以D错误.(易错点)
本题中的考查对象是学生的视力,而不是学生
故选:C
【错因分析】这类考题容易混淆考查对象、样本以及样本容量而出错.
知识混淆:把总体和总体容量、样本和样本容量当成同一概念,分不清谁是研究对象集合、谁是数量,做题时直接替换使用,导致概念对应错误.
概念模糊:不明确定义,总体是考察对象全体,总体容量是总体个数;样本是抽取的部分个体,样本容量是样本个数,只记名称不记内涵.
望文生义:只看字面,把 “总体” 理解为总数,把 “样本” 当成样本数,忽略 “容量” 专指数量,凭语感乱用术语,造成表述与计算错误.
避错攻略
【方法总结】(1) 总体是指考察对象的全体,而总体容量是指总体的个数;(2)样本是指从总体中抽取的若干个个体组成的集合,而样本容量是指样本个体的数目,要注意二者的区别.
【知识链接】抽样调查
(1)总体:统计中所考察对象的某一数值指标的全体构成的集合称为总体.
(2)个体:构成总体的每一个元素叫做个体.
(3)样本:从总体中抽取若干个个体进行考察,这若干个个体所构成的集合叫做总体的一个样本,样本中个体的数目叫做样本容量.
举一反三
【变式1-1】(25-26高三上·河北沧州·期末)某校高中有42个班,每个班有50名学生,现从该校高中每班随机选派3名学生参加交通安全知识竞赛并统计参赛人员的成绩,则其样本量是( )
A.42 B.50 C.126 D.150
【变式1-2】(25-26高三上·天津河北·期末)为了了解某地参加计算机水平测试的5000名学生的成绩,从中抽取了200名学生进行调查分析.在这个问题中,被抽取的200名学生是( )
A.个体 B.样本 C.总体 D.样本量
【变式1-3】(25-26高三上·广东揭阳·期中)从某市参加升学考试的学生中随机抽查1000名学生的数学成绩进行统计分析,在这个问题中,下列说法正确的是( )
A.总体指的是该市参加升学考试的全体学生的数学成绩
B.样本是指1000名学生的数学成绩
C.样本量指的是1000名学生
D.个体指的是该市参加升学考试的每一名学生的数学成绩
易错点2 求中位数、百分位数时忽略数据顺序
易错典题
【例2】(25-26高三上·湖北襄阳·月考)一组从小到大排列的数据:,,,,,,,,,若它们的百分位数是中位数的两倍,则的值为( )
A. B. C. D.
【答案】A
【解析】数据,,,,,,,,,已是由小到大的排列,数据共个(易错点),
求离散型数据的百分位数和中位数时,都要将数据先排序
中位数为第个与第个数据的平均值即中位数为,(易错点)
注意最中间有两个数时,中位数取其平均数
由,因此百分位数为第个与第个数据的平均值即,
得,
解得,
故选:A.
【错因分析】本题求解时容易忽略将数据从小到大排列而出错.
知识混淆:混淆中位数、百分位数的计算前提,把必须先排序和直接用原数据计算混为一谈,错误认为数据位置固定即可,忽略有序性是核心前提,导致结果完全错误.
概念模糊:不理解中位数、百分位数是数据从小到大排列后的位置特征值,只记公式不记步骤,跳过排序直接找位置,对 “中位”“百分位” 的有序内涵理解不清.
望文生义:只看 “中位”“位数” 字面,误以为是数据中间位置的数,不考虑数据乱序情况,直接按原始顺序计算,忽视 “先排后算” 的本质要求.
避错攻略
【方法总结】在求数据的中位数、百分数时,一定要先把数据从小到大排列,然后再根据中位数、百分数的定义进行求解.
【知识链接】1.众数、中位数、平均数
(1)众数:一组数据中出现次数最多的数叫众数,众数反应一组数据的多数水平.
(2)中位数:将一组数据按大小顺序依次排列,把处在最中间位置的一个数据(或最中间两个数据的平均数)叫做这组数据的中位数,中位数反应一组数据的中间水平.
(3)平均数:个样本数据的平均数为,反应一组数据的平均水平,公式变形:.
2.百分位数
(1)定义:一组数据的第百分位数是这样一个值,它使得这组数据中至少有的数据小于或等于这个值,且至少有的数据大于或等于这个值.
(2)计算一组个数据的的第百分位数的步骤
①按从小到大排列原始数据.
②计算.
③若不是整数而大于的比邻整数,则第百分位数为第项数据;若是整数,则第百分位数为第项与第项数据的平均数.
(3)四分位数:我们之前学过的中位数,相当于是第百分位数.在实际应用中,除了中位数外,常用的分位数还有第百分位数,第百分位数.这三个分位数把一组由小到大排列后的数据分成四等份,因此称为四分位数.
举一反三
【变式2-1】(2026·湖南湘潭·二模)现有一组数据2,4,5,2,3,6,8,4,5,则这组数据的第百分位数与中位数分别是( )
A.4,6 B.5,4 C.6,4 D.6,5
【变式2-2】(2026·河北衡水·模拟预测)某中学举行主题为“弘扬传统文化,传承中华美德”的演讲比赛,现随机抽选10名参赛选手,获得他们出场顺序的数据,将这组数据从小到大排序为,17,18,若该组数据的中位数是极差的,则m的值为( )
A.9 B.10 C.11 D.12
【变式2-3】(25-26高三上·重庆沙坪坝·月考)已知四个正整数满足,且 的平均数和中位数都为5,则可能的取值情况总数是( )
A.7 B.9 C.10 D.12
易错点3 对频率分布直方图中的数据特征理解不透
易错典题
【例3】(多选)(25-26高三上·江西上饶·期末)上饶市某学校从高一的800名男生中随机抽取50名测量身高,被测学生身高全部介于155cm和之间,将测量结果按如下方式分成八组:第一组,第二组, ,第八组.下图是按上述分组方法得到的频率分布直方图的一部分,已知第一组与第八组人数相同,第六组的人数为4人.以下说法正确的是( )

A.第二组的频率为0.016
B.第七组的频率为0.06
C.估计该校高一800名男生的身高的中位数约为
D.估计该校高一800名男生的身高的平均数约为
【答案】BCD
【解析】对于A,第二组的频率为,故A错误(易错点);
注意频率分布直方图中频率为矩形的面积,而不是矩形的高
对于B,由题意得第六组人数为4人,则有第六组的频率为,纵坐标为0.016,
所以第七组的满足,故B正确;
对于C,由直方图得,身高在第一组的频率为,
身高在第二组的频率为,
身高在第三组的频率为,
身高在第四组的频率为,
由于,,
设这所学校高一800名男生的身高中位数为,则,
则有,解得,故C正确;(易错点)
中位数左侧各矩形面积之和为0.5,而不是高之和为0.5
对于D,设这所学校高一800名男生的身高平均数为,
身高在第五组的频率为,
身高在第六组的频率为,
身高在第七组的频率为,
身高在第八组的频率为,
则有,
故D正确.
故选:BCD.
【错因分析】本题在计算过程中容易对中位数、百分位数、众数、平均数估计值的计算公式理解不透彻而出错.
知识混淆:把频率分布直方图的 纵轴(频率 / 组距)当成频率,混淆面积与高度的意义,错用纵轴数值直接计算频率、频数,与一般统计图的用法混淆.
概念模糊:不清楚中位数、平均数在直方图中的几何意义,只记公式不理解原理,不会用面积等分找中位数,不会用组中值加权算平均数.
望文生义:只看 “频率”“分布” 字面,以为越高代表数据越多,忽略面积才代表频率,直接用最高矩形判断集中趋势,理解片面.
避错攻略
【方法总结】利用频率分布直方图求众数、中位数与平均数时,易出错,应注意区分这三者.在频率分布直方图中:
(1)最高的小长方形底边中点的横坐标即是众数;
(2)中位数左边和右边的小长方形的面积和是相等的;
(3)平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面积乘以小长方形底边中点的横坐标之和.
【知识链接】1、画频数分布直方图与频率分布直方图的步骤:
(1)找出最值,计算极差;
(2)合理分组,确定区间;
(3)整理数据;
(4)作出相关图示;
频数分布直方图 纵坐标是频数,每一组数对应的矩形的高度与频数成正比
频率分布直方图 纵坐标是频率/组距,每一组数对应的矩形高度与频率成正比,每个矩形的面积等于这一组数对应的频率,所有矩形的面积之和为1
2、频率分布表与频率分布直方图的特点
频数分布表反映具体数据在各个不同区间的取值频率,但不直观,数据的总体态势不明显;频率分布直方图能直观地表明数据分布的行状态势,但失去了原始数据.
3、频数分布折线图和频率分布折线图
把频数分布直方图和频率分布直方图中每个矩形上面一边的中点用线段连接起来.
为了方便看图,折线图都画成与横轴相交,所以折线图与横轴的左右两个交点是没有实际意义的.
4.频率分布直方图中的统计参数
(1)频率分布直方图中的“众数”
根据众数的意义可知,在频率分布直方图中最高矩形中的某个(些)点的横坐标为这组数据的众数.一般用
中点近似代替.
(2)频率分布直方图中的“中位数”
根据中位数的意义,在样本中,有50%的个体小于或等于中位数,也有50%的个体大于或等于中位数.
因此,在频率分布直方图中,中位数左边和右边的直方图的面积应该相等,由此可估计中位数的值.
(3)频率分布直方图中的“平均数”
平均数是频率分布直方图的“重心”.因为平均数可以表示为数据与它的频率的乘积之和,所以在频率分
布直方图中,样本平均数可以用每个小矩形底边中点的横坐标与小矩形的面积的乘积之和近似代替.
举一反三
【变式3-1】(多选)(25-26高三上·浙江宁波·期末)海水养殖场进行某水产品两种养殖方法的产量对比,甲试验区选择第一种养殖方法,乙试验区选择第二种养殖方法.收获时,从两个试验区各随机抽取了100个网箱,测量各箱水产品的产量(单位:千克),其频率分布直方图如下图所示.
记事件C=“乙试验区产量不低于19千克”,根据直方图得到的估计值为0.70,则( )
A.乙试验区产量频率分布直方图中,
B.甲试验区产量的众数大于乙试验区产量的众数
C.甲试验区产量的平均数小于乙试验区产量的平均数
D.甲试验区产量的75%分位数大于乙试验区产量的中位数
【变式3-2】(多选)(25-26高二上·四川成都·期末)2025年9月20日,四川省城市足球联赛(简称“川超”)开幕式暨揭幕战观众达21448人.为了解各年龄层对“川超”的关注程度,随机选取了200名年龄在[10,50]的观众进行调查,并绘制如下的频率分布直方图,则( )
A.
B.该场观众年龄众数的估计值为35
C.该场观众年龄分位数的估计值为36
D.该场观众年龄平均数的估计值为34
【变式3-3】(多选)(2026·河北沧州·一模)某科研单位对Deepseek的使用情况进行满意度问卷调查,在1000名用户的问卷(用户打分都在50分到100分之间)中随机抽取了100份,按分数进行分组(每组为左闭右开的区间),得到如图所示的频率分布直方图,则(同一组数据用该组区间的中点值为代表)( )

A.
B.由样本数据可估计1000名用户中打分在70分以下的有350人
C.估计这1000名用户问卷的得分的分位数为85
D.估计这1000名用户问卷的得分的平均数为75
易错点4 混淆函数关系和相关关系而出错
易错典题
【例4】(24-25高三上·江西南昌·训练)对两变量间的关系,下列论述正确的是( )
A.任何两个变量都具有相关关系
B.正方形的面积与该正方形的边长具有相关关系
C.农作物的产量与施化肥量之间是一种确定性关系
D.一个学生的数学成绩与物理成绩之间是一种非确定性的关系
【答案】D
【解析】对A:当两个变量之间具有确定关系时,两个变量之间是函数关系,而不是相关关系,所以A错误;
对B:正方形的面积与该正方形的边长之间是函数关系,所以B错误;(易错点)
若对概念不清,容易误以为此选项是相关关系
对C:农作物的产量与施化肥量之间是相关关系,是非确定性的关系,所以C错误;
对D:学生的数学成绩与物理成绩之间是相关关系,是非确定性的关系,所以D正确;
故选:D.
【错因分析】本题容易不能区分相关关系和函数关系的不同而出错.
知识混淆:把函数关系与相关关系当成同一类关系,分不清确定性与不确定性,做题时直接套用函数解析式处理相关关系,乱用公式导致错误.
概念模糊:不理解本质区别:函数关系是一一确定,相关关系是非确定的关联.只记住 “两个变量有关”,忽略是否唯一确定,概念边界不清.
望文生义:只看 “关系” 字面,以为只要两个变量有关就是函数关系,凭感觉判断,忽视 “确定对应” 与 “随机相关” 的关键差异.
避错攻略
【方法总结】相关关系与函数关系是不同的,相关关系是一种非确定的关系,函数关系是一种确定的关系,而且函数关系是一种因果关系,但相关关系不一定是因果关系,也可能是伴随关系.
【知识链接】1.相关关系的定义:两个变量有关系,但没有确切到可由其中一个去精确地决定另一个的程度,这种关系称为相关关系.
2.相关关系的分类
(1)按变量间的增减性分为正相关和负相关.
①正相关:当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势;
②负相关:当一个变量的值增加时,另一个变量的相应值呈现减少的趋势.
(2)按变量间是否有线性特征分为线性相关和非线性相关(曲线相关).
①线性相关:如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,我们称这两个变量线性相关;
②非线性相关或曲线相关:如果两个变量具有相关性,但不是线性相关,我们称这两个变量非线性相关或曲线相关.
3.相关关系的直观表示
散点图:为了直观描述成对样本数据的变化特征,把每对成对样本数据都用直角坐标系中的点表示出来,由这些点组成的统计图,叫做散点图.
举一反三
【变式4-1】(24-25高三上··全国·课后作业)下列变量之间的关系不是相关关系的是( )
A.光照时间与大棚内蔬菜的产量
B.某正方形的边长与此正方形的面积
C.举重运动员所能举起的最大重量与他的体重
D.人的身高与体重
【变式4-2】(多选)(2025高二·全国·专题练习)设某大学的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系.根据一组样本数据,用最小二乘法建立的经验回归方程为,则下列结论中正确的是( )
A.y与x具有正的线性相关关系
B.经验回归直线一定经过点
C.若该大学某女生身高增加2cm,则其体重约增加1.7kg
D.若该大学某女生身高为170cm,则可以判断其体重必为58.79kg
【变式4-3】(多选)(2026·湖南长沙·模拟预测)某市采用以旧换新,政府补贴的惠民政策促进消费,该市的某品牌手机门店2025年前六周的销量如下表:
周次 1 2 3 4 5 6
销量(台) 117 124 138 132 146 153
则( )
A.销量的平均数为135
B.销量的第40百分位数为124
C.由样本数据计算得样本相关系数为0.952,因此这两个变量y与x线性相关程度很强
D.经计算销量y关于周次x的经验回归方程为,则
易错点5 忽视回归直线与回归曲线方程的区别与联系
易错典题
【例5】(25-26高二上·全国·期末)红铃虫(Pectinophora gossypiella)是棉花的主要害虫之一,其产卵数与温度有关.现收集到一只红铃虫的产卵数(个)和温度()的8组观测数据,制成图1所示的散点图.现用两种模型①,②分别进行拟合,由此得到相应的回归方程并进行残差分析,进一步得到图2所示的残差图.
根据收集到的数据,计算得到如下值:
25 2.9 646 168 422688 50.4 70308
表中;;;
(1)根据残差图,比较模型①、②的拟合效果,哪种模型比较合适?
(2)根据(1)中所选择的模型,求出关于的回归方程.
附:对于一组数据,其回归直线的斜率和截距的最小二乘估计分别为,,
【解析】(1)模型①更合适.
模型①残差点比较均匀地落在水平的带状区域中,且带状区域的宽度比模型②带状宽度窄,
所以模型①的拟合精度更高,回归方程的预报精度相应就会越高,故选模型①比较合适.
(2)令与温度可以用线性回归方程来拟合,则.(易错点)
注意这里是非线性回归模型,需通过换元转化为线性回归模型求解
, ,
则关于的线性回归方程为,即,
产卵数关于温度的回归方程为.
【错因分析】求解本题失分的一个主要原因是错把回归曲线误认为是直线方程,二是在求解过程中计算失误.
知识混淆:分不清回归直线与回归曲线的适用条件与模型形式,将线性与非线性回归模型混用,错误地把曲线关系强行按直线方程求解,忽略变量变换步骤。
概念模糊:对回归模型的线性含义理解不清,只知道回归方程,不区分线性关系与非线性关系,不理解只有线性关系才能直接用回归直线公式。
望文生义:只看 “回归方程” 字面,默认所有回归都是直线,不看题目中变量关系是否为线性,直接套用直线公式,导致模型与数据不匹配。
避错攻略
【方法总结】在求回归曲线方程时一定要先判断回归曲线类型,若是非直线方程,就要转化为回归直线方程求解,在计算过程中要注意求回归系数的两个公式之间的相互转化.
常见的非线性回归模型:
(1)指数函数型(且,)
两边取自然对数,,即,
令,原方程变为,然后按线性回归模型求出,.
(2)对数函数型
令,原方程变为,然后按线性回归模型求出,.
(3)幂函数型
两边取常用对数,,即,
令,原方程变为,然后按线性回归模型求出,.
(4)二次函数型
令,原方程变为,然后按线性回归模型求出,.
(5)反比例函数型型
令,原方程变为,然后按线性回归模型求出,.
【知识链接】1、两个变量的线性相关
(1)正相关:在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关.
(2)负相关:在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关.
(3)线性相关关系、回归直线:如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.
2、回归分析与回归方程
(1)回归分析的定义:对具有相关关系的两个变量进行统计分析的一种常用方法.
(2)最小二乘法:使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法.
(3)回归方程:对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn),其回归方程的求法为
其中,,,(,)称为样本点的中心.
(3)相关系数
若相应于变量的取值,变量的观测值为,
则变量与的相关系数,
通常用来衡量与之间的线性关系的强弱,的范围为.
①当时,表示两个变量正相关;当时,表示两个变量负相关.
②越接近,表示两个变量的线性相关性越强;越接近,表示两个变量间几乎不存在线性相关关系.当时,所有数据点都在一条直线上.
③通常当时,认为两个变量具有很强的线性相关关系.
3、残差分析
对于预报变量,通过观测得到的数据称为观测值,通过回归方程得到的称为预测值,观测值减去预测值等于残差,称为相应于点的残差,即有.
残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.
(1)残差图:通过残差分析,残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,其中这样的带状区域的宽度越窄,说明模型拟合精确度越高;反之,不合适.
(2)通过残差平方和分析,如果残差平方和越小,则说明选用的模型的拟合效果越好;反之,不合适.
(3)相关指数:用相关指数来刻画回归的效果,其计算公式是:.
越接近于,说明残差的平方和越小,也表示回归的效果越好.
举一反三
【变式5-1】(2025高二·全国·专题练习)根据散点图,对两个具有非线性关系的相关变量x,y进行回归分析,设,利用最小二乘法,得到线性回归方程为,则下列说法中正确的是( )
A.变量y关于x的非线性回归曲线是轴对称图形
B.变量y关于x的非线性回归曲线是中心对称图形
C.当时,变量y的估计值取到最小值e
D.当时,变量y的估计值取到最大值
【变式5-2】(多选)(25-26高二下·山东枣庄·期末)某地新开了一条夜市街,每晚最多能接纳10万人.主办公司计划通过广告宣传提高客流量.通过调研,发现投入的广告费x与每晚客流量y存在如下关系:
x/万元 1 2 3 4 5
y/千人 5 6 8.1 9 14.5
附,,,,
令,,,.
现用曲线拟合变量x与y的相关关系,并利用一元线性回归模型求参数,的最小二乘估计,依所求回归方程C为预测依据,则( )
A.曲线C经过点
B.
C.若投入广告费9万元,则每晚客流量会超过夜市接纳能力
D.广告费每增加1万元,每晚客流量增加3000人
【变式5-3】(2025·河北·模拟预测)为了提高利润,某果园每年投入一定的资金,对种植、采摘、包装、宣传等环节进行改进.如图,这是2016年至2025年该果园每年的投资金额(单位:万元)与年利润增量(单位:万元)的散点图.
模型①由最小二乘法可求得与的经验回归方程为;
模型②由图中样本点的分布,可以认为样本点集中在曲线的附近,令,则,且有.
(1)根据所给的统计量,求模型②中关于的经验回归方程;
(2)已知2025年的投资金额为20万,年利润增量为40万,分析这两种模型在2025年时哪个模型的预报效果更好.
参考公式与数据:.
易错点6 求解独立性检验问题对的值理解不准确
易错典题
【例6】(25-26高二·全国·假期作业)随着国家三孩政策的全面放开,为了调查一线城市和非一线城市的三孩生育意愿,某机构用简单随机抽样方法从不同地区调查了100位育龄妇女,结果如表.
非一线 一线 总计
愿生 45 20 65
不愿生 13 22 35
总计 58 42 100
附表
0.025 0.010 0.001
5.024 6.635 10.828
由算得,,参照附表,得到的正确结论是( )
A.在犯错误的概率不超过0.001的前提下,认为“生育意愿与城市级别有关”
B.在犯错误的概率不超过0.025的前提下,认为“生育意愿与城市级别有关”
C.在犯错误的概率不超过0.01的前提下,认为“生育意愿与城市级别有关”
D.在犯错误的概率不超过0.01的前提下,认为“生育意愿与城市级别无关”
【答案】BC
【解析】依题意,,
所以在犯错误的概率不超过0.01的前提下认为“生育意愿与城市级别有关”.(易错点)
注意计算所得的的值需大于临界值
故选:BC
【错因分析】本题容易因对理解不准确而出错.
知识混淆:把独立性检验的 χ2 值与概率、相关系数混淆,错误认为 χ2 越大,两变量相关程度就越高,混淆 “独立性判断” 与 “相关性大小”。
概念模糊:不理解 χ2 是判断是否有关的统计量,只记公式不算临界值,不会用 χ2 与临界值比较来下结论,对 “有多大把握认为有关” 理解不清。
望文生义:看到 “独立” 就字面理解为完全没关系,把 “不独立” 直接当成 “有函数关系”,忽略统计上的关联与确定性关系的区别。
避错攻略
【方法总结】在实际问题中,独立性检验的结论仅是一种数学关系表述,得到的结论有一定的概率出错.在利用2×2列联表计算K2的值之前,先假设两个分类变量是无关的,最后再利用K2的值的大小对二者关系进行含概率的判断.
【知识链接】独立性检验
(1)分类变量:变量的不同“值”表示个体所属的不同类别,像这类变量称为分类变量.
(2)列联表:
①定义:列出的两个分类变量的频数表称为列联表.
②2×2列联表:假设有两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为2×2列联表
总计
总计
(3)独立性检验:计算随机变量利用的取值推断分类变量X和Y是否独立的方法称为χ2独立性检验.
0.10 0.05 0.010 0.005 0.001
2.706 3.841 6.635 7.879 10.828
举一反三
【变式6-1】(多选)(25-26·陕西汉中·一模)某人工智能研究实验室开发出一款全新的聊天机器人,该实验室对使用该款聊天机器人的120位用户进行调研,得到的调研数据如下表所示,则( )
年龄 周平均使用时间
超过4小时 不超过4小时 总计
不超过40岁 54 b 72
40岁以上 c d
总计 72 120
附:,.
(1)当时,没有充分的证据判断变量A,B有关联,可以认为变量A,B是没有关联的;
(2)当时,有90%的把握判断变量A,B有关联;
(3)当时,有99%的把握判断变量A,B有关联;
(4)当时,有99.9%的把握判断变量A,B有关联.
A.
B.用样本估计总体,每位使用该款聊天机器人的用户周平均使用时间超过4小时的概率为
C.没有99.9%的把握判断使用该款聊天机器人的用户周平均使用时间是否超过4小时与年龄有关
D.有99.9%的把握判断使用该款聊天机器人的用户周平均使用时间是否超过4小时与年龄有关
【变式6-2】(2025·湖南·一模)随着人工智能应用软件豆包、Kimi、DeepSeek陆续出现,AI成为各行各业创新应用的热门话题.某课题小组对本市各行业人群使用AI频率进行调查研究,下列说法正确的是(  )
A.甲同学根据调查数据,利用最小二乘法得到AI每周使用频次关于年龄的经验回归方程为,可以推断使用频次与年龄正相关且相关系数为0.2
B.乙同学开展了AI每周使用频次与年龄的相关性研究,经计算样本相关系数,可以推断两个变量正线性相关,且相关程度很强
C.丙同学研究性别因素是否影响AI使用频次,根据小概率值的独立性检验,计算得到,可以认为不同性别的AI使用频次有差异
D.丁同学得到经验回归方程①和②,通过决定系数来比较模型的拟合效果,经验回归方程①和②的分别约为0.731和0.997,因此经验回归方程②的刻画效果比经验回归方程①好很多
【变式6-3】(25-26高二上·陕西汉中·期末)某航天材料实验室要对比两种新型高温合金材料的性能稳定性,现有合金部件样本900件,合金部件样本500件,采用分层抽样抽取140件做耐热疲劳测试,以部件能承受1000次热循环不失效为合格标准,得到以下部分列联表:
单位:件
材料配方类型 耐热疲劳性能 合计
测试合格 测试不合格
配方材料试样 75
配方材料试样 20
合计 140
(1)请完成上述列联表;
(2)依据的独立性检验,能否认为不同的材料配方与耐热疲劳性能有关联?
附:,其中.
附表:
0.1 0.05 0.01 0.005 0.001
2.706 3.841 6.635 7.879 10.828
一、单选题
1.(25-26高二·全国·课后作业)下列两个变量间的关系,是相关关系的是( )
A.任意实数和它的平方 B.圆半径和圆的周长
C.正多边形的边数和内角度数之和 D.天空中的云量和下雨
2.(25-26高三上·云南昭通·期末)为了了解全校200名学生的年龄情况,从中抽取40名学生进行调查,被抽取的40名学生是( )
A.样本 B.个体 C.样本量 D.总体
3.(25-26高三上·福建厦门·月考)某校举行劳动技能大赛,统计了学生的比赛成绩,得到如图所示的频率分布直方图,若要的学生成绩不高于m,根据直方图估计,下列最接近m的是( )
A.83.3 B.85 C.86.7 D.88
4.(25-26高三上·全国·月考)某中学举办迎国庆歌咏比赛,邀请了七位评委,对一个选手打分后,得到一组互不相等的数据,去掉其中最高分与最低分得到的数据与原始数据一定相同的是( )
A.平均分 B.极差 C.标准差 D.中位数
5.(25-26高二下·辽宁·月考)用模型去拟合与的关系,令,得到关于的回归直线方程为,则( )
A.1 B.2 C.e D.2e
6.(25-26高三上·贵州遵义·期末)某实验室从“芯片算力,功耗控制,集成度,兼容性,稳定性”五个维度,对自研芯片,进行性能测评,评分结果的雷达图如下,则下列说法中正确的是( )
A.在“稳定性”维度,芯片的评分为4分
B.在“功耗控制”维度,芯片的评分高于芯片的评分
C.在“芯片算力”维度,芯片的评分低于芯片的评分
D.芯片的性能评分的波动性低于芯片的性能评分的波动性
7.(25-26高二下·辽宁大连·期中)下表为某外来生物物种入侵某河流生态后的前3个月繁殖数量(单位:百只)的数据,通过相关理论进行分析,知可用回归模型对与的关系进行拟合,则根据该回归模型,预测第7个月该物种的繁殖数量为( )
第个月 1 2 3
繁殖数量
A.百只 B.百只 C.百只 D.百只
8.(2026·辽宁大连·模拟预测)如图的列联表中,定义,易知越大越有利于结论“与有关系”.若当值大于常数时,有的把握认为与有关系,那么的值为( )
(已知,其中,)
总计
总计
A. B.
C. D.
二、多选题
9.(25-26高三上·山东淄博·期末)某校举行了交通安全知识主题演讲比赛,甲、乙两位同学演讲后,6位评委对甲、乙的演讲分别进行打分(满分10分),得到如图所示的折线统计图,则( )
A.若去掉最高分和最低分,则甲得分的中位数大于乙得分的中位数
B.甲得分的极差大于乙得分的极差
C.甲得分的上四分位数小于乙得分的上四分位数
D.甲得分的方差大于乙得分的方差
10.(25-26高二·全国·假期作业)随着国家三孩政策的全面放开,为了调查一线城市和非一线城市的三孩生育意愿,某机构用简单随机抽样方法从不同地区调查了100位育龄妇女,结果如表.
非一线 一线 总计
愿生 45 20 65
不愿生 13 22 35
总计 58 42 100
附表
0.025 0.010 0.001
5.024 6.635 10.828
由算得,,参照附表,得到的正确结论是( )
A.在犯错误的概率不超过0.001的前提下,认为“生育意愿与城市级别有关”
B.在犯错误的概率不超过0.025的前提下,认为“生育意愿与城市级别有关”
C.在犯错误的概率不超过0.01的前提下,认为“生育意愿与城市级别有关”
D.在犯错误的概率不超过0.01的前提下,认为“生育意愿与城市级别无关”
11.(2026·安徽淮北·一模)在一次科普知识竞赛中共有200名同学参赛,经过评判,这200名参赛者的得分都在之内,其得分的频率分布直方图如图所示,则( )
A. B.这200名参赛者得分的中位数为64
C.得分在内的频率为 D.得分在内的共有80人
三、填空题
12.(25-26高二上·云南玉溪·期末)已知一组数据:2,13,10,5,7,,13的平均数为8,则该组数据的中位数为 .
13.(25-26高二上·全国·随堂练习)某学校开展研究性学习活动,一组同学获得了下面的一组试验数据:
x 1.99 3 4 5.1 8
y 0.99 1.58 2.01 2.35 3.00
现有如下5个模拟函数:①;②;③;④;⑤,请从中选择一个模拟函数,使它能近似地反映这些数据的规律,应选 (填序号).
14.(2026·河北沧州·一模)设为方程的任意一组正整数解,分别为的平均数和中位数,记所有正整数解对应的值的算术平均数为,某班的数学老师张老师拟对全班35名学生进行奖励,取的几何平均值作为金额数给每个学生买同样的一件小礼品,则张老师需要付出的总金额数约为 .(注:,结果保留一位小数)
四、解答题
15.(2025·全国一卷·高考真题)为研究某疾病与超声波检查结果的关系,从做过超声波检查的人群中随机调查了1000人,得到如下列联表:
超声波检查结果组别 正常 不正常 合计
患该疾病 20 180 200
未患该疾病 780 20 800
合计 800 200 1000
(1)记超声波检查结果不正常者患该疾病的概率为p,求p的估计值;
(2)根据小概率值的独立性检验,分析超声波检查结果是否与患该疾病有关.
附,
0.050 0.010 0.001
3.841 6.635 10.828
16.(2025·上海·高考真题)2024年巴黎奥运会,中国获得了男子米混合泳接力金牌.以下是历届奥运会男子米混合泳接力项目冠军成绩记录(单位:秒),数据按照升序排列.
206.78 207.46 207.95 209.34 209.35
210.68 213.73 214.84 216.93 216.93
(1)求这组数据的极差与中位数;
(2)从这10个数据中任选3个,求恰有2个数据在211以上的概率;
(3)若比赛成绩y关于年份x的回归方程为,年份x的平均数为2006,预测2028年冠军队的成绩(精确到0.01秒).
17.(2025·湖南永州·模拟预测)某经济研究所为了解居民存款余额变化情况,对2009年至2024年居民存款余额进行统计分析,将2009年看成第1年,依次类推,得到第1~16年的居民存款余额(单位:万亿元)的散点图,如图所示:
(1)已知从2021年开始,居民存款余额超过100万亿元,若从2009年至2024年中任取2年,求这2年中恰有一年居民存款余额超过100万亿元的概率;
(2)由散点图知,和的关系可用经验回归模型进行拟合,求关于的经验回归方程.
参考数据:设,则.
参考公式:对于一组数据,其经验回归直线的斜率和截距的最小二乘估计分别为.
18.(25-26高二上·吉林长春·期末)某公司计划对未开通共享电动车的某市进行车辆投放,为了确定车辆投放量,对过去在其他城市的投放量情况以及年使用人次进行了统计,得到了投放量(单位:千辆)与年使用人次(单位:千次)的数据如下表所示,根据数据绘制投放量与年使用人次的散点图如图所示.
1 2 3 4 5 6 7
6 11 21 34 66 101 196
(1)观察散点图,可知两个变量不具有线性相关关系,拟用对数函数模型或指数函数模型对两个变量的关系进行拟合.请问哪个模型更适宜作为投放量与年使用人次的回归方程类型(给出判断即可,不必说明理由)?并求出关于的回归方程;
(2)公司为了测试共享电动车的性能,从所有同型号共享电动车中随机抽取100辆进行等距离骑行测试,骑行前对其中60台进行保养,测试结束后,有20台报废,其中保养过的共享电动车占比.请根据统计数据完成列联表,并根据小概率值的独立性检验,能否认为共享电动车是否报废与保养有关?
\ 保养 未保养 合计
报废 20
未报废
合计 60 100

62.14 1.54 2535 50.12 3.47
参考数据:.
参考公式:对于一组数据,其回归直线的斜率和截距的最小二乘估计公式分别为:
其中.
0.25 0.1 0.05 0.025 0.01 0.001
1.323 2.706 3.841 5.024 6.635 10.828
19.(25-26高三上·山东青岛·期末)青岛文旅为了解天气状况对景点旅游满意度的影响,分别于晴天和阴雨天在栈桥景点共调查了100位游客,调查结果如下表.
满意 不满意 合计
晴天 40
阴雨天 20
合计 70 100
(1)完善上述表格,并根据小概率值的独立性检验,能否认为天气状况对该景点旅游满意度有影响;
(2)从这100位游客中任选两人,在两人调查当天的天气状况一致的条件下,试求他们对该景点均满意的概率;
(3)天气多变,文旅部门根据以往数据,为游客发布如下天气信息:若第1天为晴天,则第2天为晴天的概率为,为阴雨天的概率为;若第1天为阴雨天,则第2天为阴雨天的概率为,为晴天的概率为.已知第1天是晴天.求第天仍是晴天的概率,并求前天晴天的天数的期望.
附录:,.
0.05 0.010 0.005
3.841 6.635 7.879
21世纪教育网(www.21cnjy.com)
21世纪教育网(www.21cnjy.com)专题15 统计与统计案例
易错点1 混淆总体与总体容量、样本与样本容量
易错典题
【例1】(25-26高二上·安徽·月考)某高中为了了解高一年级1200名学生的视力情况,抽查了其中200名学生的视力,并进行统计分析.下列叙述正确的是( )
A.上述调查属于普查 B.每名学生是总体的一个个体
C.200名学生的视力是总体的一个样本 D.1200名学生是总体
【答案】C
【解析】对于A,因为抽取一部分对象的调查方式是抽查,对全体对象进行研究的调查方式是普查,所以此调查为抽样调查,所以A错误;
对于B,每名学生的视力是总体的一个个体,所以B错误;
对于C,200名学生的视力是总体的一个样本,所以C正确;
对于D,1200名学生的视力是总体,所以D错误.(易错点)
本题中的考查对象是学生的视力,而不是学生
故选:C
【错因分析】这类考题容易混淆考查对象、样本以及样本容量而出错.
知识混淆:把总体和总体容量、样本和样本容量当成同一概念,分不清谁是研究对象集合、谁是数量,做题时直接替换使用,导致概念对应错误.
概念模糊:不明确定义,总体是考察对象全体,总体容量是总体个数;样本是抽取的部分个体,样本容量是样本个数,只记名称不记内涵.
望文生义:只看字面,把 “总体” 理解为总数,把 “样本” 当成样本数,忽略 “容量” 专指数量,凭语感乱用术语,造成表述与计算错误.
避错攻略
【方法总结】(1) 总体是指考察对象的全体,而总体容量是指总体的个数;(2)样本是指从总体中抽取的若干个个体组成的集合,而样本容量是指样本个体的数目,要注意二者的区别.
【知识链接】抽样调查
(1)总体:统计中所考察对象的某一数值指标的全体构成的集合称为总体.
(2)个体:构成总体的每一个元素叫做个体.
(3)样本:从总体中抽取若干个个体进行考察,这若干个个体所构成的集合叫做总体的一个样本,样本中个体的数目叫做样本容量.
举一反三
【变式1-1】(25-26高三上·河北沧州·期末)某校高中有42个班,每个班有50名学生,现从该校高中每班随机选派3名学生参加交通安全知识竞赛并统计参赛人员的成绩,则其样本量是( )
A.42 B.50 C.126 D.150
【答案】C
【解析】由题意可知样本量是.
故选:C
【变式1-2】(25-26高三上·天津河北·期末)为了了解某地参加计算机水平测试的5000名学生的成绩,从中抽取了200名学生进行调查分析.在这个问题中,被抽取的200名学生是( )
A.个体 B.样本 C.总体 D.样本量
【答案】B
【解析】被抽取的200名学生是样本.
故选:B.
【变式1-3】(25-26高三上·广东揭阳·期中)从某市参加升学考试的学生中随机抽查1000名学生的数学成绩进行统计分析,在这个问题中,下列说法正确的是( )
A.总体指的是该市参加升学考试的全体学生的数学成绩
B.样本是指1000名学生的数学成绩
C.样本量指的是1000名学生
D.个体指的是该市参加升学考试的每一名学生的数学成绩
【答案】ABD
【解析】总体指的是该市参加升学考试的全体学生的数学成绩,故A正确;
样本是指1000名学生的数学成绩,故B正确;样本量是1000,故C错误;
个体指的是该市参加升学考试的每一名学生的数学成绩,故D正确.
故选:ABD.
易错点2 求中位数、百分位数时忽略数据顺序
易错典题
【例2】(25-26高三上·湖北襄阳·月考)一组从小到大排列的数据:,,,,,,,,,若它们的百分位数是中位数的两倍,则的值为( )
A. B. C. D.
【答案】A
【解析】数据,,,,,,,,,已是由小到大的排列,数据共个(易错点),
求离散型数据的百分位数和中位数时,都要将数据先排序
中位数为第个与第个数据的平均值即中位数为,(易错点)
注意最中间有两个数时,中位数取其平均数
由,因此百分位数为第个与第个数据的平均值即,
得,
解得,
故选:A.
【错因分析】本题求解时容易忽略将数据从小到大排列而出错.
知识混淆:混淆中位数、百分位数的计算前提,把必须先排序和直接用原数据计算混为一谈,错误认为数据位置固定即可,忽略有序性是核心前提,导致结果完全错误.
概念模糊:不理解中位数、百分位数是数据从小到大排列后的位置特征值,只记公式不记步骤,跳过排序直接找位置,对 “中位”“百分位” 的有序内涵理解不清.
望文生义:只看 “中位”“位数” 字面,误以为是数据中间位置的数,不考虑数据乱序情况,直接按原始顺序计算,忽视 “先排后算” 的本质要求.
避错攻略
【方法总结】在求数据的中位数、百分数时,一定要先把数据从小到大排列,然后再根据中位数、百分数的定义进行求解.
【知识链接】1.众数、中位数、平均数
(1)众数:一组数据中出现次数最多的数叫众数,众数反应一组数据的多数水平.
(2)中位数:将一组数据按大小顺序依次排列,把处在最中间位置的一个数据(或最中间两个数据的平均数)叫做这组数据的中位数,中位数反应一组数据的中间水平.
(3)平均数:个样本数据的平均数为,反应一组数据的平均水平,公式变形:.
2.百分位数
(1)定义:一组数据的第百分位数是这样一个值,它使得这组数据中至少有的数据小于或等于这个值,且至少有的数据大于或等于这个值.
(2)计算一组个数据的的第百分位数的步骤
①按从小到大排列原始数据.
②计算.
③若不是整数而大于的比邻整数,则第百分位数为第项数据;若是整数,则第百分位数为第项与第项数据的平均数.
(3)四分位数:我们之前学过的中位数,相当于是第百分位数.在实际应用中,除了中位数外,常用的分位数还有第百分位数,第百分位数.这三个分位数把一组由小到大排列后的数据分成四等份,因此称为四分位数.
举一反三
【变式2-1】(2026·湖南湘潭·二模)现有一组数据2,4,5,2,3,6,8,4,5,则这组数据的第百分位数与中位数分别是( )
A.4,6 B.5,4 C.6,4 D.6,5
【答案】C
【解析】这组数据按照从小到大的顺序排列为2,2,3,4,4,5,5,6,8,
这组数据个数,中位数位置为,取第5个数,即为4,

这组数据的第百分位数取第8个数,即为6,
这组数据的第百分位数与中位数分别是6和4,故C正确.
故选:C.
【变式2-2】(2026·河北衡水·模拟预测)某中学举行主题为“弘扬传统文化,传承中华美德”的演讲比赛,现随机抽选10名参赛选手,获得他们出场顺序的数据,将这组数据从小到大排序为,17,18,若该组数据的中位数是极差的,则m的值为( )
A.9 B.10 C.11 D.12
【答案】B
【解析】依题意,该组数据的中位数为,极差为,
由该组数据的中位数是极差的,得,所以.
故选:B
【变式2-3】(25-26高三上·重庆沙坪坝·月考)已知四个正整数满足,且 的平均数和中位数都为5,则可能的取值情况总数是( )
A.7 B.9 C.10 D.12
【答案】C
【解析】由题意,,
则,且,
则可能的取值情况为:;;;;;
;;;;,共10种情况.
故选:C
易错点3 对频率分布直方图中的数据特征理解不透
易错典题
【例3】(多选)(25-26高三上·江西上饶·期末)上饶市某学校从高一的800名男生中随机抽取50名测量身高,被测学生身高全部介于155cm和之间,将测量结果按如下方式分成八组:第一组,第二组, ,第八组.下图是按上述分组方法得到的频率分布直方图的一部分,已知第一组与第八组人数相同,第六组的人数为4人.以下说法正确的是( )

A.第二组的频率为0.016
B.第七组的频率为0.06
C.估计该校高一800名男生的身高的中位数约为
D.估计该校高一800名男生的身高的平均数约为
【答案】BCD
【解析】对于A,第二组的频率为,故A错误(易错点);
注意频率分布直方图中频率为矩形的面积,而不是矩形的高
对于B,由题意得第六组人数为4人,则有第六组的频率为,纵坐标为0.016,
所以第七组的满足,故B正确;
对于C,由直方图得,身高在第一组的频率为,
身高在第二组的频率为,
身高在第三组的频率为,
身高在第四组的频率为,
由于,,
设这所学校高一800名男生的身高中位数为,则,
则有,解得,故C正确;(易错点)
中位数左侧各矩形面积之和为0.5,而不是高之和为0.5
对于D,设这所学校高一800名男生的身高平均数为,
身高在第五组的频率为,
身高在第六组的频率为,
身高在第七组的频率为,
身高在第八组的频率为,
则有,
故D正确.
故选:BCD.
【错因分析】本题在计算过程中容易对中位数、百分位数、众数、平均数估计值的计算公式理解不透彻而出错.
知识混淆:把频率分布直方图的 纵轴(频率 / 组距)当成频率,混淆面积与高度的意义,错用纵轴数值直接计算频率、频数,与一般统计图的用法混淆.
概念模糊:不清楚中位数、平均数在直方图中的几何意义,只记公式不理解原理,不会用面积等分找中位数,不会用组中值加权算平均数.
望文生义:只看 “频率”“分布” 字面,以为越高代表数据越多,忽略面积才代表频率,直接用最高矩形判断集中趋势,理解片面.
避错攻略
【方法总结】利用频率分布直方图求众数、中位数与平均数时,易出错,应注意区分这三者.在频率分布直方图中:
(1)最高的小长方形底边中点的横坐标即是众数;
(2)中位数左边和右边的小长方形的面积和是相等的;
(3)平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面积乘以小长方形底边中点的横坐标之和.
【知识链接】1、画频数分布直方图与频率分布直方图的步骤:
(1)找出最值,计算极差;
(2)合理分组,确定区间;
(3)整理数据;
(4)作出相关图示;
频数分布直方图 纵坐标是频数,每一组数对应的矩形的高度与频数成正比
频率分布直方图 纵坐标是频率/组距,每一组数对应的矩形高度与频率成正比,每个矩形的面积等于这一组数对应的频率,所有矩形的面积之和为1
2、频率分布表与频率分布直方图的特点
频数分布表反映具体数据在各个不同区间的取值频率,但不直观,数据的总体态势不明显;频率分布直方图能直观地表明数据分布的行状态势,但失去了原始数据.
3、频数分布折线图和频率分布折线图
把频数分布直方图和频率分布直方图中每个矩形上面一边的中点用线段连接起来.
为了方便看图,折线图都画成与横轴相交,所以折线图与横轴的左右两个交点是没有实际意义的.
4.频率分布直方图中的统计参数
(1)频率分布直方图中的“众数”
根据众数的意义可知,在频率分布直方图中最高矩形中的某个(些)点的横坐标为这组数据的众数.一般用
中点近似代替.
(2)频率分布直方图中的“中位数”
根据中位数的意义,在样本中,有50%的个体小于或等于中位数,也有50%的个体大于或等于中位数.
因此,在频率分布直方图中,中位数左边和右边的直方图的面积应该相等,由此可估计中位数的值.
(3)频率分布直方图中的“平均数”
平均数是频率分布直方图的“重心”.因为平均数可以表示为数据与它的频率的乘积之和,所以在频率分
布直方图中,样本平均数可以用每个小矩形底边中点的横坐标与小矩形的面积的乘积之和近似代替.
举一反三
【变式3-1】(多选)(25-26高三上·浙江宁波·期末)海水养殖场进行某水产品两种养殖方法的产量对比,甲试验区选择第一种养殖方法,乙试验区选择第二种养殖方法.收获时,从两个试验区各随机抽取了100个网箱,测量各箱水产品的产量(单位:千克),其频率分布直方图如下图所示.
记事件C=“乙试验区产量不低于19千克”,根据直方图得到的估计值为0.70,则( )
A.乙试验区产量频率分布直方图中,
B.甲试验区产量的众数大于乙试验区产量的众数
C.甲试验区产量的平均数小于乙试验区产量的平均数
D.甲试验区产量的75%分位数大于乙试验区产量的中位数
【答案】AC
【解析】对于A,记事件C=“乙试验区产量不低于19千克”,根据直方图得到的估计值为0.70,
则,
解得,A正确;
对于B,甲试验区产量的众数为,乙试验区产量的众数为,
甲试验区产量的众数小于乙试验区产量的众数,B错误;
对于C,甲试验区产量的平均数为
乙试验区产量的平均数为
甲试验区产量的平均数小于乙试验区产量的平均数,C正确;
对于D,设甲试验区产量的75%分位数为,则,
解得
设乙试验区产量的中位数为,则,解得
甲试验区产量的75%分位数小于乙试验区产量的中位数,D错误;
故选:AC.
【变式3-2】(多选)(25-26高二上·四川成都·期末)2025年9月20日,四川省城市足球联赛(简称“川超”)开幕式暨揭幕战观众达21448人.为了解各年龄层对“川超”的关注程度,随机选取了200名年龄在[10,50]的观众进行调查,并绘制如下的频率分布直方图,则( )
A.
B.该场观众年龄众数的估计值为35
C.该场观众年龄分位数的估计值为36
D.该场观众年龄平均数的估计值为34
【答案】ABD
【解析】对于A,,故A正确;
对于B,高度最高矩形的底边中点对应横坐标为35,即众数为35,故B正确;
对于C,所求即为中位数,前2个矩形面积之和为,
前3个矩形面积之和为,则中位数在30到40之间.
设中位数为,则,即中位数为35,故C错误;
对于D,平均数为,
故D正确.
故选:ABD
【变式3-3】(多选)(2026·河北沧州·一模)某科研单位对Deepseek的使用情况进行满意度问卷调查,在1000名用户的问卷(用户打分都在50分到100分之间)中随机抽取了100份,按分数进行分组(每组为左闭右开的区间),得到如图所示的频率分布直方图,则(同一组数据用该组区间的中点值为代表)( )

A.
B.由样本数据可估计1000名用户中打分在70分以下的有350人
C.估计这1000名用户问卷的得分的分位数为85
D.估计这1000名用户问卷的得分的平均数为75
【答案】ABC
【解析】对于A,由题可得,
故A正确;
对于B,由A分析,打分在分以下对应频率为:,则对应人数为:,故B正确;
对于C,前3个矩形面积之和为:,
前4个矩形面积之和为:,
则分位数在到90之间,设为,则,
故C正确;
对于D,平均数为:
,故D错误.
故选:ABC
易错点4 混淆函数关系和相关关系而出错
易错典题
【例4】(24-25高三上·江西南昌·训练)对两变量间的关系,下列论述正确的是( )
A.任何两个变量都具有相关关系
B.正方形的面积与该正方形的边长具有相关关系
C.农作物的产量与施化肥量之间是一种确定性关系
D.一个学生的数学成绩与物理成绩之间是一种非确定性的关系
【答案】D
【解析】对A:当两个变量之间具有确定关系时,两个变量之间是函数关系,而不是相关关系,所以A错误;
对B:正方形的面积与该正方形的边长之间是函数关系,所以B错误;(易错点)
若对概念不清,容易误以为此选项是相关关系
对C:农作物的产量与施化肥量之间是相关关系,是非确定性的关系,所以C错误;
对D:学生的数学成绩与物理成绩之间是相关关系,是非确定性的关系,所以D正确;
故选:D.
【错因分析】本题容易不能区分相关关系和函数关系的不同而出错.
知识混淆:把函数关系与相关关系当成同一类关系,分不清确定性与不确定性,做题时直接套用函数解析式处理相关关系,乱用公式导致错误.
概念模糊:不理解本质区别:函数关系是一一确定,相关关系是非确定的关联.只记住 “两个变量有关”,忽略是否唯一确定,概念边界不清.
望文生义:只看 “关系” 字面,以为只要两个变量有关就是函数关系,凭感觉判断,忽视 “确定对应” 与 “随机相关” 的关键差异.
避错攻略
【方法总结】相关关系与函数关系是不同的,相关关系是一种非确定的关系,函数关系是一种确定的关系,而且函数关系是一种因果关系,但相关关系不一定是因果关系,也可能是伴随关系.
【知识链接】1.相关关系的定义:两个变量有关系,但没有确切到可由其中一个去精确地决定另一个的程度,这种关系称为相关关系.
2.相关关系的分类
(1)按变量间的增减性分为正相关和负相关.
①正相关:当一个变量的值增加时,另一个变量的相应值也呈现增加的趋势;
②负相关:当一个变量的值增加时,另一个变量的相应值呈现减少的趋势.
(2)按变量间是否有线性特征分为线性相关和非线性相关(曲线相关).
①线性相关:如果两个变量的取值呈现正相关或负相关,而且散点落在一条直线附近,我们称这两个变量线性相关;
②非线性相关或曲线相关:如果两个变量具有相关性,但不是线性相关,我们称这两个变量非线性相关或曲线相关.
3.相关关系的直观表示
散点图:为了直观描述成对样本数据的变化特征,把每对成对样本数据都用直角坐标系中的点表示出来,由这些点组成的统计图,叫做散点图.
举一反三
【变式4-1】(24-25高三上··全国·课后作业)下列变量之间的关系不是相关关系的是( )
A.光照时间与大棚内蔬菜的产量
B.某正方形的边长与此正方形的面积
C.举重运动员所能举起的最大重量与他的体重
D.人的身高与体重
【答案】B
【解析】B中的两个变量之间是确定的函数关系,A,C,D中的两个变量之间的关系都是相关关系.故选:B.
【变式4-2】(多选)(2025高二·全国·专题练习)设某大学的女生体重y(单位:kg)与身高x(单位:cm)具有线性相关关系.根据一组样本数据,用最小二乘法建立的经验回归方程为,则下列结论中正确的是( )
A.y与x具有正的线性相关关系
B.经验回归直线一定经过点
C.若该大学某女生身高增加2cm,则其体重约增加1.7kg
D.若该大学某女生身高为170cm,则可以判断其体重必为58.79kg
【答案】ABC
【解析】由经验回归方程为知,y随x的增大而增大,所以y与x具有正相关关系,故A正确.
由最小二乘法建立回归方程的过程知,经验回归直线一定经过样本中心点,故B正确.
利用经验回归方程可以估计因变量,但只是预测值,故C正确,D不正确,
故选:ABC
【变式4-3】(多选)(2026·湖南长沙·模拟预测)某市采用以旧换新,政府补贴的惠民政策促进消费,该市的某品牌手机门店2025年前六周的销量如下表:
周次 1 2 3 4 5 6
销量(台) 117 124 138 132 146 153
则( )
A.销量的平均数为135
B.销量的第40百分位数为124
C.由样本数据计算得样本相关系数为0.952,因此这两个变量y与x线性相关程度很强
D.经计算销量y关于周次x的经验回归方程为,则
【答案】ACD
【解析】对于A,销量的平均数,A正确;
对于B,将销量按升序排列得117,124,132,138,146,153,由,得销量的第40百分位数是132,B错误;
对于C,样本相关系数为0.952,它很接近1,因此这两个变量y与x线性相关程度很强,C正确;
对于D,周次的平均数,回归方程过样本中心
点,即,解得,D正确.
故选:ACD.
易错点5 忽视回归直线与回归曲线方程的区别与联系
易错典题
【例5】(25-26高二上·全国·期末)红铃虫(Pectinophora gossypiella)是棉花的主要害虫之一,其产卵数与温度有关.现收集到一只红铃虫的产卵数(个)和温度()的8组观测数据,制成图1所示的散点图.现用两种模型①,②分别进行拟合,由此得到相应的回归方程并进行残差分析,进一步得到图2所示的残差图.
根据收集到的数据,计算得到如下值:
25 2.9 646 168 422688 50.4 70308
表中;;;
(1)根据残差图,比较模型①、②的拟合效果,哪种模型比较合适?
(2)根据(1)中所选择的模型,求出关于的回归方程.
附:对于一组数据,其回归直线的斜率和截距的最小二乘估计分别为,,
【解析】(1)模型①更合适.
模型①残差点比较均匀地落在水平的带状区域中,且带状区域的宽度比模型②带状宽度窄,
所以模型①的拟合精度更高,回归方程的预报精度相应就会越高,故选模型①比较合适.
(2)令与温度可以用线性回归方程来拟合,则.(易错点)
注意这里是非线性回归模型,需通过换元转化为线性回归模型求解
, ,
则关于的线性回归方程为,即,
产卵数关于温度的回归方程为.
【错因分析】求解本题失分的一个主要原因是错把回归曲线误认为是直线方程,二是在求解过程中计算失误.
知识混淆:分不清回归直线与回归曲线的适用条件与模型形式,将线性与非线性回归模型混用,错误地把曲线关系强行按直线方程求解,忽略变量变换步骤。
概念模糊:对回归模型的线性含义理解不清,只知道回归方程,不区分线性关系与非线性关系,不理解只有线性关系才能直接用回归直线公式。
望文生义:只看 “回归方程” 字面,默认所有回归都是直线,不看题目中变量关系是否为线性,直接套用直线公式,导致模型与数据不匹配。
避错攻略
【方法总结】在求回归曲线方程时一定要先判断回归曲线类型,若是非直线方程,就要转化为回归直线方程求解,在计算过程中要注意求回归系数的两个公式之间的相互转化.
常见的非线性回归模型:
(1)指数函数型(且,)
两边取自然对数,,即,
令,原方程变为,然后按线性回归模型求出,.
(2)对数函数型
令,原方程变为,然后按线性回归模型求出,.
(3)幂函数型
两边取常用对数,,即,
令,原方程变为,然后按线性回归模型求出,.
(4)二次函数型
令,原方程变为,然后按线性回归模型求出,.
(5)反比例函数型型
令,原方程变为,然后按线性回归模型求出,.
【知识链接】1、两个变量的线性相关
(1)正相关:在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关.
(2)负相关:在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关.
(3)线性相关关系、回归直线:如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.
2、回归分析与回归方程
(1)回归分析的定义:对具有相关关系的两个变量进行统计分析的一种常用方法.
(2)最小二乘法:使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法.
(3)回归方程:对于一组具有线性相关关系的数据(x1,y1),(x2,y2),…,(xn,yn),其回归方程的求法为
其中,,,(,)称为样本点的中心.
(3)相关系数
若相应于变量的取值,变量的观测值为,
则变量与的相关系数,
通常用来衡量与之间的线性关系的强弱,的范围为.
①当时,表示两个变量正相关;当时,表示两个变量负相关.
②越接近,表示两个变量的线性相关性越强;越接近,表示两个变量间几乎不存在线性相关关系.当时,所有数据点都在一条直线上.
③通常当时,认为两个变量具有很强的线性相关关系.
3、残差分析
对于预报变量,通过观测得到的数据称为观测值,通过回归方程得到的称为预测值,观测值减去预测值等于残差,称为相应于点的残差,即有.
残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.
(1)残差图:通过残差分析,残差点比较均匀地落在水平的带状区域中,说明选用的模型比较合适,其中这样的带状区域的宽度越窄,说明模型拟合精确度越高;反之,不合适.
(2)通过残差平方和分析,如果残差平方和越小,则说明选用的模型的拟合效果越好;反之,不合适.
(3)相关指数:用相关指数来刻画回归的效果,其计算公式是:.
越接近于,说明残差的平方和越小,也表示回归的效果越好.
举一反三
【变式5-1】(2025高二·全国·专题练习)根据散点图,对两个具有非线性关系的相关变量x,y进行回归分析,设,利用最小二乘法,得到线性回归方程为,则下列说法中正确的是( )
A.变量y关于x的非线性回归曲线是轴对称图形
B.变量y关于x的非线性回归曲线是中心对称图形
C.当时,变量y的估计值取到最小值e
D.当时,变量y的估计值取到最大值
【答案】AD
【解析】将代入线性回归方程,
得,即,故回归曲线关于直线轴对称;
当时,取到最大值2,因为在R上单调递增,则取到最大值.
故选:AD
【变式5-2】(多选)(25-26高二下·山东枣庄·期末)某地新开了一条夜市街,每晚最多能接纳10万人.主办公司计划通过广告宣传提高客流量.通过调研,发现投入的广告费x与每晚客流量y存在如下关系:
x/万元 1 2 3 4 5
y/千人 5 6 8.1 9 14.5
附,,,,
令,,,.
现用曲线拟合变量x与y的相关关系,并利用一元线性回归模型求参数,的最小二乘估计,依所求回归方程C为预测依据,则( )
A.曲线C经过点
B.
C.若投入广告费9万元,则每晚客流量会超过夜市接纳能力
D.广告费每增加1万元,每晚客流量增加3000人
【答案】BC
【解析】由题可知,令,,,

所以,
,故B正确;
所以,
令,,
所以曲线C不经过点,故A错误;
当时,千人,
所以若投入广告费9万元,则每晚客流量为万人,
因为每晚最多能接纳10万人,所以会超过夜市接纳能力,故C正确;
由可知,当时,,
所以当广告费从5万元增加到6万元,客流量增加千人,故D错误.
故选:BC
【变式5-3】(2025·河北·模拟预测)为了提高利润,某果园每年投入一定的资金,对种植、采摘、包装、宣传等环节进行改进.如图,这是2016年至2025年该果园每年的投资金额(单位:万元)与年利润增量(单位:万元)的散点图.
模型①由最小二乘法可求得与的经验回归方程为;
模型②由图中样本点的分布,可以认为样本点集中在曲线的附近,令,则,且有.
(1)根据所给的统计量,求模型②中关于的经验回归方程;
(2)已知2025年的投资金额为20万,年利润增量为40万,分析这两种模型在2025年时哪个模型的预报效果更好.
参考公式与数据:.
【解析】(1)由,得,
则,,
所以模型②中关于的经验回归方程为.
(2)模型①,,当时,年利润增量,
模型②,,当时,,
因此年利润增量,而,
所以模型②的预报效果更好.
易错点6 求解独立性检验问题对的值理解不准确
易错典题
【例6】(25-26高二·全国·假期作业)随着国家三孩政策的全面放开,为了调查一线城市和非一线城市的三孩生育意愿,某机构用简单随机抽样方法从不同地区调查了100位育龄妇女,结果如表.
非一线 一线 总计
愿生 45 20 65
不愿生 13 22 35
总计 58 42 100
附表
0.025 0.010 0.001
5.024 6.635 10.828
由算得,,参照附表,得到的正确结论是( )
A.在犯错误的概率不超过0.001的前提下,认为“生育意愿与城市级别有关”
B.在犯错误的概率不超过0.025的前提下,认为“生育意愿与城市级别有关”
C.在犯错误的概率不超过0.01的前提下,认为“生育意愿与城市级别有关”
D.在犯错误的概率不超过0.01的前提下,认为“生育意愿与城市级别无关”
【答案】BC
【解析】依题意,,
所以在犯错误的概率不超过0.01的前提下认为“生育意愿与城市级别有关”.(易错点)
注意计算所得的的值需大于临界值
故选:BC
【错因分析】本题容易因对理解不准确而出错.
知识混淆:把独立性检验的 χ2 值与概率、相关系数混淆,错误认为 χ2 越大,两变量相关程度就越高,混淆 “独立性判断” 与 “相关性大小”。
概念模糊:不理解 χ2 是判断是否有关的统计量,只记公式不算临界值,不会用 χ2 与临界值比较来下结论,对 “有多大把握认为有关” 理解不清。
望文生义:看到 “独立” 就字面理解为完全没关系,把 “不独立” 直接当成 “有函数关系”,忽略统计上的关联与确定性关系的区别。
避错攻略
【方法总结】在实际问题中,独立性检验的结论仅是一种数学关系表述,得到的结论有一定的概率出错.在利用2×2列联表计算K2的值之前,先假设两个分类变量是无关的,最后再利用K2的值的大小对二者关系进行含概率的判断.
【知识链接】独立性检验
(1)分类变量:变量的不同“值”表示个体所属的不同类别,像这类变量称为分类变量.
(2)列联表:
①定义:列出的两个分类变量的频数表称为列联表.
②2×2列联表:假设有两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为2×2列联表
总计
总计
(3)独立性检验:计算随机变量利用的取值推断分类变量X和Y是否独立的方法称为χ2独立性检验.
0.10 0.05 0.010 0.005 0.001
2.706 3.841 6.635 7.879 10.828
举一反三
【变式6-1】(多选)(25-26·陕西汉中·一模)某人工智能研究实验室开发出一款全新的聊天机器人,该实验室对使用该款聊天机器人的120位用户进行调研,得到的调研数据如下表所示,则( )
年龄 周平均使用时间
超过4小时 不超过4小时 总计
不超过40岁 54 b 72
40岁以上 c d
总计 72 120
附:,.
(1)当时,没有充分的证据判断变量A,B有关联,可以认为变量A,B是没有关联的;
(2)当时,有90%的把握判断变量A,B有关联;
(3)当时,有99%的把握判断变量A,B有关联;
(4)当时,有99.9%的把握判断变量A,B有关联.
A.
B.用样本估计总体,每位使用该款聊天机器人的用户周平均使用时间超过4小时的概率为
C.没有99.9%的把握判断使用该款聊天机器人的用户周平均使用时间是否超过4小时与年龄有关
D.有99.9%的把握判断使用该款聊天机器人的用户周平均使用时间是否超过4小时与年龄有关
【答案】BD
【解析】不超过40岁且周平均使用时间不超过4小时的;
40岁以上且周平均使用时间超过4小时的;
40岁以上的总计为,
故40岁以上且周平均使用时间不超过4小时的.
选项A:,A错误;
选项B:周平均使用时间超过4小时的样本数为72,
总样本数120,概率为,B正确;
年龄 周平均使用时间
超过4小时 不超过4小时 总计
不超过40岁 54 18 72
40岁以上 18 30 48
总计 72 48 120

因,
故有99.9%的把握判断使用该款聊天机器人的用户周平均使用时间是否超过4小时与年龄有关.
所以C选项错误,D选项正确.
故选:BD
【变式6-2】(2025·湖南·一模)随着人工智能应用软件豆包、Kimi、DeepSeek陆续出现,AI成为各行各业创新应用的热门话题.某课题小组对本市各行业人群使用AI频率进行调查研究,下列说法正确的是(  )
A.甲同学根据调查数据,利用最小二乘法得到AI每周使用频次关于年龄的经验回归方程为,可以推断使用频次与年龄正相关且相关系数为0.2
B.乙同学开展了AI每周使用频次与年龄的相关性研究,经计算样本相关系数,可以推断两个变量正线性相关,且相关程度很强
C.丙同学研究性别因素是否影响AI使用频次,根据小概率值的独立性检验,计算得到,可以认为不同性别的AI使用频次有差异
D.丁同学得到经验回归方程①和②,通过决定系数来比较模型的拟合效果,经验回归方程①和②的分别约为0.731和0.997,因此经验回归方程②的刻画效果比经验回归方程①好很多
【答案】BD
【解析】A选项:在经验回归方程中,斜率参数,只能说明使用频次与年龄正相关,但相关系数不是0.2,故A错误;
B选项:样本相关系数的绝对值越接近于1,两个变量的线性相关性越强,,说明两个变量正线性相关,且相关程度很强,故B正确;
C选项:根据小概率值的独立性检验,计算得到,没有充分证据证明不同性别的AI使用频次有差异,故C错误;
D选项:决定系数越接近于1,模型的拟合效果越好,经验回归方程①和②的分别约为0.731和0.997,因此经验回归方程②的刻画效果比经验回归方程①好.
故选:BD.
【变式6-3】(25-26高二上·陕西汉中·期末)某航天材料实验室要对比两种新型高温合金材料的性能稳定性,现有合金部件样本900件,合金部件样本500件,采用分层抽样抽取140件做耐热疲劳测试,以部件能承受1000次热循环不失效为合格标准,得到以下部分列联表:
单位:件
材料配方类型 耐热疲劳性能 合计
测试合格 测试不合格
配方材料试样 75
配方材料试样 20
合计 140
(1)请完成上述列联表;
(2)依据的独立性检验,能否认为不同的材料配方与耐热疲劳性能有关联?
附:,其中.
附表:
0.1 0.05 0.01 0.005 0.001
2.706 3.841 6.635 7.879 10.828
【解析】(1)由已知合金部件应抽取件,合金部件应抽取件,
由此可得列联表如下:
材料配方类型 耐热疲劳性能 合计
测试合格 测试不合格
配方材料试样 75 15 90
配方材料试样 30 20 50
合计 105 35 140
(2)零假设为:材料配方与耐热疲劳性能无关联,
根据列联表数据,经计算得,
根据小概率值的独立性检验,我们推断不成立,
即认为材料配方与耐热疲劳性能有关联,此推断犯错误的概率不大于.
一、单选题
1.(25-26高二·全国·课后作业)下列两个变量间的关系,是相关关系的是( )
A.任意实数和它的平方 B.圆半径和圆的周长
C.正多边形的边数和内角度数之和 D.天空中的云量和下雨
【答案】D
【解析】对于ABC,两个变量之间为确定性关系,即两个变量之间均为函数关系,ABC错误;
对于D,根据生活经验,天空中的云量和下雨之间不是确定性关系,虽然有云不一定下雨,但是如果没有云一定不下雨,说明它们之间是相关关系,D正确.
故选:D.
2.(25-26高三上·云南昭通·期末)为了了解全校200名学生的年龄情况,从中抽取40名学生进行调查,被抽取的40名学生是( )
A.样本 B.个体 C.样本量 D.总体
【答案】A
【解析】根据定义,被抽取的40名学生是样本.
故选:A.
3.(25-26高三上·福建厦门·月考)某校举行劳动技能大赛,统计了学生的比赛成绩,得到如图所示的频率分布直方图,若要的学生成绩不高于m,根据直方图估计,下列最接近m的是( )
A.83.3 B.85 C.86.7 D.88
【答案】C
【解析】由频率分布直方图,得,解得,
比赛成绩在的频率为,
比赛成绩在的频率为,
因此比赛成绩的第85百分位数,,
解得,所以最接近m的是86.7.
故选:C
4.(25-26高三上·全国·月考)某中学举办迎国庆歌咏比赛,邀请了七位评委,对一个选手打分后,得到一组互不相等的数据,去掉其中最高分与最低分得到的数据与原始数据一定相同的是( )
A.平均分 B.极差 C.标准差 D.中位数
【答案】D
【解析】由题意不妨设,
对于A,平均分可能变大、可能变小、可能不变,故A错误;
对于B,原始数据极差为,去掉其中最高分与最低分得到的数据极差为,
因为所以,故极差变小,故B错误;
对于C,去掉最高分和最低分后,数据的离散程度变小,故标准差变小,故C错误;
对于D,原始数据中位数为,去掉其中最高分与最低分得到的数据中位数仍为,故中位数不变,故D正确.
故选:D.
5.(25-26高二下·辽宁·月考)用模型去拟合与的关系,令,得到关于的回归直线方程为,则( )
A.1 B.2 C.e D.2e
【答案】C
【解析】,所以.
故选:C.
6.(25-26高三上·贵州遵义·期末)某实验室从“芯片算力,功耗控制,集成度,兼容性,稳定性”五个维度,对自研芯片,进行性能测评,评分结果的雷达图如下,则下列说法中正确的是( )
A.在“稳定性”维度,芯片的评分为4分
B.在“功耗控制”维度,芯片的评分高于芯片的评分
C.在“芯片算力”维度,芯片的评分低于芯片的评分
D.芯片的性能评分的波动性低于芯片的性能评分的波动性
【答案】D
【解析】由雷达图可知,在“稳定性”维度,芯片的评分为8分,故A错误;
在“功耗控制”维度,芯片的评分与芯片的评分相同,故B错误;
在“芯片算力”维度,芯片的评分高于芯片的评分,故C错误;
由雷达图,芯片的各项性能评分比较均衡,其波动性低于芯片的性能评分的波动性,故D正确.
故选:D
7.(25-26高二下·辽宁大连·期中)下表为某外来生物物种入侵某河流生态后的前3个月繁殖数量(单位:百只)的数据,通过相关理论进行分析,知可用回归模型对与的关系进行拟合,则根据该回归模型,预测第7个月该物种的繁殖数量为( )
第个月 1 2 3
繁殖数量
A.百只 B.百只 C.百只 D.百只
【答案】B
【解析】由两边取自然对数得,令,
则,即与呈线性相关关系,
,,
回归直线必过样本点的中心,,解得,
,则,当时,.
故选:B
8.(2026·辽宁大连·模拟预测)如图的列联表中,定义,易知越大越有利于结论“与有关系”.若当值大于常数时,有的把握认为与有关系,那么的值为( )
(已知,其中,)
总计
总计
A. B.
C. D.
【答案】A
【解析】当有的把握认为与有关系,则,故,
此时临界条件为,此时对应的刚好为,
即此时,即,
故,则,
故,
故选:A
二、多选题
9.(25-26高三上·山东淄博·期末)某校举行了交通安全知识主题演讲比赛,甲、乙两位同学演讲后,6位评委对甲、乙的演讲分别进行打分(满分10分),得到如图所示的折线统计图,则( )
A.若去掉最高分和最低分,则甲得分的中位数大于乙得分的中位数
B.甲得分的极差大于乙得分的极差
C.甲得分的上四分位数小于乙得分的上四分位数
D.甲得分的方差大于乙得分的方差
【答案】ABD
【解析】甲、乙的得分从小到大排列如下:
甲:,乙:,
故去掉最高分和最低分可得甲的中位数为,乙的中位数为,故A正确;
甲的极差为,乙的极差为,故B正确;
,所以甲的第75百分位数为,乙的第75百分位数为,故C错误;
由图可以看出甲得分的波动比乙大,故甲得分的方差大于乙得分的方差,故D正确.
故选:ABD
10.(25-26高二·全国·假期作业)随着国家三孩政策的全面放开,为了调查一线城市和非一线城市的三孩生育意愿,某机构用简单随机抽样方法从不同地区调查了100位育龄妇女,结果如表.
非一线 一线 总计
愿生 45 20 65
不愿生 13 22 35
总计 58 42 100
附表
0.025 0.010 0.001
5.024 6.635 10.828
由算得,,参照附表,得到的正确结论是( )
A.在犯错误的概率不超过0.001的前提下,认为“生育意愿与城市级别有关”
B.在犯错误的概率不超过0.025的前提下,认为“生育意愿与城市级别有关”
C.在犯错误的概率不超过0.01的前提下,认为“生育意愿与城市级别有关”
D.在犯错误的概率不超过0.01的前提下,认为“生育意愿与城市级别无关”
【答案】BC
【分析】根据题目所给的数值进行判断.
【解析】依题意,,
所以在犯错误的概率不超过0.01的前提下认为“生育意愿与城市级别有关”.
故选:BC
11.(2026·安徽淮北·一模)在一次科普知识竞赛中共有200名同学参赛,经过评判,这200名参赛者的得分都在之内,其得分的频率分布直方图如图所示,则( )
A. B.这200名参赛者得分的中位数为64
C.得分在内的频率为 D.得分在内的共有80人
【答案】ACD
【分析】根据频率分布直方图中所有小矩形面积和为1,计算即可判断A的正误;根据直方图中位数的求法,代入计算,即可判断B的正误;根据直方图中矩形面积代表频率,即频率、频数、总数的关系,即可判断C、D的正误.
【解析】由题意有,解得,故A正确;
设中位数为,所以,解得,故B错误;
由题意得得分在内的频率为,故C正确;
由题意得得分在内的频率为,
则得分在内的共有人,故D正确.
故选:ACD.
三、填空题
12.(25-26高二上·云南玉溪·期末)已知一组数据:2,13,10,5,7,,13的平均数为8,则该组数据的中位数为 .
【答案】7
【解析】由已知可得,,解得.
将这组数据从小到大排列可得,2,5,6,7,10,13,13.
所以该组数据的中位数为7.
故答案为:7.
13.(25-26高二上·全国·随堂练习)某学校开展研究性学习活动,一组同学获得了下面的一组试验数据:
x 1.99 3 4 5.1 8
y 0.99 1.58 2.01 2.35 3.00
现有如下5个模拟函数:①;②;③;④;⑤,请从中选择一个模拟函数,使它能近似地反映这些数据的规律,应选 (填序号).
【答案】④
【解析】根据表中数据,画出图象如下:

通过图象可看出,能比较近似的反映这些数据的规律.
故答案为:④.
14.(2026·河北沧州·一模)设为方程的任意一组正整数解,分别为的平均数和中位数,记所有正整数解对应的值的算术平均数为,某班的数学老师张老师拟对全班35名学生进行奖励,取的几何平均值作为金额数给每个学生买同样的一件小礼品,则张老师需要付出的总金额数约为 .(注:,结果保留一位小数)
【答案】
【解析】由于,所以;
方程的正整数解总数可理解为:将个分成组,需要个隔板,则正整数解的组数为组,
不妨设这个数由小到大分别为,即则这三个数的 中位数为,
当时,则,,排列以后对应的组数为;
当时,则,,或,,排列以后对应的组数为;
当时,则,,或,,或,,排列以后对应的组数为;
当时,则,,排列以后对应的组数为;
故其中中位数为1,2,3,4的分别有3,9,13,3组,
所以,所以,所以张老师需要付出的总金额数约为.
故答案为:
四、解答题
15.(2025·全国一卷·高考真题)为研究某疾病与超声波检查结果的关系,从做过超声波检查的人群中随机调查了1000人,得到如下列联表:
超声波检查结果组别 正常 不正常 合计
患该疾病 20 180 200
未患该疾病 780 20 800
合计 800 200 1000
(1)记超声波检查结果不正常者患该疾病的概率为p,求p的估计值;
(2)根据小概率值的独立性检验,分析超声波检查结果是否与患该疾病有关.
附,
0.050 0.010 0.001
3.841 6.635 10.828
【解析】(1)根据表格可知,检查结果不正常的人中有人患病,所以的估计值为;
(2)零假设为:超声波检查结果与患病无关,
根据表中数据可得,,
根据小概率值的独立性检验,我们推断不成立,即认为超声波检查结果与患该病有关,该推断犯错误的概率不超过.
16.(2025·上海·高考真题)2024年巴黎奥运会,中国获得了男子米混合泳接力金牌.以下是历届奥运会男子米混合泳接力项目冠军成绩记录(单位:秒),数据按照升序排列.
206.78 207.46 207.95 209.34 209.35
210.68 213.73 214.84 216.93 216.93
(1)求这组数据的极差与中位数;
(2)从这10个数据中任选3个,求恰有2个数据在211以上的概率;
(3)若比赛成绩y关于年份x的回归方程为,年份x的平均数为2006,预测2028年冠军队的成绩(精确到0.01秒).
【解析】(1)由题意,数据的最大值为,最小值为,
则极差为;
数据中间两数为与,
则中位数为.
故极差为,中位数为;
(2)由题意,数据共个,以上数据共有个,
故设事件“恰有个数据在以上”,
则,
故恰有个数据在以上的概率为;
(3)由题意,成绩的平均数

由直线过,
则,
故回归直线方程为.
当时,.
故预测年冠军队的成绩为秒.
17.(2025·湖南永州·模拟预测)某经济研究所为了解居民存款余额变化情况,对2009年至2024年居民存款余额进行统计分析,将2009年看成第1年,依次类推,得到第1~16年的居民存款余额(单位:万亿元)的散点图,如图所示:
(1)已知从2021年开始,居民存款余额超过100万亿元,若从2009年至2024年中任取2年,求这2年中恰有一年居民存款余额超过100万亿元的概率;
(2)由散点图知,和的关系可用经验回归模型进行拟合,求关于的经验回归方程.
参考数据:设,则.
参考公式:对于一组数据,其经验回归直线的斜率和截距的最小二乘估计分别为.
【解析】(1)由题意,16年中有4年居民存款余额超过100万亿元,
故所求概率为.
(2),
由题知,,


,故.
18.(25-26高二上·吉林长春·期末)某公司计划对未开通共享电动车的某市进行车辆投放,为了确定车辆投放量,对过去在其他城市的投放量情况以及年使用人次进行了统计,得到了投放量(单位:千辆)与年使用人次(单位:千次)的数据如下表所示,根据数据绘制投放量与年使用人次的散点图如图所示.
1 2 3 4 5 6 7
6 11 21 34 66 101 196
(1)观察散点图,可知两个变量不具有线性相关关系,拟用对数函数模型或指数函数模型对两个变量的关系进行拟合.请问哪个模型更适宜作为投放量与年使用人次的回归方程类型(给出判断即可,不必说明理由)?并求出关于的回归方程;
(2)公司为了测试共享电动车的性能,从所有同型号共享电动车中随机抽取100辆进行等距离骑行测试,骑行前对其中60台进行保养,测试结束后,有20台报废,其中保养过的共享电动车占比.请根据统计数据完成列联表,并根据小概率值的独立性检验,能否认为共享电动车是否报废与保养有关?
\ 保养 未保养 合计
报废 20
未报废
合计 60 100

62.14 1.54 2535 50.12 3.47
参考数据:.
参考公式:对于一组数据,其回归直线的斜率和截距的最小二乘估计公式分别为:
其中.
0.25 0.1 0.05 0.025 0.01 0.001
1.323 2.706 3.841 5.024 6.635 10.828
【解析】(1)由散点图判断,适宜作为投放量与年使用人次的回归方程类型.
由,两边同时取常用对数得.
设,则.
因为,,,,
所以.
把代入,得,
所以,所以,
则,
故关于的回归方程为.
(2)设零假设:是否报废与是否保养无关.
由题意,报废电动车中保养过的共台,未保养的电动车共台,补充列联表如下:
\ 保养 未保养 合计
报废 20
未报废 80
合计 60 40 100
则,
根据小概率值的独立性检验,我们推断不成立,即认为是否报废与保养有关.
19.(25-26高三上·山东青岛·期末)青岛文旅为了解天气状况对景点旅游满意度的影响,分别于晴天和阴雨天在栈桥景点共调查了100位游客,调查结果如下表.
满意 不满意 合计
晴天 40
阴雨天 20
合计 70 100
(1)完善上述表格,并根据小概率值的独立性检验,能否认为天气状况对该景点旅游满意度有影响;
(2)从这100位游客中任选两人,在两人调查当天的天气状况一致的条件下,试求他们对该景点均满意的概率;
(3)天气多变,文旅部门根据以往数据,为游客发布如下天气信息:若第1天为晴天,则第2天为晴天的概率为,为阴雨天的概率为;若第1天为阴雨天,则第2天为阴雨天的概率为,为晴天的概率为.已知第1天是晴天.求第天仍是晴天的概率,并求前天晴天的天数的期望.
附录:,.
0.05 0.010 0.005
3.841 6.635 7.879
【解析】(1)零假设 :天气状况与满意度独立;
列联表如下:
满意 不满意 合计
晴天 40 10 50
阴雨天 30 20 50
合计 70 30 100

根据小概率值的独立性检验,零假设不成立,即认为天气状况对该景点旅游满意度有影响;
(2)记事件A为两人调查当天的天气状况一致,事件B为他们对该景点均满意,
所以
(3)由题意知,
所以,
所以数列是首项为,公比为的等比数列,
所以,所以.
某一天要么是晴天,要么是阴雨天,符合两点分布,记第i天为,
所以
所以.
21世纪教育网(www.21cnjy.com)
21世纪教育网(www.21cnjy.com)

展开更多......

收起↑

资源列表